การแก้ปัญหาข้อมูลที่ไม่มีโครงสร้างด้วย NLP และโมเดลภาษาหนึ่งในกลยุทธ์ AI ขององค์กร

การแก้ปัญหาข้อมูลที่ไม่มีโครงสร้างด้วย NLP และโมเดลภาษาหนึ่งในกลยุทธ์ AI ขององค์กร

02 July 2022
การแก้ปัญหาข้อมูลที่ไม่มีโครงสร้างด้วย NLP และโมเดลภาษาหนึ่งในกลยุทธ์ AI ขององค์กร
การแก้ปัญหาข้อมูลที่ไม่มีโครงสร้างด้วย NLP และโมเดลภาษาหนึ่งในกลยุทธ์ AI ขององค์กร

ในบทความแขกรับเชิญพิเศษนี้ ประภท สุนการะ (Prabhod Sunkara) ผู้ร่วมก่อตั้งและ COO ของบริษัท nRoad, Inc. ได้พูดถึงเรื่องของการที่องค์กรต่าง ๆ พึ่งพาข้อมูลที่ไม่มีโครงสร้างมากขึ้นเพื่อจุดประสงค์ในการวิเคราะห์ กำกับดูแล และทำการตัดสินใจในระดับองค์กร โดย nRoad เป็นแพลตฟอร์มที่สร้างมาเพื่อการประมวลผลภาษาธรรมชาติ (NLP) สำหรับข้อมูลที่ไม่มีโครงสร้างในส่วนการบริการทางด้านการเงินและเป็นบริษัทแรกที่ประกาศ “สงครามกับการทำงานแบบใช้เอกสาร”  ก่อนจะมี nRoad ประภทดำรงตำแหน่งผู้นำหลากหลายตำแหน่งในด้านการพัฒนาผลิตภัณฑ์ การปฏิบัติการ และ Solution Architecture (ตำแหน่งงานที่หาทางออกของปัญหาต่าง ๆ)  เขามี Passion ในการสร้าง AI Solutions ที่เน้นผลลัพธ์ ซึ่งเขาก็ได้ประสบความสำเร็จในการปรับปรุงกระบวนการต่าง ๆ ของบริษัทการเงินระดับโลกมากมายเช่น Bank of America, Merrill Lynch, Morgan Stanley และ UBS

ข้อมูลที่ไม่มีโครงสร้างหรือ Unstructured Data คือ ข้อมูลเชิงลึกที่มีอยู่แพร่หลายในทั่วทุกองค์กร แต่ข้อมูลเหล่านั้นไม่โปร่งใสหรือไม่สามารถใช้งานได้เสมอไป เรื่องนี้จึงยังคงเป็นความท้าทายสำคัญด้านธุรกิจ  ข้อมูลที่ไม่มีการออกแบบฐานข้อมูลไว้ล่วงหน้ามักจะถือว่าเป็นข้อมูลที่ไม่มีโครงสร้าง ซึ่งได้แก่เอกสารและเว็บไซต์ที่เต็มไปด้วยตัวหนังสือตลอดจนไฟล์ภาพ, วิดีโอ, Chatbot, Audio Streaming และโพสต์โซเชียลมีเดีย โดยข้อมูลที่ไม่มีโครงสร้างเหล่านี้มีจำนวนมากถึง 80 ถึง 90 เปอร์เซ็นต์ของข้อมูลที่อยู่ในโลกดิจิทัลทั้งหมด

การเติบโตและความท้าทายของข้อมูลที่ไม่มีโครงสร้าง

จากการวิจัยของบริษัท ITC พบว่า จำนวนข้อมูลที่ไม่มีโครงสร้างนั้นคาดว่าจะเติบโตจาก 33 เซตตะไบต์ในปี 2018 เป็น 175 เซตตะไบต์ หรือ 175 พันล้านเทระไบต์ภายในปี 2025 แต่ยังโชคดีที่ในองค์การเริ่มมีการตระหนักถึงการเติบโตอย่างรวดเร็วของข้อมูลที่ไม่มีโครงสร้าง ตัวอย่างเช่น ในการวิจัยไม่นานมานี้เผยว่าเกือบ 80 เปอร์เซ็นต์ขององค์กรบริการด้านการเงินกำลังประสบกับการที่ข้อมูลที่ไม่มีโครงสร้างเพิ่มขึ้นอย่างรวดเร็ว ยิ่งไปกว่านั้น ผู้วิจัยส่วนใหญ่ในการวิจัยนี้ระบุว่า ข้อมูลปัจจุบันในองค์กรเป็นข้อมูลที่ไม่มีโครงสร้างมากถึง 50 ถึง 90 เปอร์เซ็นต์ด้วยกัน

เมื่อก่อนคอมพิวเตอร์ไม่สามารถเข้าใจข้อมูลประเภทนี้ได้ แต่เนื่องจากในปัจจุบันที่องค์กรต่าง ๆ ต้องพึ่งพาข้อมูลที่ไม่มีโครงสร้างมากขึ้นในการวิเคราะห์ กำกับดูแล และการตัดสินใจทางธุรกิจ ข้อมูลที่ไม่มีโครงสร้างจึงมีความสำคัญมากขึ้น ทำให้ทีม Technology & Data ต่างแข่งกันอัปเกรดและปรับปรุงโครงสร้างพื้นฐานของตน เพื่อให้สอดคล้องกับบริการแบบคลาวด์ที่เติบโตขึ้นและข้อมูลจากทั้งภายในและภายนอกองค์กรที่เพิ่มขึ้นอย่างรวดเร็ว

ขณะเดียวกัน ทีมเหล่านี้ก็กำลังสนใจในเรื่องของการใช้งานข้อมูลเชิงลึก (Insights) ที่ฝังอยู่ในแหล่งข้อมูลที่ไม่มีโครงสร้าง โดยกรณีการใช้งานจะมีตั้งแต่การเพิ่มประสิทธิภาพในการปฏิบัติการไปจนถึงการเตรียมพร้อมรับมือกับการบริการลูกค้าปลายทาง ผลก็คือทั้ง CIO และ CDO ต่างก็ประเมินผลหรือนำวิธีการแก้ไขไปใช้งาน โดยมีตั้งแต่วิธีง่าย ๆ แบบ OCR Plus ไปจนถึงโมเดลภาษาขนาดใหญ่ที่ซับซ้อนควบคู่กับเครื่องจักรหรือเทคนิคการเรียนรู้เชิงลึก

การร่วมใช้ NLP และโมเดลภาษาในกลยุทธ์ข้อมูลของคุณ

ข้อมูลที่ไม่มีโครงสร้างจำนวนมากของบริษัทจะอยู่ในรูปแบบตัวหนังสือ ตัวอย่างเช่นสัญญาทางกฎหมาย เอกสารงานวิจัย คำติชมของลูกค้าจาก Chatbot และทุกอย่างที่อยู่ในรูปแบบของตัวหนังสือ ซึ่งโดยปกติแล้ว องค์กรจะประยุกต์ใช้การประมวลผลภาษาธรรมชาติ (NLP) มาเป็นส่วนหนึ่งของกลยุทธ์ AI และการเปลี่ยนองค์กรมาเป็นองค์กรดิจิทัล (ลองดูตัวอย่างการใช้ประยุกต์ใช้ Data Science กับการวิเคราะห์ข้อมูลเอกสารงานวิจัยที่นี่)

ตลอดสิบปีที่ผ่านมา NLP มีงานวิจัยและการพัฒนาอย่างต่อเนื่อง เรื่องที่โดดเด่นที่สุดก็คือ เรื่องวิวัฒนาการของ Transformer Model ซึ่งช่วยให้องค์กรสามารถก้าวผ่านการวิเคราะห์ Keyword แบบง่าย ๆ ไปเป็นการวิเคราะห์ขั้นสูงอย่าง Sentiment Analysis (กระบวนการวิเคราะห์อารมณ์) และ Semantic Analysis (การวิเคราะห์ทางความหมาย) แม้ว่า NLP จะสามารถทำให้เครื่องจักรระบุจำนวนและเข้าใจแก่นแท้ของข้อความได้ แต่ก็ยังมีความท้าทายในเรื่องของการเข้าใจข้อความที่กำกวม  วิธีการที่จะรับมือกับข้อความกำกวมเหล่านี้ได้ก็คือการรวมความรู้และบริบทของโดเมนเข้าด้วยกันเป็นโมเดลภาษา โดยการใช้งานโมเดลที่ปรับปรุงอย่างดีแล้ว เช่น LegalBERT, SciBERT, FinBERT ฯลฯ ทั้งนี้ก็จะช่วยให้เริ่มต้นวิเคราะห์ข้อมูลได้ง่ายขึ้นสำหรับกรณีหากต้องการใช้งานแบบเฉพาะเจาะจง

ตอนเริ่มแรกโมเดลที่ปรับปรุงอย่างดีแล้วจะมีฐานข้อมูลที่มั่นคง เช่นเดียวกับโมเดลที่ใหญ่ เช่น BERT และ GPT3 แต่อย่างไรก็ตามโมเดลเหล่านี้ยังคงไม่ตอบโจทย์หรือความต้องการของธุรกิจส่วนใหญ่ได้  ด้วยเหตุผลนี้เองธุรกิจที่ดำเนินการในหลายตลาด หลายภูมิภาค และหลายภาษาควรพิจารณาการใช้งานโมเดลภาษาข้ามโดเมน โมเดลหลายภาษา และ/หรือเทคนิคการโอนย้ายการเรียนรู้ (Transfer Learning) เพื่อรับมือกับความท้าทายได้ดียิ่งขึ้น

แม้ว่าจะมีการวิจัยและพัฒนา Language Model Architectures ที่ดีขึ้นและครอบคลุมมากขึ้น แต่ทุกวันนี้ก็ยังไม่มี Solution ที่ใช้ได้กับทุกสิ่ง ด้วยเหตุผลนี้เองทำให้องค์กรที่พยายามสร้างโมเดลภาษาของตนก็ไม่สามารถทำได้ นอกจากนี้ยังมีปัจจัยอื่น ๆ ที่ส่งผลกระทบต่อกลยุทธ์ข้อมูลที่ไม่มีโครงสร้างขององค์กรอีก เช่น การขาดข้อมูลอธิบายประกอบ (Annotated Data) ไม่มีการอบรมเกี่ยวกับเรื่อง Data การที่องค์กรขาดความเข้าใจในการประยุกต์ใช้โมเดล และความที่องค์กรอยากจะรีบพัฒนาและอยากใช้งานอุปกรณ์อย่างรวดเร็วแต่ไม่มีทุนการทำ รวมถึงอยากรีบได้ผลตอบแทนคืนจากการลงทุนอีกด้วย

วิธีที่องค์กรสามารถรับมือกับปัญหาข้อมูลที่ไม่มีโครงสร้างที่เพิ่มขึ้นได้

การนำข้อมูลมาใช้ขับเคลื่อนองค์กร (Data Strategy) และเทคโนโลยีมีบทบาทสำคัญในแผนกลยุทธ์ AI ทั่วไปขององค์กร  องค์กรส่วนใหญ่สามารถวางแผนและจัดการกับข้อมูลที่ไม่มีโครงสร้างได้อย่างมีประสิทธิภาพ แต่ทว่าข้อมูลเชิงลึกนั้นฝังอยู่ในข้อมูลที่ไม่มีโครงสร้าง และองค์กรต่างก็งมหาอยู่ในข้อมูลนี้ CDO ขององค์กรจึงจำเป็นต้องพิจารณาข้อมูลนี้และวางแผนอย่างชาญฉลาดเพื่อใช้ประโยชน์จากข้อมูลนี้

ความท้าทายที่ยากที่สุดที่มักพบได้คือการขาดความสอดคล้องเชิงองค์กรกับกลยุทธ์ AI ขององค์กร แม้ว่าจะไม่เกี่ยวข้องโดยตรงกับโมเดล ML (Machine Learning) และ DL (Deep Learning), ความสอดคล้องกับผู้นำ, ความเข้าใจถ่องแท้เรื่องข้อมูลและผลลัพธ์, และการรวมทีมที่หลากหลาย ทั้งหมดนี้ล้วนจำเป็นอย่างยิ่งสำหรับกลยุทธ์ AI ในองค์กร เพราะวิธีที่ระบุจำนวนได้และเน้นผลลัพธ์ช่วยให้ทีมมุ่งเน้นที่เป้าหมายปลายทางเมื่อเทียบกับโมเดล AI ที่เน้นโฆษณาชวนเชื่อ ตัวอย่างเช่น GPT3 ที่เป็นโมเดลคาดการณ์ภาษาขนาดใหญ่ที่มักจะคาดการณ์ไม่ค่อยถูกต้อง ซึ่งมีหลายกรณีที่มีการเผยแพร่ข้อมูลผิด ๆ เพราะใช้โมเดล GPT3 ซึ่งอาจทำให้องค์กรเสียชื่อเสียงได้

การอบรมและเรียนรู้เชิงลึกในการแก้ไขปัญหานั้นมักมีต้นทุนสูงและแอปพลิเคชันที่ต้องใช้เทคนิคที่เน้น NLP นั้นจำเป็นต้องมีแหล่งช่วยคำนวณที่ใช้โดเมนจำนวนมาก เพราะฉะนั้นเมื่อมีการเริ่มทีม AI ภายในองค์กร องค์กรจะต้องเน้นในเรื่องของการกำหนดปัญหาและผลลัพธ์ที่วัดได้ นอกจากการกำหนดปัญหาแล้ว ทีมผลิตภัณฑ์ต้องโฟกัสที่ความหลากหลาย ความซับซ้อน และความพร้อมใช้งานของข้อมูล ขั้นตอนเหล่านี้จะช่วยวางแผนกลวิธี ระบุโมเดลพื้นฐานที่เหมาะสม และสร้างการกำกับดูแลข้อมูลและการอบรมในเรื่องของฟังก์ชันการใช้งานที่ดี

อีกวิธีหนึ่งที่ช่วยประหยัดค่าใช้จ่ายได้ คือ การเลือกพาร์ทเนอร์ที่เป็นบุคคลภายนอกหรือผู้ที่ให้บริการทางด้านนี้มาช่วยเริ่มกลยุทธ์ของคุณ  เทคโนโลยีของผู้ให้บริการช่วยให้องค์กรได้ใช้ประโยชน์จากความเชี่ยวชาญในการปฏิบัติงานและการดำเนินการที่ดีที่สุดในโมเดลภาษาที่ใหญ่กว่า  ตลอดจนประสบการณ์มากมายที่พวกเขาเคยรับมือกับปัญหาอื่น ๆ ที่เคยเกิดขึ้นมาแล้ว

การร่วมใช้กลยุทธ์เพื่อจัดการกับปัญหาข้อมูลที่ไม่มีโครงสร้างขององค์กรและการใช้ประโยชน์จาก เทคนิค NLP กลายเป็นองค์ประกอบสำคัญของการขับเคลื่อนองค์กรด้วยข้อมูลและเทคโนโลยีที่ใช้ในองค์กร  แม้ว่าโมเดล RPA, OCR Plus, หรือโมเดล ML สถิติขั้นพื้นฐาน (Basic Statistical-based ML) จะไม่สามารถแก้ปัญหาทั้งหมดได้ แต่การใช้วิธีการเรียนรู้เชิงลึกก็จะเป็นแนวทางในการจัดการกับปัญหาข้อมูลที่ไม่มีโครงสร้างขององค์กรต่อไป

บทความโดย InsideData Editorial Team
เนื้อหาจากบทความของ InsideBigdata
แปลและเรียบเรียงโดย ไอสวรรค์ ไชยชะนะ
ตรวจทานและปรับปรุงโดย ปพจน์ ธรรมเจริญพร

Former-Editor-in-Chief at BigData.go.th and Senior Data Scientist at Government Big Data Institute (GBDi )

แบ่งปันบทความ

กลุ่มเนื้อหา

แท็กยอดนิยม

แจ้งเรื่องที่อยากอ่าน

คุณสามารถแจ้งเรื่องที่อยากอ่านให้เราทราบได้ !
และเราจะนำไปพัฒนาบทความให้มีเนื้อหาที่น่าสนใจมากขึ้น

PDPA Icon

We use cookies to optimize your browsing experience and improve our website’s performance. Learn more at our Privacy Policy and adjust your cookie settings at Settings

Privacy Preferences

You can choose your cookie settings by turning on/off each type of cookie as needed, except for necessary cookies.

Accept all
Manage Consent Preferences
  • Strictly Necessary Cookies
    Always Active

    This type of cookie is essential for providing services on the website of the Personal Data Protection Committee Office, allowing you to access various parts of the site. It also helps remember information you have previously provided through the website. Disabling this type of cookie will result in your inability to use key services of the Personal Data Protection Committee Office that require cookies to function.
    Cookies Details

  • Performance Cookies

    This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

  • Functional Cookies

    This type of cookie enables the Big Data Institute (Public Organization)’s website to remember the choices you have made and deliver enhanced features and content tailored to your usage. For example, it can remember your username or changes you have made to font sizes or other customizable settings on the page. Disabling these cookies may result in the website not functioning properly.

  • Targeting Cookies

    "This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

Save settings
This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.