Artit Sagoolmuang, PhD

Artit Sagoolmuang, PhD

Senior Data Scientist at Big Data Institute (Public Organization), BDI

บทความทั้งหมด

All Articles

Author Category Post Filter
LangChain: ตัวช่วยในการพัฒนาแอปพลิเคชันที่ขับเคลื่อนด้วย AI ทางภาษา
การพัฒนาแอปพลิเคชันจาก LLM นั้น ต้องพึ่งนักพัฒนาในหลากหลายแขนง ทำให้เกิดข้อจำกัดการทำงาน LangChain จะเข้ามาช่วยในส่วนนี้
7 February 2024
Natural Language Processing (NLP): เครื่องมือที่ช่วยให้คอมพิวเตอร์เข้าใจภาษามนุษย์
            ถึงแม้ว่าการวิเคราะห์ข้อมูลต่าง ๆ และการสร้างแบบจำลองจากข้อมูลเหล่านั้นด้วยศาสตร์ทางด้านการเรียนรู้ของเครื่อง (Machine Learning) จะเกี่ยวข้องกับข้อมูลที่มีโครงสร้าง (Structured Data) เช่น ข้อมูลเชิงตาราง (Tabular Data) เป็นส่วนใหญ่ แต่ทว่าในโลกความเป็นจริง ข้อมูลบนโลกดิจิทัลในปัจจุบันมากกว่า 80% เป็นข้อมูลที่ไม่มีโครงสร้าง (Unstructured Data) เช่น ไฟล์ภาพ เสียง หรือ วีดิโอ รวมถึงข้อมูลในลักษณะของข้อความ อาทิ เนื้อหาในบทความต่าง ๆ การโพสต์ข้อความบนโซเชียลมีเดีย การตอบกระทู้บนเว็บบอร์ด บทสัมภาษณ์ของนักกีฬาและนักการเมือง และการแสดงความคิดเห็นต่อสินค้าบนแพลตฟอร์มพาณิชย์อิเล็กทรอนิกส์ (E-commerce Platform) ทั้งนี้ การวิเคราะห์ข้อมูลในลักษณะดังกล่าวจำเป็นต้องอาศัยศาสตร์เฉพาะทางที่มีชื่อเรียกเพราะ ๆ ว่า การประมวลผลภาษาธรรมชาติ (Natural Language Processing: NLP) เพื่อช่วยให้คอมพิวเตอร์เข้าใจภาษาที่ซับซ้อนของมนุษย์ โดยเราจะมาทำความรู้จักกับมันให้มากขึ้นในบทความนี้ ซึ่งจะขอเรียกชื่อพระเอกของเราสั้น ๆ ด้วยชื่อย่อว่า “NLP” ดังนั้น หากไม่มีกระบวนการที่เหมาะสมในการนำข้อมูลเหล่านั้นมาใช้ประโยชน์ มันก็จะเป็นเพียงแค่ชุดของตัวอักษรซึ่งไม่สามารถสร้างมูลค่าหรือองค์ความรู้ใด ๆ ให้กับองค์กรได้ วิวัฒนาการและความสำคัญของ NLP การประมวลผลภาษาธรรมชาติ (NLP) เป็นศาสตร์ที่สำคัญทางด้าน Machine Learning โดยมันเป็นสาขาวิชาหนึ่งที่ประกอบด้วยองค์ความรู้จากหลากหลายแขนง อาทิ ภาษาศาสตร์ (Linguistics) วิทยาการคอมพิวเตอร์ (Computer Science) ปัญญาประดิษฐ์ (Artificial Intelligence: AI) รวมถึงสถิติ (Statistics) โดยมีจุดมุ่งหมายเพื่อให้คอมพิวเตอร์สามารถทำความ “เข้าใจ” ข้อมูลที่มีลักษณะเป็นข้อความหรือคำพูดเฉกเช่นเดียวกับที่มนุษย์ที่ทำได้ ซึ่งไม่ใช่เพียงแค่เข้าใจความหมายโดยตรงของข้อความนั้น ๆ แต่ยังรวมถึงการรับรู้ถึงความหมายโดยนัย ความรู้สึกของผู้เขียน ความแตกต่างทางบริบทของภาษา รวมถึงสามารถทำการวิเคราะห์ในรูปแบบต่าง ๆ ได้อีกด้วย โดย NLP มีจุดกำเนิดมาตั้งแต่ช่วงกลางศตวรรษที่ 19 และได้มีการพัฒนาต่อยอดมาเรื่อย ๆ จนถึงปัจจุบัน โดยในที่นี้เราขอแบ่งช่วงวิวัฒนาการของ NLP ออกเป็น 3 ยุค ดังต่อไปนี้ ในยุคแรก NLP ถูกใช้งานด้วยวิธีการตามกฎ (Rule-based Method) โดยนักภาษาศาสตร์ผู้มีความเชี่ยวชาญโครงสร้างของภาษาที่สนใจ จะเป็นผู้เขียนกฎต่าง ๆ ขึ้นมา เพื่อให้คอมพิวเตอร์สามารถนำไปคำนวนเพื่อหาคำตอบของโจทย์ที่ต้องการได้ ในยุคต่อมา พบว่าการเขียนกฎด้วยมือไม่สามารถตอบสนองต่อโจทย์ที่มีความซับซ้อนมาก ๆ ได้ อย่างไรก็ตาม สิ่งที่ได้มาทดแทนในยุคนี้คือ ประสิทธิภาพของเครื่องคอมพิวเตอร์ รวมถึงความรู้ทางด้านสถิติ และ Machine Learning ซึ่งได้ถูกนำมาพัฒนาเพื่อใช้ในการทำงานด้าน NLP โดยมีการนำเข้าข้อมูลเพื่อให้คอมพิวเตอร์สามารถเรียนรู้ด้วยตนเองแทนการใช้ผู้เชี่ยวชาญทางด้านภาษา ในยุคปัจจุบัน ด้วยพลังการคำนวนของคอมพิวเตอร์ที่มีการพัฒนาสูงขึ้นอย่างต่อเนื่อง ทำให้เทคโนโลยีที่มีความซับซ้อนสูงอย่าง การเรียนรู้เชิงลึก (Deep Learning) ถูกนำมาใช้งานแทนที่ Machine Learning ซึ่งใช้ความรู้ทางด้านสถิติแบบดั้งเดิม อย่างแพร่หลายมากขึ้น รวมถึงในงานด้าน NLP ด้วยเช่นกัน อาทิ การสร้างแบบจำลองทางภาษา (Language Model) และการวิเคราะห์โครงสร้างของข้อความ (Parsing) โดยสิ่งสำคัญที่ทำให้ NLP ได้รับความสนใจอย่างแพร่หลายและมีการพัฒนาอย่างต่อเนื่องมาตลอดหลายสิบปี คือความต้องการในการประมวลผลข้อมูลที่มีลักษณะเป็นข้อความในหลายภาคส่วน อาทิ ด้านการศึกษา ด้านธุรกิจ และด้านเทคโนโลยีการสื่อสาร ซึ่งล้วนแล้วแต่มีการป้อนข้อมูลดังกล่าวเข้าสู่โลกดิจิทัลเป็นปริมาณมหาศาลในทุก ๆ ปี ดังนั้น หากไม่มีกระบวนการที่เหมาะสมในการนำข้อมูลเหล่านั้นมาใช้ประโยชน์ มันก็จะเป็นเพียงแค่ชุดของตัวอักษรซึ่งไม่สามารถสร้างมูลค่าหรือองค์ความรู้ใด ๆ ให้กับองค์กรได้ ยิ่งไปกว่านั้น ในมุมมองขององค์กรซึ่งล้วนแล้วแต่เป็นผู้ผลิตและครอบครองข้อมูลทางภาษาขนาดใหญ่ในเอกสารทั้งหลาย ถ้าองค์กรใดสามารถปรับตัวเพื่อรับมือกับข้อมูลเหล่านั้นและสามารถนำ NLP มาประยุกต์ใช้ได้ก่อน องค์กรนั้นย่อมได้เปรียบกว่าอย่างแน่นอน ตัวอย่างเครื่องมือสำหรับงาน NLP เนื่องจากข้อมูลในรูปแบบของข้อความสามารถทำการวิเคราะห์ได้ในหลากหลายมุมมอง ดังนั้น เครื่องมือสำหรับงาน NLP จึงมีความหลากหลายเช่นเดียวกัน โดยในการทำโปรเจคหนึ่ง ๆ อาจมีความจำเป็นที่ต้องใช้เครื่องมือมากกว่าหนึ่งรายการ ซึ่งในที่นี้ จะมีการแนะนำเครื่องมือเบื้องต้นที่น่าสนใจสำหรับงาน NLP ตัวอย่างการประยุกต์ใช้ NLP ในด้านต่าง ๆ เนื่องด้วยปริมาณอันมหาศาลของข้อมูลลักษณะข้อความในปัจจุบัน ซึ่งมีบริบทและแหล่งกำเนิดข้อมูลที่หลากหลาย ส่งผลให้ NLP ได้รับการนำไปใช้เพื่อให้ก่อประโยชน์ในวงการต่าง ๆ อย่างมากมาย โดยส่วนนี้ จะทำการแนะนำตัวอย่างการประยุกต์ใช้เครื่องมือสำหรับงาน NLP ในด้านต่าง ๆ ที่น่าสนใจ ด้านการทำงานวิจัย วงการวิจัยเป็นหนึ่งในแหล่งของข้อมูลทางภาษาขนาดใหญ่ ซึ่งเปิดโอกาสให้ NLP สามารถเข้ามามีบทบาทได้อย่างหลากหลาย ตัวอย่างเช่น การประยุกต์ใช้ Topic Model ในการจัดหมวดหมู่เอกสารเพื่อวิเคราะห์หาหัวข้อของบทความงานวิจัย นอกจากนั้น ยังสามารถต่อยอดการทำ Word Embedding เพื่อแปลงประโยคหรือเอกสารให้เป็นเชิงปริมาณ และใช้ในการเปรียบเทียบความใกล้เคียงกันของข้อเสนอโครงการวิจัยได้อีกด้วย โดยแนวคิดเดียวกันนี้สามารถประยุกต์ใช้เพื่อตรวจสอบความคล้ายคลึงกันของเอกสารชนิดอื่น ๆ ได้เช่นเดียวกัน อาทิ คำขอสิทธิบัตร บทประพันธ์ และบทความในหนังสือพิมพ์ ด้านพาณิชย์อิเล็กทรอนิกส์ (E-commerce) ในปัจจุบัน การใช้จ่ายเพื่อสั่งซื้อสินค้าผ่านช่องทางออนไลน์อย่างแพลตฟอร์ม E-commerce เข้ามามีบทบาทสำคัญเป็นอย่างมากในระบบเศรษฐกิจ ซึ่งนอกจากจะก่อให้เกิดปริมาณการทำธุรกรรมที่มหาศาลแล้ว ยังมีการนำเข้าข้อมูลประเภทข้อความขนาดใหญ่เช่นเดียวกัน ไม่ว่าจะเป็น คำอธิบายสินค้าและบริการ การแสดงความคิดเห็นของผู้บริโภค รวมถึงการสนทนากันระหว่างผู้ซื้อและผู้ขายผ่านทางช่องแชท ดังนั้น จึงเปิดโอกาสให้ผู้ประกอบการสามารถนำเครื่องมือทาง NLP มาประยุกต์ใช้เพื่อก่อให้เกิดประโยชน์กับธุรกิจของตนได้ ตัวอย่างเช่น การใช้แบบจำลองทางภาษาเพื่อพัฒนาแชทบอทมาช่วยในการตอบแชทลูกค้า หรือการใช้ Sentiment Analysis เพื่อวิเคราะห์ความคิดเห็นของลูกค้าต่อสินค้าและบริการ ด้านการแพทย์ ข้อมูลทางการแพทย์มีจำนวนไม่น้อยที่มีลักษณะเป็นข้อความ ซึ่งสามารถนำไปใช้วิเคราะห์ต่อได้ ตัวอย่างเช่น บทสนทนาระหว่างแพทย์และผู้ป่วย การวินิจฉัยโรคโดยแพทย์ และประวัติการรักษาของผู้ป่วย ส่งผลให้มีการนำ NLP มาประยุกต์ใช้ในงานด้านนี้เช่นเดียวกัน ได้แก่ การวิเคราะห์ความรู้สึกของผู้ป่วยโดยใช้ Sentiment Analysis การระบุหมวดหมู่ของคำในประวัติผู้ป่วยออกเป็น ชื่อโรค ชื่อยา อาการ และอื่น ๆ โดยใช้ NER รวมถึงการตรวจสอบการวินิจฉัยโรคที่คล้ายคลึงกันในอดีตเพื่อศึกษาแนวทางในการรักษาโดยการประยุกต์ใช้ Word Embedding ด้านกฎหมาย สำหรับงานด้านกฎหมาย ก็มีปริมาณข้อมูลทางภาษาจำนวนมากและหลากหลายเช่นเดียวกัน อาทิ ประมวลกฎหมายต่าง ๆ คำร้องต่อศาล คำให้การของคู่ความ และคำพิพากษาของศาล ซึ่งสามารถประยุกต์ใช้เครื่องมือ NLP ได้ในหลายมิติ ไม่ว่าจะเป็นการใช้ PoS Tagging และ NER เพื่อช่วยในการตีความประมวลกฎหมาย อีกทั้งยังสามารถใช้ Topic Model ในการวิเคราะห์หาหัวข้อของคำร้องได้อีกด้วย บทส่งท้าย จะเห็นได้ว่า NLP เข้ามามีบทบาทสำคัญในชีวิตประจำวันของเรา โดยมีการนำไปใช้อย่างแพร่หลาย ทั้งในแบบที่เรารู้ตัว เช่น การใช้เครื่องมือแปลภาษา การคุยกับแชทบอท และในแบบที่เราไม่รู้ตัว เช่น การวิเคราะห์ความรู้สึกของเราจากการแสดงความคิดเห็นบน Social...
29 September 2022
PDPA Icon

We use cookies to optimize your browsing experience and improve our website’s performance. Learn more at our Privacy Policy and adjust your cookie settings at Settings

Privacy Preferences

You can choose your cookie settings by turning on/off each type of cookie as needed, except for necessary cookies.

Accept all
Manage Consent Preferences
  • Strictly Necessary Cookies
    Always Active

    This type of cookie is essential for providing services on the website of the Personal Data Protection Committee Office, allowing you to access various parts of the site. It also helps remember information you have previously provided through the website. Disabling this type of cookie will result in your inability to use key services of the Personal Data Protection Committee Office that require cookies to function.
    Cookies Details

  • Performance Cookies

    This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

  • Functional Cookies

    This type of cookie enables the Big Data Institute (Public Organization)’s website to remember the choices you have made and deliver enhanced features and content tailored to your usage. For example, it can remember your username or changes you have made to font sizes or other customizable settings on the page. Disabling these cookies may result in the website not functioning properly.

  • Targeting Cookies

    "This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

Save settings
This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.