LLM Evaluation Metrics: การวัดประสิทธิภาพโมเดลภาษาขนาดใหญ่ 

LLM Evaluation Metrics: การวัดประสิทธิภาพโมเดลภาษาขนาดใหญ่ 

ในยุคที่เทคโนโลยีปัญญาประดิษฐ์ (AI) กำลังพัฒนาอย่างรวดเร็ว โมเดลภาษาขนาดใหญ่ (Large Language Model – LLM) ได้กลายเป็นเครื่องมือสำคัญในการประมวลผลภาษาธรรมชาติ (Natural Language Processing – NLP) ซึ่งมีความสามารถในการสร้างข้อความที่ใกล้เคียงกับภาษามนุษย์ เช่น การเขียนบทความ การตอบคำถาม หรือการแปลภาษา การพัฒนา LLM ไม่ได้มุ่งเน้นเพียงการสร้างโมเดลที่ทำงานได้ดีบนข้อมูลที่มีอยู่เท่านั้น แต่ยังต้องให้ความสำคัญกับการประเมินความสามารถของโมเดลด้วยการวัดประสิทธิภาพ (Evaluation Metrics) เพื่อให้ผู้พัฒนาสามารถปรับปรุงโมเดลให้มีประสิทธิภาพที่ดียิ่งขึ้นในอนาคต 

รูปที่ 1 ภาพรวมระบบการวัดประสิทธิภาพโมเดลภาษาขนาดใหญ่ [1

ในบทความนี้ จะเริ่มด้วยการเล่าถึงความสำคัญของการวัดประสิทธิภาพ LLM ประเภทของการคำนวณค่าการวัดประสิทธิภาพ LLM และการนำไปประยุกต์ใช้งานจริงและข้อควรระวัง 

ความสำคัญของการวัดประสิทธิภาพ LLM 

การวัดประสิทธิภาพของโมเดลภาษาขนาดใหญ่เป็นสิ่งสำคัญด้วยเหตุผลหลายประการ เช่น 

  • การปรับปรุงโมเดล: การวัดประสิทธิภาพช่วยระบุจุดอ่อนของโมเดลอย่างชัดเจน ทำให้ผู้พัฒนาสามารถปรับปรุงและแก้ไขโมเดลให้ดียิ่งขึ้น 
  • การสร้างความมั่นใจให้ผู้ใช้: การประเมินที่แม่นยำทำให้มั่นใจได้ว่าโมเดลให้ข้อมูลที่ถูกต้องและน่าเชื่อถือ 
  • การลดความเสี่ยง: ช่วยป้องกันการใช้โมเดลที่อาจสร้างข้อมูลที่ไม่ถูกต้องหรือมีอคติ ซึ่งอาจก่อให้เกิดผลกระทบที่ไม่พึงประสงค์ 

หากการวัดประสิทธิภาพไม่ถูกต้อง อาจนำไปสู่การตัดสินใจที่ผิดพลาดได้ เช่น 

  • การให้ข้อมูลที่ไม่ถูกต้อง: ซึ่งอาจทำให้ผู้ใช้สูญเสียความเชื่อมั่นในระบบ 
  • การสร้างเนื้อหาที่ไม่เหมาะสม: ซึ่งอาจทำให้เกิดปัญหาทางจริยธรรมและกฎหมาย 
  • การขาดประสิทธิภาพ: ทำให้โมเดลไม่สามารถตอบสนองต่อความต้องการของผู้ใช้ได้อย่างเต็มที่ 

ประเภทของการคำนวณค่าการวัดประสิทธิภาพ LLM 

การประเมินผลของ LLM สามารถแบ่งออกเป็น 3 ประเภทหลัก ได้แก่ 

1 การวัดเชิงสถิติ (Statistical Scorers) 

การวัดเชิงสถิติเป็นการใช้วิธีการทางสถิติเพื่อประเมินความคล้ายคลึงกันของข้อความที่โมเดลสร้างขึ้นกับข้อความที่มนุษย์สร้าง ข้อดีของวิธีนี้คือ เข้าใจง่าย ใช้กันแพร่หลาย ใช้ทรัพยากรน้อย และประเมินผลได้รวดเร็ว แต่ข้อเสียคือไม่คำนึงถึงความหมายเชิงบริบทหรือความเข้าใจที่ลึกซึ้ง เช่น 

  • BLEU (Bilingual Evaluation Understudy): เป็นเครื่องมือที่ใช้ในการประเมินการแปลภาษา โดยวัดความคล้ายคลึงระหว่างประโยคที่โมเดลสร้างขึ้นกับประโยคที่มนุษย์สร้าง โดยการนับการเกิดของ n-gram (กลุ่มของ n คำที่ต่อเนื่องกัน) ในการวัดความคล้ายคลึงกัน ยิ่งคำตรงกันมาก BLEU ยิ่งสูง 
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation): ใช้ในการประเมินผลการสรุปข้อความ (summarization) โดยวัดการครอบคลุม (recall) ของ n-gram ระหว่างข้อความที่โมเดลสร้างและข้อความสรุปของมนุษย์ ช่วยให้เข้าใจว่าข้อความที่โมเดลสร้างมีความคล้ายคลึงกับการสรุปของมนุษย์มากน้อยเพียงใด ยิ่งโมเดลสรุปข้อความได้ดีมาก ROUGE ยิ่งสูง 
  • Levenshtein Distance: วัดความคล้ายคลึงระหว่างสองข้อความ โดยอิงจากจำนวนการแก้ไขที่ต้องทำเพื่อเปลี่ยนข้อความหนึ่งไปเป็นอีกข้อความหนึ่ง เช่น การเพิ่ม ลบ หรือแทนที่อักขระ Levenshtein Distance จะบ่งบอกถึงจำนวนการกระทำที่ต้องทำเพื่อแปลงข้อความหนึ่งไปเป็นอีกข้อความหนึ่ง ถ้ามีค่าน้อย หมายความว่าข้อความสองชุดนั้นคล้ายคลึงกันมาก 

2 การวัดด้วยโมเดล (Model-Based Scorers) 

การวัดด้วยโมเดลใช้ LLM เองในการประเมินผล ซึ่งสามารถให้ผลที่แม่นยำและใกล้เคียงความจริงมากกว่า แต่มีความซับซ้อนและต้องการการประมวลผลมากขึ้น เช่น 

  • GPTScore: ใช้ความน่าจะเป็นในการสร้างข้อความเป้าหมายเป็นตัวชี้วัด โดยวัดความน่าจะเป็นที่โมเดลจะสร้างข้อความที่ต้องการ คำนวณโดยอิงจากค่าความน่าจะเป็นของข้อความที่โมเดลสร้าง ถ้ามีค่า GPTScore สูง แสดงว่าโมเดลสามารถสร้างข้อความที่มีความใกล้เคียงกับข้อความเป้าหมายได้อย่างแม่นยำ 
  • G-Eval: ใช้กระบวนการที่เรียกว่า “chain of thoughts” เพื่อสร้างขั้นตอนการประเมินผล โดยให้โมเดลสร้างชุดของขั้นตอนการประเมินก่อนที่จะใช้ขั้นตอนเหล่านั้นในการกำหนดคะแนนสุดท้าย การประเมินความสอดคล้องของผลลัพธ์จะถูกกำหนดโดยการสร้างคำถามที่มีเกณฑ์การประเมินและข้อความที่ต้องการประเมิน ผลลัพธ์จะอิงจากกระบวนการคิดของโมเดล 

รูปที่ 2 แสดงกระบวนการ G-EVAL: LLM สร้าง chain of thoughts จากข้อมูลงานและเกณฑ์ แล้วใช้ผลลัพธ์นี้ประเมินแบบผ่านการใช้คำสั่ง (prompt) จากนั้นคำนวณคะแนนสุดท้ายโดยใช้ผลรวมถ่วงน้ำหนักด้วยความน่าจะเป็นของคะแนนผลลัพธ์ [2

3 การผสมผสานระหว่างการวัดเชิงสถิติและโมเดล (Combining Statistical and Model-Based Scorers) 

การผสมผสานระหว่างการวัดเชิงสถิติและการวัดด้วยโมเดลช่วยให้ได้ผลลัพธ์ที่มีความแม่นยำและเชื่อถือได้มากขึ้น โดยคำนึงถึงความหมายเชิงบริบท เช่น 

  • BERTScore: ใช้โมเดลภาษาที่ผ่านการฝึกฝนมาแล้ว เช่น BERT ในการประเมินความคล้ายคลึงระหว่างเวกเตอร์ของคำในข้อความที่สร้างขึ้นกับเวกเตอร์คำในข้อความอ้างอิง ยิ่งค่า BERTScore สูงมากเท่าใด ข้อความที่โมเดลสร้างก็ยิ่งมีความใกล้เคียงกับข้อความที่ต้องการมากขึ้นเท่านั้น 

รูปที่ 3 แสดงการประเมินความคล้ายคลึงระหว่างข้อความอ้างอิงและข้อความที่สร้างขึ้น โดยใช้ BERT embeddings เพื่อแทนคำในรูปแบบเวกเตอร์ และใช้การคำนวณค่าความคล้ายคลึง (cosine similarity) ระหว่างคำในแต่ละประโยค จากนั้นจับคู่คำที่มีความคล้ายคลึงกันแบบ greedy matching (แสดงด้วยกรอบสีแดง) และอาจถ่วงน้ำหนักด้วย IDF เพื่อเพิ่มความแม่นยำ (เป็นตัวเลือก) [3

การนำไปประยุกต์ใช้งานจริงและข้อควรระวัง 

เพื่อให้การวัดประสิทธิภาพของโมเดลภาษาขนาดใหญ่มีความครอบคลุมและแม่นยำมากขึ้น ควรพิจารณาวิธีการที่หลากหลายดังนี้: 

  • การคำนวณค่าการวัดประสิทธิภาพหลายประเภทร่วมกัน: การนำการวัดเชิงสถิติ เช่น BLEU และ ROUGE มาร่วมกับการผสมผสานระหว่างการวัดเชิงสถิติและโมเดล เช่น BERTScore จะช่วยให้การประเมินผลมีความครอบคลุมมากขึ้น ได้รับภาพรวมที่ชัดเจนเกี่ยวกับความสามารถของโมเดล และลดความเสี่ยงในการ overfitting ของผลการวัดได้ 
  • การประเมินความทนทานของโมเดล: ควรพิจารณาประสิทธิภาพของโมเดลภายใต้สถานการณ์ต่าง ๆ เช่น ข้อความที่มีโครงสร้างที่ซับซ้อนหรือมีการใช้ภาษาที่ไม่เป็นทางการ เพื่อให้มั่นใจว่าโมเดลสามารถทำงานได้ดีในสภาพแวดล้อมที่หลากหลาย การทดสอบโมเดลภายใต้เงื่อนไขที่หลากหลายจะช่วยให้เราเข้าใจความสามารถและข้อจำกัดของโมเดลได้อย่างครอบคลุม 
  • การประเมินด้วยมนุษย์: การเสริมการประเมินด้วยมนุษย์เข้าไปในการประเมินผลจะช่วยให้ได้ข้อมูลที่ละเอียดและเชิงคุณภาพมากขึ้น การใช้ผู้เชี่ยวชาญหรือผู้ใช้จริงในการประเมินความถูกต้อง ความเป็นธรรมชาติ และความเหมาะสมของข้อความที่โมเดลสร้างขึ้น สามารถจับข้อผิดพลาดที่การวัดประสิทธิภาพอาจไม่สามารถตรวจจับได้ การประเมินด้วยมนุษย์จะช่วยเสริมความเชื่อมั่นในความแม่นยำของผลลัพธ์ที่ได้จากการวัดเชิงสถิติและโมเดล 

บทสรุป 

การวัดประสิทธิภาพของโมเดลภาษาขนาดใหญ่เป็นกระบวนการที่สำคัญและจำเป็นในการพัฒนา LLM ที่มีคุณภาพ การใช้วิธีการวัดที่หลากหลายและการประเมินผลอย่างครอบคลุมจะช่วยให้ได้โมเดลที่มีประสิทธิภาพและสามารถตอบสนองต่อความต้องการของผู้ใช้ได้อย่างมีประสิทธิภาพในอนาคต 

เอกสารอ้างอิง 

บทความโดย ธนกร ทำอิ่นแก้ว

ตรวจทานและปรับปรุงโดย ดร.ขวัญศิริ ศิริมังคลา

Data Scientist at Big Data Institute (Public Organization), BDI

PDPA Icon

We use cookies to optimize your browsing experience and improve our website’s performance. Learn more at our Privacy Policy and adjust your cookie settings at Settings

Privacy Preferences

You can choose your cookie settings by turning on/off each type of cookie as needed, except for necessary cookies.

Accept all
Manage Consent Preferences
  • Strictly Necessary Cookies
    Always Active

    This type of cookie is essential for providing services on the website of the Personal Data Protection Committee Office, allowing you to access various parts of the site. It also helps remember information you have previously provided through the website. Disabling this type of cookie will result in your inability to use key services of the Personal Data Protection Committee Office that require cookies to function.
    Cookies Details

  • Performance Cookies

    This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

  • Functional Cookies

    This type of cookie enables the Big Data Institute (Public Organization)’s website to remember the choices you have made and deliver enhanced features and content tailored to your usage. For example, it can remember your username or changes you have made to font sizes or other customizable settings on the page. Disabling these cookies may result in the website not functioning properly.

  • Targeting Cookies

    "This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

Save settings
This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.