Bayesian Trap: กับดักจากความแม่นยำ

Bayesian Trap: กับดักจากความแม่นยำ

28 กันยายน 2564
Bayesian trap

ถ้าหากว่าคุณเข้ารับการตรวจเลือด เพื่อวินิจฉัยโรค ๆ หนึ่ง แล้วผลออกมาเป็นบวก…คำถามที่เราอาจจะสงสัยคือว่า โอกาสที่เราจะเป็นโรคนั้นจริง ๆ เป็นเท่าไหร่? เราจะมาลองทำการคำนวณค่าความน่าจะเป็นนี้กัน และทำความรู้จักกับ Bayesian Trap เพื่อเสริมสร้างความเข้าใจของเราในการตีความค่าความแม่นยำ (accuracy) ให้ได้ลึกซึ้งมากยิ่งขึ้น

กรณีตัวอย่าง (Case Study) : กับดักของเบย์เซียน (Bayesian Trap)

ในกรณีที่ผลตรวจเลือดของเราเป็นบวก เพื่อที่จะหาค่าความน่าจะเป็นที่เราจะเป็นโรคนี้จริงๆ เราจำเป็นที่จะต้องรู้ความแม่นยำของผลตรวจเลือดครั้งนี้ก่อน ถ้าหากเรารู้ว่าผลเลือดนี้มีความแม่นยำเป็น 99% หลาย ๆ ท่านอาจจะคิดว่า เราจะมีโอกาสเป็นโรคนี้ถึง 99% ซึ่งในความเป็นจริงแล้วอาจจะไม่ใช่แบบนั้น

เนื่องจากว่าเราไม่ได้คำนึงความเป็นไปได้ที่เราจะเป็นโรคนี้ แต่ผลตรวจให้คำตอบที่ผิดคือ ให้ผลตรวจเป็นผลบวกแทนที่จะเป็นผลลบ ซึ่งทำให้เราจะต้องพิจารณาสัดส่วนของประชากรที่เป็นโรคและไม่เป็นโรค โดยปรากฏการณ์นี้เรียกว่า Bayesian Trap

ก่อนที่จะทำการคำนวณความน่าจะเป็นนั้น อยากให้ทุกท่านลองพิจารณาดังภาพข้างล่างเพื่อประกอบการอธิบาย

ถึงแม้ว่าผลตรวจเลือดจะมีความแม่นยำอย่างมาก แต่เนื่องจาก
มีจำนวนคนที่ไม่เป็นโรคอยู่เป็นจำนวนมาก อาจจะทำให้เรามีโอกาสที่สูงขึ้น
ที่จะอยู่ในกลุ่มคนสีส้ม แทนที่เป็นสีฟ้า
รูปที่ 1: แผนภาพแสดงปรากฎการณ์ Bayesian Trap จำแนกกลุ่มคนตามการเป็นโรคและผลเลือด จะเห็นได้ว่าอัตราส่วนของประชากรสีส้ม (ไม่เป็นโรคแต่ได้ผลเลือดเป็นบวก) และประชากรสีน้ำเงิน (เป็นโรคและผลบวกเป็นบวก) นั้นขั้นอยู่กับอัตราส่วนของคนไม่เป็นโรค และคนที่เป็นโรค

ถึงแม้ว่าผลตรวจเลือดจะมีความแม่นยำถึง 99% แต่เนื่องจากมีจำนวนคนที่ไม่เป็นโรคอยู่เป็นจำนวนมาก อาจจะทำให้เรามีโอกาสที่สูงขึ้นที่จะอยู่ในกลุ่มคนสีส้ม (คือกลุ่มคนที่ไม่เป็นโรคแต่มีผลเลือดเป็นบวก) แทนที่เป็นกลุ่มคนสีฟ้า (คือ กลุ่มคนที่เป็นโรคและมีผลเลือดเป็นบวก)

เมื่อเราได้รับผลตรวจเป็นบวก ค่าความน่าจะเป็นที่คุณจะเป็นโรคนี้
จะสามารถคำนวณได้ด้วยอัตราส่วนข้างบน
รูปที่ 2: แผนภาพแสดงวิธีการคำนวณค่าความน่าจะเป็นที่ผู้ได้รับผลเลือดเป็นบวกจะเป็นโรคนี้จริงๆ

จากรูปด้านบน เมื่อเราได้รับผลตรวจเป็นบวก ค่าความน่าจะเป็นที่คุณจะเป็นโรคนี้จะสามารถคำนวณได้ด้วยอัตราส่วน คือ จำนวนกลุ่มคนที่เป็นโรคและมีผลเลือดเป็นบวก (กลุ่มคนสีฟ้า) ต่อจำนวนกลุ่มคนทั้งหมดที่มีผลเลือดเป็นบวก (กลุ่มคนสีส้มและกลุ่มคนสีฟ้า)

เพื่อความสะดวกในการคำนวณ สมมติว่าเรามีกลุ่มคนอยู่ 10,000 คน และมีคนที่เป็นโรคนี้อยู่เพียงแค่ 10 คน คนที่ได้รับผลตรวจเลือดเป็นบวก จะมีอยู่สองกลุ่มคือ

  1. ผู้ที่ไม่ติดโรค แต่ผลตรวจผิดเป็นบวก โดยกลุ่มนี้จะมีจำนวนประมาณ 1% จาก 9,990 คน หรือประมาณ 100 คน
  2. ผู้ที่ติดโรค และผลตรวจถูกให้เป็นบวก โดยกลุ่มนี้จะมีจำนวนอยู่ 99 % จาก 10 หรือประมาณ 10 คน

ดังนั้นหากเราพิจารณาจากกลุ่มคนที่มีผลตรวจเลือดเป็นบวกข้างต้น เราจะมีโอกาสที่จะเป็นโรคนี้จริง ๆ อยู่ที่ประมาณ 10/110 หรือประมาณ 9% เท่านั้น ซึ่งหมายความว่าความแม่นยำของการทดสอบที่เป็น 99% ตามที่ระบุไว้ในตอนแรกนั้นอาจจะไม่ใช่ตัวเลขที่เหมาะสมในการนำไปใช้

หลักการทางเบย์เซียน (Bayesian)

หลักการที่ได้ใช้อธิบายไว้ในข้างต้นเป็นตัวอย่างเบื้องต้นของการอนุมานแบบเบย์เซียน (Bayesian Inference)   โดยหลักการแล้ว จะใช้ 2 องค์ประกอบในการพิจารณา คือ

  1. ความรู้เบื้องต้นเกี่ยวกับลักษณะประชากร (Prior Knowledge)
  2. หลักฐาน หรือความรู้ที่ได้จากการทดลอง (Evidence)

เมื่อทำการคำนวณเสร็จแล้ว เราจะได้ความรู้หลังประสบการณ์ (Posterior Knowledge) ซึ่งถือว่าเป็นคำตอบของการทำ Bayesian Inference ครับ เช่นกรณีการตรวจโรคข้างต้น เราจะได้คำตอบเป็นค่าความน่าจะเป็นของการที่ผู้ที่ได้รับผลตรวจเป็นบวกนั้นจะเป็นโรคจริงๆครับ

ในการอนุมานแบบเบย์เซี่ยน (Bayesian) เราจะใช้สมการของเบย์ (Bayes’ Equation) ในการหาข้อสรุปจากข้อมูลที่เราได้รับ โดยมีพื้นฐานมาจากสมการทางคณิตศาสตร์ดังนี้

[latexpage]

$$\mathbb{P}(A|B) = \frac{\mathbb{P}(B|A)\mathbb{P}(A)}{\mathbb{P}(B)} $$

โดยที่

$A$ คือ เหตุการณ์ (event) ที่ใช้อธิบายถึงคำตอบที่แท้จริงของเหตุการณ์ที่เราสนใจ เช่น เป็นโรค, ไม่เป็นโรค

$B$ คือ เหตุการณ์ (event) ที่ใช้อธิบายข้อมูลที่เราได้รับ เช่น ผลตรวจเลือดเป็นบวก, ลบ

นอกจากเราสามารถตีความแต่ละเทอมในสมการได้ดังต่อไปนี้ครับ:

Posterior Probability หรือ $\mathbb{P}(A|B)$ เป็นค่าความน่าจะเป็นของคำตอบที่เราสนใจหลังจากได้พิจารณาข้อมูลเพิ่มเติมแล้ว เช่น ค่าความน่าจะเป็นที่เราจะเป็นโรค หลังจากได้รับผลตรวจเลือดเป็นบวก

Likelihood หรือ $\mathbb{P}(B|A)$ เป็นค่าความน่าจะเป็นที่เราจะได้ข้อมูลนี้ ในกรณีที่ event $A$ เป็นจริง เช่น ค่าความน่าจะเป็นที่ได้ผลตรวจเลือดเป็นบวกในกรณีที่เราทราบว่าเป็นโรคนี้อยู่แล้ว

Prior Probability หรือ $\mathbb{P}(A)$ เป็นค่าความน่าจะเป็นที่ของคำตอบที่เราสนใจก่อนที่จะได้รับข้อมูลนี้ เช่น สัดส่วนของคนที่เป็นโรคนี้ในประชากรโรคทั้งหมด

Marginalization หรือ $\mathbb{P}(B)$ เป็นโอกาสที่เราจะได้ข้อมูลชุดนี้ขึ้นมา เช่น ค่าความน่าจะเป็นที่จะได้ผลตรวจเลือดเป็นบวก

สถิติแบบเบย์เซียนนั้นถูกตั้งชื่อตามนักสถิติชาวอังกฤษที่ชื่อว่า Thomas Bayes โดยแนวคิดของศาสตร์แขนงนี้ได้ถูกอ้างอิงมาจากบทความที่ชื่อว่า An Essay towards solving a Problem in the Doctrine of Chances ในปี 1963 ในบทความนี้ได้อธิบายถึงขั้นตอนการเปลี่ยนแปลงความเชื่อของเราผ่านทางข้อมูลที่เราได้รับ

แนวคิดสถิติแบบเบย์เซียนต่างจากสถิติแบบความถี่ที่เราเคยเรียนมาอย่างไร

แนวคิดแบบเบย์เซียน (Bayesian) จะค่อนข้างแตกต่างจากสถิติในแบบความถี่ (frequentist)  ที่เราเคยเรียนมา ตรงที่การตีความของค่าความน่าจะเป็น

โดยฝั่ง frequentist นั้นจะมองว่าความน่าจะเป็นขึ้นอยู่กับความถี่ของการเกิดเหตุการณ์ต่าง ๆ แต่ฝั่งของ Bayesian นั้นมองว่าความน่าจะเป็นคือความของเราเกี่ยวกับเหตุการณ์ที่เราสนใจและความรู้ของเรานั้นสามารถเปลี่ยนแปลงได้ทุกครั้งที่เราได้หลักฐานเพิ่มเติมผ่านการอนุมานแบบเบย์เซียน (Bayesian Inference)

โดยส่วนใหญ่แล้วสถิติแบบ Frequentist นั้นจะเน้นการวิเคราะห์ผ่านทาง Likelihood เป็นหลัก นั่นหมายความว่าเราจะได้คำตอบที่อธิบายข้อมูลได้ดี ในทางกลับกันสถิติแบบ Bayesian นั้นจะต้องคำนึงถึงความรู้เบื้องต้น (Prior Knowledge) ด้วย

การวิเคราะห์แบบเบย์เซียนนั้นอาจฟังสมเหตุสมผลกว่าสถิติแบบความถี่ แต่ในทางปฎิบัติแล้วอาจจะมีข้อจำกัดอยู่บางประการ เช่น

  1. ไม่มีหลักการในการกำหนด Prior Knowledge ที่ชัดเจน ผู้ใช้จำเป็นต้องมีความเข้าใจโจทย์ที่กำลังศึกษาที่ดีเพื่อที่จะกำหนด Prior Knowledge ที่เหมาะสม
  2. ขั้นตอนการคำนวณค่อนข้างซับซ้อน ทำให้ใช้ทรัพยากรทางการคำนวณเป็นจำนวนมาก

ถึงแม้ว่าจะมีข้อจำกัดที่กล่าวมาข้างต้น เรายังสามารถนำสถิติแบบ Bayesian ไปใช้ได้ดีในกรณีที่อุปกรณ์การวัดของเรามีโอกาสที่จะคลาดเคลื่อนได้ เช่น การติดตามตำแหน่งยานพาหนะ, การวินิจฉัยโรค หรือการบังคับยานปลอดมนุษย์โดยสาร (Drone) เป็นต้นครับ ในส่วนถัดไปของบทความนี้เราจะอธิบายหลักการนำสถิติแบบเบย์เซียนมาใช้ติดตามตำแหน่งยานพาหนะกันครับ

การใช้ Bayesian Statistic ในการติดตามตำแหน่งยานพาหนะ

โดยปกติแล้วเราจะใช้อุปกรณ์จีพีเอส (GPS) เพื่อใช้ในการระบุตำแหน่งพาหนะ แต่ในบางครั้งตำแหน่งที่ได้รับจากอุปกรณ์นั้นอาจมีความคลาดเคลื่อนได้ มากหรือน้อยขึ้นอยู่กับประสิทธิภาพของอุปกรณ์ และลักษณะการใช้ ดังนั้นเราอาจจะต้องนำเอาข้อมูลจากสภาพแวดล้อม เช่น ตำแหน่งปัจจุบันของยานพาหนะ, ความเร็วของยานพาหนะ, สภาพถนน, ทิศทางลม และสภาพการจราจรมาเป็นเครื่องช่วยคำนวณค่าปัจจุบัน

ในทางปฏิบัติแล้ว เราจะใช้ตัวกรองคาลมาน (Kalman Filter) (ซึ่งเป็นที่รู้จักกันว่าคือ การประมาณค่าของสมการกำลังสองเชิงเส้น) เพื่อคำนวณตำแหน่งที่สมเหตุสมผลของยานพาหนะที่เราติดตาม ในบทความนี้เราจะไม่ลงรายละเอียดทางคณิตศาสตร์ของ Kalman Filter แต่จะใช้ตัวอย่างจำลองเพื่อแสดงให้เห็นถึงหลักการและเหตุผลที่จะนำไปใช้

สมมติว่าเราสนใจที่จะติดตามตำแหน่งของรถคันหนึ่งที่วิ่งจากซ้ายไปขวา (ดังรูปด้านล่าง)

รูปที่ 3: ตำแหน่งของรถที่จุดเริ่มต้น ตำแหน่งที่น่าจะเป็นใน 5 วินาทีข้างหน้าและตำแหน่งที่ระบุโดย GPS ใน 5 วินาทีข้างหน้า

โดยปกติแล้ว ถ้าหากว่าเราถามว่ารถคันนี้ควรจะไปอยู่ตรงไหนในเวลา 5 วินาทีถัดมา คำตอบที่เป็นไปได้มากที่สุดคืออยู่ในเลนเดิมไปข้างหน้า แต่ถ้าหากว่า GPS ระบุว่ารถคันนี้อยู่ที่เลนฝั่งตรงข้ามประมาณ 20 เมตรข้างหน้า (ซึ่งสวนเลน ตามในรูปกำหนด) ในกรณีนี้ เราควรจะยึดตามค่าที่อ่านได้จาก GPS ได้มากแค่ไหน หลักการอนุมานทาง Bayesian จะช่วยให้เราแก้ไขข้อผิดผลาดจากอุปกรณ์นำทาง ในกรณีที่ค่าที่อ่านได้อยู่ในตำแหน่งที่ไม่สมเหตุสมผล

โดยสรุปแล้วบทความนี้ได้พูดถึง Bayesian Trap ซึ่งทำให้เราต้องคำนึงถึงลักษณะทางประชากร (Prior) ประกอบหลักฐานใหม่เสมอ ซึ่งแนวคิดนี้ได้เปิดช่องทางให้เราสามารถจัดการกับแหล่งข้อมูลหลายๆ แหล่งได้ ซึ่งเราได้ทำการยกตัวอย่างการติดตามตำแหน่งของยานพาหนะ ในทางปฏิบัติแล้วแนวคิดทาง Bayesian สามารถนำไปใช้ประโยชน์ได้ในหลายทาง สำหรับรายละเอียดเพิ่มเติม ผู้อ่านสามารถหาได้จากลิงค์อ้างอิง หรือบทความใน bigdata.go.th ในโอกาสถัดไปครับ

แหล่งข้อมูลอ้างอิงเพิ่มเติม

  1. What is Bayesian Inference?
  2. How Bayesian Inference Works?
  3. การคำนวณผลที่ได้จากนโยบายด้วย Causal Impact Analysis
  4. The Kalman Filter: An algorithm for making sense of fused sensor insight

Formal Senior Data Scientist at Big Data Institute (Public Organization), BDI

แบ่งปันบทความ

กลุ่มเนื้อหา

แท็กยอดนิยม

แจ้งเรื่องที่อยากอ่าน

คุณสามารถแจ้งเรื่องที่อยากอ่านให้เราทราบได้ !
และเราจะนำไปพัฒนาบทความให้มีเนื้อหาที่น่าสนใจมากขึ้น

ไอคอน PDPA

เราใช้คุกกี้เพื่อพัฒนาประสิทธิภาพ และประสบการณ์ที่ดีในการใช้เว็บไซต์ของคุณ คุณสามารถศึกษารายละเอียดได้ที่ “นโยบายคุ้กกี้” และสามารถจัดการความเป็นส่วนตัวเองได้ของคุณได้เองโดยคลิกที่ “ตั้งค่า”

ตั้งค่าความเป็นส่วนตัว

คุณสามารถเลือกการตั้งค่าคุกกี้โดยเปิด/ปิด คุกกี้ในแต่ละประเภทได้ตามความต้องการ ยกเว้น คุกกี้ที่จำเป็น

ยอมรับทั้งหมด
จัดการความเป็นส่วนตัว
  • คุกกี้ที่มีความจำเป็น (Strictly Necessary Cookies)
    เปิดใช้งานตลอด

    คุกกี้ประเภทนี้มีความจำเป็นต่อการให้บริการเว็บไซต์ของ สำนักงานคณะกรรมการคุ้มครองข้อมูลส่วนบุคคล เพื่อให้ท่านสามารถเข้าใช้งานในส่วนต่าง ๆ ของเว็บไซต์ได้ รวมถึงช่วยจดจำข้อมูลที่ท่านเคยให้ไว้ผ่านเว็บไซต์ การปิดการใช้งานคุกกี้ประเภทนี้จะส่งผลให้ท่านไม่สามารถใช้บริการในสาระสำคัญของ สำนักงานคณะกรรมการคุ้มครองข้อมูลส่วนบุคคล ซึ่งจำเป็นต้องเรียกใช้คุกกี้ได้
    รายละเอียดคุกกี้

  • คุกกี้เพื่อการวิเคราะห์และประเมินผลการใช้งาน (Performance Cookies)

    คุกกี้ประเภทนี้ช่วยให้ BDI ทราบถึงการปฏิสัมพันธ์ของผู้ใช้งานในการใช้บริการเว็บไซต์ของ BDI รวมถึงหน้าเพจหรือพื้นที่ใดของเว็บไซต์ที่ได้รับความนิยม ตลอดจนการวิเคราะห์ข้อมูลด้านอื่น ๆ BDI ยังใช้ข้อมูลนี้เพื่อการปรับปรุงการทำงานของเว็บไซต์ และเพื่อเข้าใจพฤติกรรมของผู้ใช้งานมากขึ้น ถึงแม้ว่า ข้อมูลที่คุกกี้นี้เก็บรวบรวมจะเป็นข้อมูลที่ไม่สามารถระบุตัวตนได้ และนำมาใช้วิเคราะห์ทางสถิติเท่านั้น การปิดการใช้งานคุกกี้ประเภทนี้จะส่งผลให้ BDI ไม่สามารถทราบปริมาณผู้เข้าเยี่ยมชมเว็บไซต์ และไม่สามารถประเมินคุณภาพการให้บริการได้

  • คุกกี้เพื่อการใช้งานเว็บไซต์ (Functional Cookies)

    คุกกี้ประเภทนี้จะช่วยให้เว็บไซต์ของ BDI จดจำตัวเลือกต่าง ๆ ที่ท่านได้ตั้งค่าไว้และช่วยให้เว็บไซต์ส่งมอบคุณสมบัติและเนื้อหาเพิ่มเติมให้ตรงกับการใช้งานของท่านได้ เช่น ช่วยจดจำชื่อบัญชีผู้ใช้งานของท่าน หรือจดจำการเปลี่ยนแปลงการตั้งค่าขนาดฟอนต์หรือการตั้งค่าต่าง ๆ ของหน้าเพจซึ่งท่านสามารถปรับแต่งได้ การปิดการใช้งานคุกกี้ประเภทนี้อาจส่งผลให้เว็บไซต์ไม่สามารถทำงานได้อย่างสมบูรณ์

  • คุกกี้เพื่อการโฆษณาไปยังกลุ่มเป้าหมาย (Targeting Cookies)

    คุกกี้ประเภทนี้เป็นคุกกี้ที่เกิดจากการเชื่อมโยงเว็บไซต์ของบุคคลที่สาม ซึ่งเก็บข้อมูลการเข้าใช้งานและเว็บไซต์ที่ท่านได้เข้าเยี่ยมชม เพื่อนำเสนอสินค้าหรือบริการบนเว็บไซต์อื่นที่ไม่ใช่เว็บไซต์ของ BDI ทั้งนี้ หากท่านปิดการใช้งานคุกกี้ประเภทนี้จะไม่ส่งผลต่อการใช้งานเว็บไซต์ของ BDI แต่จะส่งผลให้การนำเสนอสินค้าหรือบริการบนเว็บไซต์อื่น ๆ ไม่สอดคล้องกับความสนใจของท่าน

บันทึกการตั้งค่า
ไซต์นี้ลงทะเบียนกับ wpml.org ในฐานะไซต์พัฒนา สลับไปยังไซต์การผลิตโดยใช้รหัส remove this banner.