Survival Analysis กับความท้าทายในการจัดการ Censored Data

Survival Analysis กับความท้าทายในการจัดการ Censored Data

24 กันยายน 2563

Survival Analysis คืออะไร

Survival Analysis (การวิเคราะห์การรอดชีพ) หรือเรียกอีกอย่างว่า การวิเคราะห์ระยะปลอดเหตุการณ์ เป็นสาขาย่อยหนึ่งในสถิติ มีเป้าหมายเพื่อวิเคราะห์และสร้างแบบจำลองที่ทำนายเวลาที่ใช้ในการเกิดเหตุการณ์บางอย่างที่เราสนใจ (Time to Event หรือ Survival Time) เช่น ระยะเวลาการเสียชีวิตของผู้ป่วยมะเร็ง ระยะเวลาที่เครื่องจักรจะเสีย หรือระยะเวลาที่ลูกค้าจะย้ายค่าย เป็นต้น  Survival Analysis มีการประยุกต์ใช้มากในทางการแพทย์ ส่วนในสาขาอื่น ๆ ก็มีการนำวิธีนี้ไปใช้ในการวิเคราะห์ข้อมูลที่สนใจระยะเวลาการเกิดเหตุการณ์ในลักษณะนี้ด้วยเช่นเดียวกัน

แผนภาพแสดงระยะเวลาการย้ายค้ายของลูกค้าแต่ละราย

ตัวอย่างการประยุกต์ Survival Analysis ในสาขาต่าง ๆ

  • Healthcare

ในทางการแพทย์มีการประยุกต์ใช้ Survival Analysis ค่อนข้างเยอะ โดยตัวอย่างเหตุการณ์ที่สนใจ อาจจะเป็นการเสียชีวิต การเข้ารับการรักษาซ้ำ การออกจากโรงพยาบาล หรือเหตุการณ์อื่น ๆ ตัวอย่าง เช่น การทดลองเปรียบเทียบประสิทธิภาพการรักษา โดยแบ่งเป็นสองกลุ่มทดสอบที่มีการให้ยาต่างชนิดกัน เพื่อเปรียบเทียบระยะเวลาในการรักษาหาย

ตัวอย่างการประยุกต์ใช้ Survival Analysis ในทางการแพทย์
  • Customer Lifetime Value (CLV):

Customer Lifetime Value (CLV) คือ มูลค่าตลอดช่วงชีวิตของลูกค้า ใช้สำหรับนักการตลาดในการประเมินความคุ้มค่าในการใช้จ่ายสำหรับการบริหารจัดการลูกค้า โดยโจทย์คือ การหารูปแบบการซื้อของลูกค้าที่มีค่า CLV สูง โดยค่า CLV จะถูกกำหนดด้วยสมการที่เรียกว่า Survival Function ซึ่งสามารถใช้ในการประมาณเวลาในการซื้อสินค้าของลูกค้าจากข้อมูลร้านค้าและลักษณะทางประชากรที่แตกต่างกันของลูกค้าได้ เช่น ศึกษาว่าลูกค้าเพศหญิงหรือชายที่โดยรวมแล้วปิดการขายได้เร็วกว่ากัน เราก็จะทำการเสนอสินค้าหรือโปรโมชั่นให้กับลูกค้ากลุ่มนั้น เป็นต้น

How to Reinvent the Customer Experience to Increase Customer ...
การแบ่งกลุ่มลูกค้าตาม Customer Lifetime Value

หนึ่งในความท้าทายของการวิเคราะห์ข้อมูลลักษณะนี้คือการมีอยู่ของบางตัวอย่างข้อมูลที่ไม่สามารถทราบผลลัพธ์ของเหตุการณ์ในช่วงที่ศึกษาได้ เช่น อาสาสมัครออกไปกลางคันระหว่างการทดลอง หรืออาจจะไม่พบการเกิดเหตุการณ์ใด ๆ เลยในช่วงเวลาที่ทำการศึกษานั้น จึงไม่สามารถสรุปได้ว่าจริง ๆ แล้วเกิดเหตุการณ์นั้นเกิดขึ้นกับตัวอย่างหรือไม่ เพราะเหตุการณ์ที่สนใจอาจจะเกิดขึ้นหลังจากช่วงเวลาที่เราสังเกตก็เป็นได้ และในทางปฏิบัติเราก็ไม่สามารถรอเก็บข้อมูลจนกว่าเหตุการณ์นั้นจะเกิดได้ ข้อมูลเหล่านี้จะถูกเรียกว่าเป็นข้อมูลที่มีการเซ็นเซอร์ (censored data) ซึ่ง Survival Analysis นั้นสามารถรับมือกับข้อมูลลักษณะนี้ได้อย่างดี

Survival Data and Censoring

ก่อนอื่นมาพูดถึงลักษณะของข้อมูลที่ใช้กับการวิเคราะห์ประเภทนี้กันก่อนหรือที่เราเรียกว่าเป็นข้อมูลประเภท Survival Data  จากที่กล่าวมาข้างต้นเป็นไปได้บ่อยครั้งที่เราจะไม่พบการเกิดเหตุการณ์ในบางตัวอย่างเนื่องจากข้อจำกัดของเวลาในการสังเกต เช่น นักวิจัยทางการแพทย์จะไม่รอถึง 50 ปีเพื่อติดตามการเกิดโรค ด้วยเหตุนี้เราจึงสนใจหรือทำการศึกษา ณ ช่วงเวลาใดเวลาหนึ่งระหว่างการป่วยเท่านั้น หรือบางตัวอย่างอาจมีการขาดการติดตาม (follow up) ไประหว่างทางเนื่องจากสาเหตุต่าง ๆ เช่น ผู้ป่วยไม่ได้กลับมาตรวจโรคอีกครั้ง  ปรากฏการณ์ลักษณะนี้จะถูกเรียกว่าการเซ็นเซอร์ (censoring) ซึ่งเราสามารถที่จะแบ่งประเภทของการเซ็นเซอร์นี้ออกเป็น 3 ประเภทหลัก ๆ ตามลักษณะการเกิด ได้แก่

1) Right-censoring:

คือ กรณีที่ยังไม่เกิดเหตุการณ์ระหว่างช่วงเวลาที่ทำการสังเกต ซึ่งอาจจะเกิดเหตุการณ์ หรือไม่เกิดเหตุการณ์หลังจากนั้นก็ได้ ในที่นี้เราจะรู้เพียงแค่สถานะสิ้นสุด ณ ช่วงเวลาการสังเกตเท่านั้น

2) Left-censoring:

คือ กรณีที่แต่ละตัวอย่างข้อมูล ไม่ได้เริ่มทำการทดลอง ณ จุดเดียวกัน หรือมีจุดเริ่มต้นเกิดก่อนช่วงเวลาศึกษาและไม่รู้ช่วงเวลาที่แน่นอนว่าเริ่มต้นเมื่อไหร่ ทำให้ไม่รู้ว่าระยะเวลาก่อนที่จะสังเกตพบเหตุการณ์ได้ผ่านมานานเท่าใดแล้ว

3) Interval-censoring:

คือ กรณีที่ไม่รู้เวลาการเกิดเหตุการณ์ที่แน่นอน รู้แค่ว่าเกิดในช่วงเวลาใดเวลาหนึ่ง ระหว่างที่ทำการสังเกต

Data censoring ประเภทต่าง ๆ

จากรูปแสดงตัวอย่างการเกิดเหตุการณ์และการเซ็นเซอร์แต่ละประเภท โดยในแกนตั้งจะแสดงถึงตัวอย่าง (instance) แต่ละตัวอย่าง และแกนนอนแสดงระยะเวลา โดยเส้นสีฟ้าสองเส้น แสดงจุดเริ่มต้นของการสังเกตและจุดสิ้นสุดของการสังเกต โดยแบ่งการเกิดขึ้นของกรณีต่าง ๆ ได้ ดังนี้

ตัวอย่างที่ 1 คือ กรณีที่เหตุการณ์ที่เราสนใจเกิดขึ้นระหว่างการทำการสังเกต กรณีนี้จะไม่ถือว่าเป็นข้อมูลเซ็นเซอร์ เพราะเรารู้ระยะเวลาการเกิดขึ้นของเหตุการณ์ที่แน่นอน

ตัวอย่างที่ 2, 3 เป็นกรณีที่เกิด right-censoring ขึ้น เนื่องจาก เราไม่รู้จุดสิ้นสุดของเหตุการณ์ เนื่องจากเหตุการณ์เกิดขึ้นนอกช่วงเวลาการสังเกต หรือยังไม่เกิดเหตุการณ์ขึ้น

ตัวอย่างที่ 4 เป็นกรณีที่เกิด left-censoring ขึ้น เนื่องจากไม่ทราบเวลา ณ จุดเริ่มต้น หรือ จุดกำเนิดของตัวอย่างนี้ จึงไม่สามารถทราบช่วงเวลาทั้งหมดที่ตัวอย่างนี้มีชีวิตอยู่ จนกระทั่งมาพบเหตุการณ์นั้นในระหว่างการสังเกตได้

ตัวอย่างที่ 5 เป็นกรณีที่เราไม่ทราบเวลาแน่นอนของการเกิดเหตุการณ์ ทราบแค่ว่าเหตุการณ์เกิดขึ้นในช่วงเวลานี้ เนื่องจากเราอาจจะไม่ได้ทำการสังเกตตัวอย่างนั้นตลอดเวลา เช่น นัดตรวจคนไข้ 2 อาทิตย์ครั้ง ก็อาจจะทำให้ตรวจพบ ณ วันตรวจ แต่ในความเป็นจริง คนไข้อาจจะเริ่มป่วยระหว่างสองอาทิตย์ที่ผ่านมาก็ได้ ซึ่งเราไม่ทราบว่าเป็นวันไหน เพราะไม่ได้ทำการตรวจทุกวัน

ทำไมต้องใช้ Survival Analysis

ลักษณะของการเซ็นเซอร์แบบ right-censoring ถูกพบค่อนข้างบ่อยในหลายกรณี เช่น การย้ายค่ายของลูกค้าที่ใช้บริการค่ายมือถือของเราปัจจุบัน เราไม่สามารถทราบได้เลยว่า ลูกค้าคนนั้นจะย้ายค่ายจากเราไปหรือไม่และเมื่อไหร่ ซึ่งทำให้ไม่สามารถรู้ถึงคำตอบจริง ๆ ของลูกค้าแต่ละคน เราไม่สามารถแบ่งลูกค้าเป็นสองประเภทว่า ย้ายค่าย หรือ ไม่ย้ายค่ายได้ชัดเจน เพราะจริง ๆ แล้วทุกคนมีโอกาสย้ายค่ายได้ตลอดเวลา แค่ไม่รู้ว่าเหตุการณ์นั้นจะเกิดขึ้นเมื่อไหร่  ในการวิเคราะห์ข้อมูลที่มีการเซ็นเซอร์ลักษณะนี้มีข้อพึงระวังอยู่ ซึ่งหนึ่งในข้อผิดพลาดที่นักวิเคราะห์ข้อมูลมักจะทำ คือ การเลือกที่จะไม่สนใจตัวอย่างที่ถูกเซ็นเซอร์โดยการตัดตัวอย่างเหล่านั้นทิ้งแล้ววิเคราะห์เฉพาะตัวอย่างข้อมูลที่สังเกตพบเหตุการณ์ในช่วงเวลาที่ศึกษาเท่านั้น ทีนี้ลองมาดูตัวอย่างกัน

สมมุติว่ากลุ่มประชากรที่เราศึกษา ประกอบมาจากกลุ่มประชากรย่อยที่มีลักษณะแตกต่างกันสองกลุ่ม ได้แก่ กลุ่ม A และ กลุ่ม B โดยประชากรกลุ่ม A มีอายุการมีชีวิตอยู่ที่สั้น เฉลี่ยประมาณ 2 เดือน เทียบกับกลุ่มประชากร B ที่มีอายุเฉลี่ยนานถึง 12 เดือน ซึ่งผู้วิจัยจะไม่ได้ทราบถึงข้อเท็จจริงนี้มาก่อน และเมื่อสิ้นสุดช่วงเวลาสังเกตที่เวลา 10 เดือน (t=10) เราจะต้องหาอายุเฉลี่ยของประชากรทั้งหมด จะมีวิธีการคำนวณอย่างไร

ในรูปด้านล่างนี้ เส้นสีแดงแสดงถึงอายุขัยของแต่ละคน ในกรณีที่เหตุการณ์การตายได้ถูกสังเกตพบในช่วงเวลาศึกษา ส่วนเส้นสีน้ำเงินแสดงถึงอายุขัยของคนที่ไม่สังเกตุพบเหตุการณ์ในช่วงเวลา 10 เดือนที่ศึกษา (right-censored individuals) หากเราลองประมาณค่าเฉลี่ยด้วยการตัดข้อมูล right-censored ทิ้ง แล้วคำนวณค่าเฉลี่ยจากตัวอย่างที่เหลือ โดยคำนวณเฉพาะเส้นสีแดงเท่านั้น จะพบว่าเราทำการประเมินค่าเฉลี่ยต่ำกว่าความเป็นจริง เนื่องจากเราตัดเส้นสีน้ำเงินที่ไม่รู้ว่าเวลาจริงออกไป แต่เรารู้ว่าอย่างต่ำคือ 10 เดือน

แล้วถ้าเราคิดค่าเฉลี่ยอายุขัยจากอายุขัยทั้งหมดที่สังเกตได้ในช่วงเวลา โดยการรวมอายุขัยปัจจุบัน ณ สิ้นสุดช่วงเวลาสังเกตของตัวอย่างที่ถูกเซ็นเซอร์ทางด้านขวา (Right-censored) ซึ่งถ้ามาดูค่าอายุขัยจริงของตัวอย่างที่ไม่ได้พบเหตุการณ์ในช่วงเวลาสังเกตแสดงในรูปด้านล่าง ก็จะเห็นว่าเราก็ยังประมาณค่าเฉลี่ยได้ต่ำกว่าความเป็นจริงอยู่ดี เพราะข้อมูลที่ถูกเซ็นเซอร์ (เส้นสีน้ำเงิน) มีค่าอายุขัยจริงที่เยอะกว่าช่วงเวลาในการสังเกตมาก ทำให้ค่าเฉลี่ยจริง ๆ มีค่ามากกว่าการคิดด้วยวิธีนี้

ดังนั้นข้อมูลลักษณะนี้ ที่มีการพบข้อมูลที่ถูกเซ็นเซอร์จำนวนมาก หากเราใช้วิธีการทำ Regression Analysis ธรรมดา ซึ่งไม่ได้เอาข้อมูลที่ถูกเซ็นเซอร์มาคิดด้วย ในการวิเคราะห์และทำนายเวลาที่จะเกิดเหตุการณ์ ก็อาจจะได้ผลที่ไม่ค่อยแม่นยำนัก

Survival Analysis จึงถูกพัฒนาขึ้นมาเพื่อแก้ปัญหาดังกล่าวนี้ นั่นก็คือการประมาณค่าบางอย่างในกรณีที่ข้อมูลเรามีการเซ็นเซอร์เกิดขึ้น นอกจากนี้ถึงแม้ว่าข้อมูลในทุกตัวอย่างของเรามีการสังเกตพบเหตุการณ์ในช่วงเวลาศึกษาทั้งหมด การทำ Survival Analysis ก็ยังเป็นเครื่องมือที่เป็นประโยชน์ในการศึกษาอัตราการเปลี่ยนแปลงและระยะเวลาของการเกิดเหตุการณ์นั้น ๆ ได้เช่นเดียวกัน

ผู้อ่านสามารถอ่านต่อได้ใน Survival Analysis กับความท้าทายในการจัดการ Censored Data Part 2


ที่มา:

https://arxiv.org/pdf/1708.04649.pdf

https://lifelines.readthedocs.io/en/latest/Survival%20Analysis%20intro.html

https://www.slideshare.net/twbriggs/survival-analysis-for-predicting-employee-turnover

Project Manager & Data Scientist
Big Data Institute (Public Organization), BDI

แบ่งปันบทความ

กลุ่มเนื้อหา

แท็กยอดนิยม

แจ้งเรื่องที่อยากอ่าน

คุณสามารถแจ้งเรื่องที่อยากอ่านให้เราทราบได้ !
และเราจะนำไปพัฒนาบทความให้มีเนื้อหาที่น่าสนใจมากขึ้น

ไอคอน PDPA

เราใช้คุกกี้เพื่อพัฒนาประสิทธิภาพ และประสบการณ์ที่ดีในการใช้เว็บไซต์ของคุณ คุณสามารถศึกษารายละเอียดได้ที่ “นโยบายคุ้กกี้” และสามารถจัดการความเป็นส่วนตัวเองได้ของคุณได้เองโดยคลิกที่ “ตั้งค่า”

ตั้งค่าความเป็นส่วนตัว

คุณสามารถเลือกการตั้งค่าคุกกี้โดยเปิด/ปิด คุกกี้ในแต่ละประเภทได้ตามความต้องการ ยกเว้น คุกกี้ที่จำเป็น

ยอมรับทั้งหมด
จัดการความเป็นส่วนตัว
  • คุกกี้ที่มีความจำเป็น (Strictly Necessary Cookies)
    เปิดใช้งานตลอด

    คุกกี้ประเภทนี้มีความจำเป็นต่อการให้บริการเว็บไซต์ของ สำนักงานคณะกรรมการคุ้มครองข้อมูลส่วนบุคคล เพื่อให้ท่านสามารถเข้าใช้งานในส่วนต่าง ๆ ของเว็บไซต์ได้ รวมถึงช่วยจดจำข้อมูลที่ท่านเคยให้ไว้ผ่านเว็บไซต์ การปิดการใช้งานคุกกี้ประเภทนี้จะส่งผลให้ท่านไม่สามารถใช้บริการในสาระสำคัญของ สำนักงานคณะกรรมการคุ้มครองข้อมูลส่วนบุคคล ซึ่งจำเป็นต้องเรียกใช้คุกกี้ได้
    รายละเอียดคุกกี้

  • คุกกี้เพื่อการวิเคราะห์และประเมินผลการใช้งาน (Performance Cookies)

    คุกกี้ประเภทนี้ช่วยให้ BDI ทราบถึงการปฏิสัมพันธ์ของผู้ใช้งานในการใช้บริการเว็บไซต์ของ BDI รวมถึงหน้าเพจหรือพื้นที่ใดของเว็บไซต์ที่ได้รับความนิยม ตลอดจนการวิเคราะห์ข้อมูลด้านอื่น ๆ BDI ยังใช้ข้อมูลนี้เพื่อการปรับปรุงการทำงานของเว็บไซต์ และเพื่อเข้าใจพฤติกรรมของผู้ใช้งานมากขึ้น ถึงแม้ว่า ข้อมูลที่คุกกี้นี้เก็บรวบรวมจะเป็นข้อมูลที่ไม่สามารถระบุตัวตนได้ และนำมาใช้วิเคราะห์ทางสถิติเท่านั้น การปิดการใช้งานคุกกี้ประเภทนี้จะส่งผลให้ BDI ไม่สามารถทราบปริมาณผู้เข้าเยี่ยมชมเว็บไซต์ และไม่สามารถประเมินคุณภาพการให้บริการได้

  • คุกกี้เพื่อการใช้งานเว็บไซต์ (Functional Cookies)

    คุกกี้ประเภทนี้จะช่วยให้เว็บไซต์ของ BDI จดจำตัวเลือกต่าง ๆ ที่ท่านได้ตั้งค่าไว้และช่วยให้เว็บไซต์ส่งมอบคุณสมบัติและเนื้อหาเพิ่มเติมให้ตรงกับการใช้งานของท่านได้ เช่น ช่วยจดจำชื่อบัญชีผู้ใช้งานของท่าน หรือจดจำการเปลี่ยนแปลงการตั้งค่าขนาดฟอนต์หรือการตั้งค่าต่าง ๆ ของหน้าเพจซึ่งท่านสามารถปรับแต่งได้ การปิดการใช้งานคุกกี้ประเภทนี้อาจส่งผลให้เว็บไซต์ไม่สามารถทำงานได้อย่างสมบูรณ์

  • คุกกี้เพื่อการโฆษณาไปยังกลุ่มเป้าหมาย (Targeting Cookies)

    คุกกี้ประเภทนี้เป็นคุกกี้ที่เกิดจากการเชื่อมโยงเว็บไซต์ของบุคคลที่สาม ซึ่งเก็บข้อมูลการเข้าใช้งานและเว็บไซต์ที่ท่านได้เข้าเยี่ยมชม เพื่อนำเสนอสินค้าหรือบริการบนเว็บไซต์อื่นที่ไม่ใช่เว็บไซต์ของ BDI ทั้งนี้ หากท่านปิดการใช้งานคุกกี้ประเภทนี้จะไม่ส่งผลต่อการใช้งานเว็บไซต์ของ BDI แต่จะส่งผลให้การนำเสนอสินค้าหรือบริการบนเว็บไซต์อื่น ๆ ไม่สอดคล้องกับความสนใจของท่าน

บันทึกการตั้งค่า
ไซต์นี้ลงทะเบียนกับ wpml.org ในฐานะไซต์พัฒนา สลับไปยังไซต์การผลิตโดยใช้รหัส remove this banner.