Astronomy in 2021: ดูดาวด้วย Data Science

Astronomy in 2021: ดูดาวด้วย Data Science

14 June 2021
ภาพ Illustration ได้รับอนุญาตจาก Matt Dixon (https://www.mattdixon.co.uk)

กล้องใหม่ ไซส์ Big เลยเอามาเล่าให้ชาว Big Data ฟัง

หลังจากที่นักดาราศาสตร์รอคอยกันมานาน ในที่สุดกล้องดูดาว Vera C. Rubin Observatory หรือที่เรียกว่า LSST ก็สร้างเสร็จและมีกำหนดการทดสอบใช้ครั้งแรกปลายปีนี้ (ในขณะที่ผู้เขียนกำลังเขียนอยู่นั้น ก็ได้ทราบข่าวร้ายว่าได้มีการเลื่อนเปิดไปเป็นปี 2023 เนื่องจากสถานการณ์โควิด-19)

แล้วกล้องดูดาวนี้พิเศษอย่างไร? กล้องดูดาวขนาดใหญ่จะมีส่วนประกอบสำคัญแบ่งได้เป็น 2 ส่วน ส่วนแรกคือส่วนรับแสงจากท้องฟ้า มีหน้าที่รวบรวมแสงอันริบหรี่ของดาวไกล ๆ ให้สว่างขึ้นจนมองเห็นได้บนภาพ ในส่วนนี้ LSST ใช้กระจกขนาดประมาณ 8 เมตรซึ่งถือว่าไม่ใหญ่มากเมื่อเทียบกับกล้องดูดาวชั้นนำแห่งอื่น แต่ความพิเศษของ LSST จะอยู่ในส่วนที่สอง ซึ่งก็คืออุปกรณ์รับภาพ เมื่อสร้างเสร็จ กล้อง LSST จะเป็นกล้องดิจิทัลที่มีขนาดใหญ่ที่สุดในโลก มีขนาดหน้ากล้องประมาณ 1.65 เมตร และมีอุปกรณ์รับภาพ 3.2-gigapixel CCD imaging camera หรือ 3,200 ล้านพิกเซล มากกว่ากล้องสมาร์ทโฟนที่เราใช้กันเป็นร้อยเท่า คาดการณ์ว่าจะเก็บข้อมูลแบบ raw ประมาณ 20 Terabyte ทุก ๆ คืน เก็บภาพแค่ชั่วโมงเดียวก็เต็มคอมพิวเตอร์ผู้เขียนแล้ว ? เรียกว่าเป็นกล้องดูดาวรุ่นใหม่ที่ให้ข้อมูลจำนวนมหาศาลแบบไม่เคยมีมาก่อนกับนักดาราศาสตร์

หากท่านที่คิดว่าข้อมูลทางดาราศาสตร์มันน่าจะใหญ่มากอยู่แล้วหรือเปล่า ผมขอยกตัวอย่างข้อมูลจากกล้องดูดาวที่มีชื่อเสียงมาเปรียบเทียบนะครับ

  • Hubble Space Telescope เก็บข้อมูล raw 150 gigabit ต่อสัปดาห์ หรือประมาณ 1 TB ต่อปี (อ้างอิง: nasa.gov)
  • VLT Survey Telescope ซึ่งเป็นกล้องที่มีวัตถุประสงค์คล้ายกันกับ LSST ที่ใช้งานอยู่ในปัจจุบัน เก็บข้อมูล raw ประมาณ 30 TB ต่อปี (อ้างอิง: Wikipedia)

พูดง่าย ๆ ก็คือ กล้อง LSST มีอัตราการเก็บข้อมูลที่สูงกว่ากล้องดูดาวที่มีอยู่ก่อน ถึง 200 – 8000 เท่าเลยทีเดียว!

ภาพเลนส์หลักของกล้อง LSST ขนาดประมาณ 1.65 เมตร ซึ่งจะเป็นกล้องดิจิทัลที่มีขนาดใหญ่ที่สุดในโลก (แหล่งที่มาจาก gallery.lsst.org)

Why big camera?

แล้วทำไมเราถึงต้องใช้กล้องขนาดใหญ่ขนาดนี้? ในส่วนแรก (ส่วนรับแสงจากท้องฟ้า) ขนาดหน้ากล้องดูดาวจะเป็นตัวกำหนดความสามารถในการรวมแสง และการแยกภาพของวัตถุสองชิ้นออกจากกัน ยิ่งกล้องมีขนาดใหญ่ ก็จะสามารถถ่ายภาพได้สว่างขึ้น และแยกภาพของวัตถุที่อยู่ใกล้กันได้มากขึ้น เนื่องจากวัตถุยิ่งอยู่ไกล ก็จะปรากฎบนภาพจางลง และมีรายละเอียดที่ใกล้กันมากขึ้น นั่นแปลว่ากล้องขนาดใหญ่จะทำให้เราศึกษาวัตถุได้ไกลมากขึ้น

ในส่วนที่สอง ขนาดของอุปกรณ์รับภาพ ยิ่งกล้องมีขนาดใหญ่ ก็จะทำให้สามารถถ่ายภาพได้กว้างขึ้น ซึ่งเมื่อเราได้ภาพกว้างขึ้นแต่ยังอยากให้มีรายละเอียดเท่าเดิม อุปกรณ์รับภาพก็ต้องมีจำนวนพิกเซลเยอะขึ้นตามไปด้วย ความสำคัญในส่วนนี้คือกล้องขนาดใหญ่จะสามารถถ่ายภาพครอบคลุมท้องฟ้าได้มากขึ้นในเวลาเท่าเดิม สมมติว่าเดิมเราต้องใช้เวลา 2 คืนเพื่อถ่ายภาพในบริเวณที่สนใจ ถ้าเราลดเวลาถ่ายภาพเหลือ 1 คืนได้ เราก็จะสามารถถ่ายภาพได้ถี่ขึ้น ซึ่งจะทำให้เราศึกษาการเปลี่ยนแปลงของท้องฟ้าได้ดีขึ้น

ภาพจำลองขนาดภาพ (field of view) ของ LSST เทียบกับขนาดดวงจันทร์ (แหล่งที่มาจาก astronomynow.com)

Data Science มีส่วนอย่างไรในการดูดาว

การจัดการข้อมูลมหาศาลขนาดนี้ ต้องมีการออกแบบ data pipeline และ architecture ที่ดีมาก นอกจากนี้แล้ว ยังมีปัญหาที่สำคัญอีกประการหนึ่งสำหรับนักดาราศาสตร์ คือ ข้อมูลที่ถูกสร้างจำนวนมหาศาลขนาดนี้ การใช้ “คน” มาเลือก “รูป” ที่น่าสนใจก่อนที่จะนำไปวิเคราะห์เชิงดาราศาสตร์ จะเป็นกระบวนการที่ใช้เวลามากตามไปด้วย จินตนาการเหมือนให้นักดาราศาสตร์มานั่งดูรูปด้วยตาทีละรูป นี่ยังไม่ได้เข้าสู่กระบวนการนำรูปไปวิเคราะห์เลย ก็อาจจะใช้เวลาเป็นเดือนหรือเป็นปีแล้ว การจะนำข้อมูล raw ขนาดมหาศาลนี้ไปส่งให้ถึงมือนักดาราศาสตร์ที่สนใจได้ ระบบจำเป็นที่จะต้องมีการวิเคราะห์ข้อมูลโดยอัตโนมัติ เพื่อที่จะเลือกภาพที่น่าสนใจให้คนไปศึกษาต่อ เป็นที่มาของการใช้ Data Science ในการดูดาว

ในบทความนี้ผู้เขียนจะกล่าวถึงกระบวนการทางดาราศาสตร์ที่ได้นำเทคนิคทาง Data Science มาประยุกต์ใช้ สองกระบวนการครับ คือ การเลือกรูปที่น่าสนใจจากข้อมูลมหาศาลมาวิเคราะห์ และการจำแนกเหตุการณ์ทางดาราศาสตร์ ครับ

ข้อมูลมหาศาล ทำอย่างไรให้ได้สิ่งที่นักดาราศาสตร์สนใจ

หลายคนอาจจะคิดไว้ในใจแล้วว่านี่เป็นโจทย์ Anomaly detection แต่สิ่งที่ทางนักดาราศาสตร์ของ LSST ทำนั้นง่ายกว่านั้นมาก เค้าแค่เลือกใช้เฉพาะจุดที่มีการเปลี่ยนแปลงของแสงเกินค่า threshold ที่ตั้งไว้ครับ

ก่อนอื่นก็ต้องอธิบายก่อนว่า LSST เป็นกล้องประเภท survey ซึ่งจะทำการถ่ายภาพท้องฟ้าทุกคืนเพื่อหาสิ่งที่เปลี่ยนแปลงไปในแต่ละคืน และแจ้งเตือนแบบ real-time เพื่อให้นักดาราศาสตร์สามารถใช้กล้องแบบเฉพาะทาง เช่น กล้อง X-Ray ศึกษาไปพร้อมกันกับข้อมูลการเปลี่ยนแปลงของแสงที่ได้จากกล้อง LSST ดังนั้นสิ่งที่นักดาราศาสตร์อยากได้ไม่ใช่ภาพสวย ๆ แบบนี้

รูปภาพกาแลกซี่ Andromeda (แหล่งที่มาจาก Wikipedia)

แต่จะเป็นข้อมูล time-series ของการเปลี่ยนแปลงของความสว่างของวัตถุ หรือเหตุการณ์ (เรียกว่า light curve) แบบนี้

ภาพตัวอย่างข้อมูล light curve (แหล่งที่มาจาก kaggle)

ข้อมูล light curve จากกราฟด้านบน จะเป็นข้อมูลของวัตถุเดียว หรือเหตุการณ์ในตำแหน่งเดียว ซึ่งก็คือข้อมูลเพียงพิกเซลเดียวบนกล้อง 3200 ล้านพิกเซล ที่ถูกเก็บมาตามช่วงเวลาที่ตั้งไว้ (เช่น หนึ่งวัน) แต่ก็คงไม่มีใครต้องการดูกราฟแบบนี้ 3200 ล้านกราฟด้วยตนเอง ดังนั้นเราจึงจำเป็นต้องให้คอมพิวเตอร์ทำการเลือกสิ่งที่น่าสนใจให้เราโดยอัตโนมัติ

สิ่งที่ต้องทำคือหาผลต่างของความสว่างในแต่ละพิกเซล เทียบกับภาพอ้างอิงของท้องฟ้าตำแหน่งเดียวกันในเวลาก่อนหน้า จากนั้นก็ทำการตั้ง threshold เพื่อเลือกพิกเซลที่มีการเปลี่ยนแปลงความสว่างเกินค่าที่กำหนด ในขั้นตอนนี้ทางนักวิจัยก็จะต้องศึกษา และตัดสินใจว่า threshold ควรเป็นเท่าไหร่ ซึ่งก็ต้องประเมินจาก noise ของภาพ ประกอบกับ false positive และ true negative rate ที่ต้องการ

สังเกตได้ว่าการทำ threshold ของแต่ละพิกเซล ไม่ได้นำข้อมูลโดยรอบมาคำนึงถึง จึงทำให้ไม่สามารถค้นพบและติดตามการเคลื่อนที่ของวัตถุบนภาพเช่น ดาวหาง หรือดาวเคราะห์ในระบบสุริยะของเราได้ แต่กล้องตัวนี้จะเน้นไปที่การค้นหาวัตถุหรือเหตุการณ์ที่เกิดขึ้นไกล ๆ ซึ่งภาพจากวัตถุไกล ๆ จะปรากฏเหมือนแทบไม่ขยับเลย

การเลือกตำแหน่งที่สนใจก็จะมีขั้นตอนเพียงเท่านี้ ซึ่งมันดูง่ายมาก ๆ จนเหมือนง่ายเกินไปหรือเปล่า? ถ้าเราต้องการความแม่นยำในการเลือกจุดสนใจ เรามีวิธีทางสถิติหรือ Data Science หลายวิธีที่ดีกว่าการทำ threshold แน่นอน แต่เหตุผลหลักของการทำ threshold คือเราไม่ได้ต้องการความแม่นยำมากขนาดนั้น เราทำขั้นตอนนี้เพื่อลดปริมาณข้อมูลที่ต้องใช้ประมวลผลในขั้นตอนถัดไป ดังนั้นวิธีที่ทำได้ง่าย ไว และไม่เปลืองทรัพยากรในการประมวลผล จึงเป็นวิธีที่เหมาะสมที่สุดครับ

จำแนกเหตุการณ์ทางดาราศาสตร์ด้วย Classification

หลังจากที่เราได้ตำแหน่งภาพที่มีการเปลี่ยนแปลงของความสว่าง และข้อมูล light curve ขั้นตอนถัดไปคือการใช้ Data Science ช่วยจำแนกข้อมูลที่ได้เป็นประเภทของเหตุการณ์ที่น่าสนใจทางดาราศาสตร์ด้วย classification ตัวอย่างเหตุการณ์ที่เกิดขึ้นในดาราศาสตร์ เช่น การระเบิดของดาวขนาดใหญ่เมื่อหมดอายุขัย (Supernova) ดาวแปรแสง (Cepheids) หรือดาวคู่ที่โคจรรอบกันและบังแสงกันเอง (Eclipsing Binaries) เป็นต้น โดยเหตุการณ์เหล่านี้ก็จะมีลักษณะของ light curve ที่แตกต่างกัน

เพราะฉะนั้น ข้อมูล light curve ที่แสดงการเปลี่ยนแปลงที่แสงสว่างตามช่วงเวลาที่ผ่านไป ประกบกับ label ว่า light curve ในลักษณะนี้จัดว่าเป็นปรากฎการณ์ทางดาราศาสตร์แบบใด (ซึ่ง LSST ก็มีการศึกษาไว้แล้วมากมาย) ก็ได้ถูกนำมาใช้เป็น training data เพื่อทำโจทย์นี้นั่นเองครับ

ภาพวัตถุ G229 ซึ่งคาดว่าเป็นเศษซากของเหตุการณ์ Supernova ดังแสดงในรูปนี้ เป็นตัวอย่างของเหตุการณ์ที่ใช้เทคนิค Classification มาจำแนกได้ (แหล่งที่มาจาก physicsworld.com)

ทาง LSST จึงได้จัดการแข่งขัน The Photometric LSST Astronomical Time-Series Classification Challenge (PLAsTiCC) สำหรับโจทย์นี้ขึ้นมาบน Kaggle ครับ โดย LSST ได้จำแนกเหตุการณ์ออกเป็น 15 Class โดยจะมี 14 เหตุการณ์ และ 1 class สำหรับสิ่งที่ไม่เคยเห็นมาก่อน การแข่งขันก็จบลงไปแล้วเมื่อปี 2018 แต่ใครที่สนใจอยากลองนำข้อมูลไปเล่น ก็ยังสามารถดาวน์โหลดข้อมูลได้ที่ https://www.kaggle.com/c/PLAsTiCC-2018

วิธีจากการแก้โจทย์ classification นี้สามารถทำได้หลายวิธีเลย แต่ Kyle Boone ผู้ชนะการแข่งขันข้างต้น ได้ประยุกต์ใช้เทคนิค Gaussian processes เพื่อสร้าง smooth curve จากข้อมูล light curve ซึ่งเป็น time series และนำข้อมูลของ smooth curve นี้ ไปใช้ในการเทรนโมเดลในประเภท Neural Network ครับ เนื่องจาก Kyle ไม่ได้เขียนอธิบายตัวโมเดลชนะเลิศของเขาไว้ ผู้เขียนจึงขอข้ามรายละเอียดของโมเดลนะครับ

ตัวอย่างของผลลัพธ์จากโค้ดของ Kyle Boone ผู้ชนะการแข่งขัน PLAsTiCC โดยเขาได้ประยุกต์ใช้เทคนิค Gaussian processes เพื่อสร้าง smooth curve จากข้อมูล และนำข้อมูลของ curve ไปใช้ในการเทรนโมเดลต่อไป

ต้องขอบอกไว้ก่อนเลยว่าทุกอย่างที่ผู้เขียนได้เล่ามานั้นยังขาดรายละเอียดปลีกย่อยที่สำคัญอีกมาก หากใครได้ลองดูข้อมูลจะพบว่าผู้เขียนได้ข้ามเรื่อง filter band ซึ่งคือการรับแสงในเฉพาะบางสี เพื่อให้เรามีข้อมูลแสงในหลายมิติ และข้ามเรื่อง Noise ไปทั้งหมดครับ ซึ่งเรื่องปลีกย่อยเหล่านี้ เป็นความรู้ที่ค่อนข้างเฉพาะทาง ทาง LSST ก็ได้เขียนอธิบายไว้ในเอกสารของการแข่งขันไว้แล้วครับ คนที่ไม่คุ้นเคยกับข้อมูลดาราศาสตร์ ก็ไม่ต้องกลัวว่าจะไม่เข้าใจครับ

และนี่ก็เป็นการใช้ data science เบื้องต้น เพื่อเลือกข้อมูลขนาดมหาศาลและนำส่งข้อมูลไปยังนักดาราศาสตร์ที่สนใจครับ โดย LSST จะให้นักดาราศาสตร์จากสถาบันที่เข้าร่วมโครงการ เลือก Subscribe การแจ้งเตือนจาก LSST ตามประเภทของเหตุการณ์ เมื่อระบบพบเหตุการณ์ประเภทที่สนใจ ก็จะส่งการแจ้งเตือนแบบ real-time ได้อย่างอัตโนมัติ

You can’t have people at every step of the process

–        Kyle Boone ผู้ชนะการแข่งขัน PLAsTiCC
Learn more about LSST: https://www.lsst.org/
LSST Public code repository: http://dm.lsst.org/browse/
เนื้อหาโดย พชร วงศ์สุทธิโกศล
ตรวจทานและปรับปรุงโดย ปพจน์ ธรรมเจริญพร

Associate, Research and Innovations Division (RIN)
Big Data Institute (BDI)

Former-Editor-in-Chief at BigData.go.th and Senior Data Scientist at Government Big Data Institute (GBDi )

แบ่งปันบทความ

กลุ่มเนื้อหา

แท็กยอดนิยม

แจ้งเรื่องที่อยากอ่าน

คุณสามารถแจ้งเรื่องที่อยากอ่านให้เราทราบได้ !
และเราจะนำไปพัฒนาบทความให้มีเนื้อหาที่น่าสนใจมากขึ้น

PDPA Icon

We use cookies to optimize your browsing experience and improve our website’s performance. Learn more at our Privacy Policy and adjust your cookie settings at Settings

Privacy Preferences

You can choose your cookie settings by turning on/off each type of cookie as needed, except for necessary cookies.

Accept all
Manage Consent Preferences
  • Strictly Necessary Cookies
    Always Active

    This type of cookie is essential for providing services on the website of the Personal Data Protection Committee Office, allowing you to access various parts of the site. It also helps remember information you have previously provided through the website. Disabling this type of cookie will result in your inability to use key services of the Personal Data Protection Committee Office that require cookies to function.
    Cookies Details

  • Performance Cookies

    This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

  • Functional Cookies

    This type of cookie enables the Big Data Institute (Public Organization)’s website to remember the choices you have made and deliver enhanced features and content tailored to your usage. For example, it can remember your username or changes you have made to font sizes or other customizable settings on the page. Disabling these cookies may result in the website not functioning properly.

  • Targeting Cookies

    "This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

Save settings
This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.