DALL·E 2: ปัญญาประดิษฐ์ผู้สร้างภาพตามคำบรรยาย – Part I

DALL·E 2: ปัญญาประดิษฐ์ผู้สร้างภาพตามคำบรรยาย – Part I

08 กันยายน 2565

จะน่าตื่นเต้นมากแค่ไหน เมื่อปัญญาประดิษฐ์หรือ AI (Artificial Intelligence) ชื่อ DALL·E 2 สามารถสร้างสรรค์รูปภาพตามคำบรรยายที่ได้รับมาจากมนุษย์นั้นให้กลายเป็นรูปที่ “เสมือนจริง” นั่นคือ แท้จริงแล้ว…รูปเหล่านั้นไม่ได้มีอยู่จริง!

รูปที่ 1 “A kooikerhondje using a camera on a movie set”
สุนัขสายพันธ์ Kooikerhondje ใช้กล้องถ่ายรูปในกองถ่ายภาพยนต์  (Source: DALLE: AI Made This Thumbnail!)

รูปที่ 1 แสดงรูปสุนัขแสนน่ารักข้างหลังกล้องถ่ายรูป แต่ดังที่เกริ่นไป…รูปเหล่านี้ไม่ได้เป็นรูปที่มีอยู่จริง แต่เป็นรูปที่ DALL·E รุ่นที่ได้รับการพัฒนาล่าสุดสร้างขึ้นมาจากคำบรรยายที่มนุษย์ป้อนเข้าไปในระบบอย่าง “A kooikerhondje using a camera on a movie set” หรือ “สุนัขสายพันธ์ Kooikerhondje ใช้กล้องถ่ายรูปในกองถ่ายภาพยนต์” ดูด้วยตาเปล่าแล้ว เราต่างต้องทึ่งกับความสมจริงของรูปภาพ แสงเงาและความละเอียดของภาพ แสดงให้เห็นถึงความก้าวหน้าของปัญญาประดิษฐ์ที่เข้าใจและเชื่อมโยงได้ว่า องค์ประกอบของรูปภาพอย่างสุนัขพันธ์ Kooikerhondje และกล้องถ่ายรูปที่สามารถเห็นได้ในกองถ่ายภาพยนต์มีลักษณะอย่างไร และยังสามารถนำองค์ประกอบเหล่านั้นมารวมกันได้อย่างแนบเนียนอีกด้วย

เห็นได้ชัดว่า ความสามารถของ DALL·E นั้นไม่ธรรมดาจริง ๆ ในบทความนี้เราจึงขอเชิญผู้อ่านทุกท่านได้มาทำความรู้จักกันมากขึ้นกับ DALL·E 2 หรือ DALL·E รุ่นที่ 2 ซึ่งเป็นศิลปินในร่างปัญญาประดิษฐ์รุ่นล่าสุดจากทีมงาน OpenAI ที่สามารถแปลงคำบรรยายให้กลายเป็นรูปภาพ ทั้งความเป็นมาของปัญญาประดิษฐ์ตัวนี้และตัวอย่างผลงานอันน่าทึ่งที่เราต้องตกตะลึงกัน

ความเป็นมาและพัฒนาการของ DALL·E

จุดเริ่มต้นของการพัฒนา DALL·E มีความเกี่ยวข้องโดยตรงกับ GPT-3 (3rd generation Generative Pre-trained Transformer) ซึ่งเป็นปัญญาประดิษฐ์อันโด่งดังอีกหนึ่งชิ้นจากทีมงาน OpenAI โดย GPT-3 เปิดตัวให้ใช้งานผ่าน API (Application Programming Interface) ในช่วงเดือนมิถุนายน ปี 2020 เป็นระบบโครงข่ายประสาทเทียม (Neural network) ที่เรียนรู้ภาษาธรรมชาติของมนุษย์ ในระบบมีจำนวนพารามิเตอร์มากถึง 1.75 แสนล้านตัว ถือได้ว่าเป็นโมเดลทางภาษาที่ใหญ่และซับซ้อนที่สุดตัวหนึ่งในโลก ความสามารถของ GPT-3 นั้นก็ไม่ธรรมดาเลยทีเดียวเพราะสามารถเข้าใจภาษาที่มนุษย์ป้อนเข้าไปในระบบและสามารถสร้างประโยคมาโต้ตอบได้  สำหรับรายละเอียดเพิ่มเติมของ GPT-3 รวมถึงข้อจำกัดของโมเดลสามารถอ่านได้ที่บทความ GPT-3 คืออะไร? ปัญญาประดิษฐ์ที่จะมาแย่งงานคนทั่วโลกในอนาคต!?

จากความสามารถของ GPT-3 ที่สามารถสร้างข้อความที่สอดคล้องกันได้ ในปีเดียวกัน ทางทีมงาน OpenAI ได้ต่อยอดในการใช้ระบบโครงข่ายประสาทเทียมนี้มาเติมรูปภาพที่ขาดหายไป กลายเป็นโมเดลที่มีชื่อว่า Image GPT (บทความวิจัยที่เกี่ยวข้องสามารถอ่านได้ที่ Generative Pretraining from Pixels by Mark Chen et.al. (2020)) พบว่า โมเดลนี้ยังทำงานได้ดีเลยทีเดียว ตามตัวอย่างที่แสดงต่อไปนี้

รูปที่ 2 ตัวอย่างผลงานการต่อเติมรูปภาพที่ขาดหายไปด้วย Image GPT
โดยรูปทางซ้ายมือคือรูปที่ป้อนเข้าระบบเพื่อให้ต่อเติมให้สมบูรณ์ รูปที่อยู่ตรงกลางทั้งหมดคือรูปที่ Image GPT ต่อเติมขึ้นมา เปรียบเทียบกับรูปขวามือสุดซึ่งเป็นรูปภาพต้นฉบับ (Source: OpenAI)

ทีมงาน OpenAI จึงเกิดแรงบันดาลใจในการใช้ภาษาที่ได้รับการป้อนจากมนุษย์มาสร้างหรือปรับเปลี่ยนรูปภาพ ก่อกำเนิด  DALL·E รุ่นแรกในเดือนมกราคม ปี 2021 ซึ่งเป็นโมเดลพัฒนาต่อยอดจากระบบโครงข่ายประสาทเทียมของ GPT-3 และมีจำนวนพารามิเตอร์ 1.2 หมื่นล้านตัว (บทความวิจัยที่เกี่ยวข้องสามารถอ่านได้ที่ Zero-Shot Text-to-Image Generation by Aditya Ramesh et. al. (2021))

ความโดดเด่นของ DALL·E คือ สามารถสร้างรูปภาพตามคำบรรยายที่มนุษย์ป้อนเข้าไปในระบบได้โดยทันที แม้ว่าจะไม่เคยเห็นมาก่อนในช่วงการฝึกโมเดล และยังมีความเข้าใจในองค์ประกอบของรูปภาพต่าง ๆ เช่น สไตล์และเทคนิคการวาดภาพหรือความแตกต่างของกาลเวลา

รูปที่ 3 ตัวอย่างการสร้างรูปภาพที่ไม่มีจริงโดย DALL·E รุ่นแรก (Source: OpenAI)
รูปที่ 4 ตัวอย่างภาพของนาฬิกาตามช่วงเวลาโดย DALL·E รุ่นแรก ซึ่งมีความทันสมัยมากขึ้นตามกาลเวลา (Source: OpenAI)

แม้ว่าความสามารถของ DALL·E รุ่นแรกจะแสดงให้เห็นถึงศักยภาพของปัญญาประดิษฐ์ในการเข้าใจภาษาของมนุษย์และสามารถสร้างรูปภาพที่ไม่มีจริงขึ้นมาได้ แต่รูปภาพนั้นยังมีข้อจำกัดอยู่ โดยเฉพาะความละเอียดและความสมจริงของรูปภาพ ทำให้มนุษย์ยังสามารถแยกแยะได้ว่า รูปนี้เป็นรูปที่ไม่ได้สร้างจากมนุษย์

ต่อมาในช่วงเดือนเมษายนปี 2022 เพียงแค่หนึ่งปีผ่านไปหลังจากเปิดตัว DALL·E รุ่นแรก OpenAI เปิดตัว DALL·E 2 หรือ DALL·E รุ่นที่ 2 และเรียกเสียงฮือฮาในปี 2022 นี้เลยทีเดียว (บทความวิจัยที่เกี่ยวข้องสามารถอ่านได้ที่ Hierarchical Text-Conditional Image Generation with CLIP Latents by Aditya Ramesh et. al. (2022))

DALL·E 2 หรือ DALL·E รุ่นที่ 2 สร้างรูปภาพที่มีความละเอียดของภาพดีขึ้นถึง 4 เท่า และมีพัฒนาการก้าวกระโดดทั้งในแง่ของการสร้างรูปภาพให้ตรงกับคำบรรยายและความสมจริง

รูปที่ 5 ตัวอย่างความแตกต่างของความละเอียดของรูปภาพจาก DALL·E 1 และ DALL·E 2
จากคำบรรยาย “a painting of a fox sitting in a field at sunrise in the style of Claude Monet” หรือ “ภาพวาดพู่กันรูปสุนัขจิ้งจอกในทุ่งหญ้าในเวลาพระอาทิตย์ขึ้นตามสไตล์ของศิลปิน Claude Monet” (Source: OpenAI)

ตัวอย่างต่อไปนี้ คือ ผลงานของ DALL·E 2 ที่แสดงศักยภาพในการสร้างรูปภาพที่หลากหลายภายใต้คำบรรยายเดียวกันโดยยังคงองค์ประกอบหลักของภาพและลักษณะเด่นของศิลปะไว้ อีกทั้งยังมีความละเอียดของภาพสูงอีกด้วย

รูปที่ 6 “An astronaut riding a horse in a photographic style”
นักบินอวกาศขี่ม้าโดยรูปภาพเป็นแบบภาพถ่าย (Source: OpenAI)
รูปที่ 7 “An astronaut riding a horse as a pencil drawing”
นักบินอวกาศขี่ม้าโดยรูปภาพเป็นลักษณะวาดด้วยดินสอ (Source: OpenAI)
รูปที่ 8 “Teddy bears working on new AI research on the moon in the 1980s”
ตุ๊กตาหมีทำงานวิจัยด้าน AI ชิ้นใหม่บนดวงจันทร์ในช่วงปี 1980  (Source: OpenAI)
รูปที่ 9 “A painting inspired by the Mona Lisa of a goat taking pictures with an iPad”
แพะถ่ายรูปด้วย iPad โดยรูปเป็นลักษณะภาพวาดพู่กันที่ได้รับแรงบันดาลใจจากรูปภาพโมนาลิซ่า
(Source: DALLE: AI Made This Thumbnail!)

ความสามารถเพิ่มเติมอันน่าทึ่งของ DALL·E 2

นอกเหนือจากการสร้างรูปภาพตามคำบรรยายที่มีความละเอียดภาพสูงแล้ว DALL·E 2 ยังมีความสามารถเพิ่มเติม นั่นคือ การเพิ่มองค์ประกอบในรูปภาพต้นฉบับโดยใช้คำบรรยาย (Inpainting) การสร้างรูปภาพใหม่ตามต้นฉบับ (Variations) และการปรับเปลี่ยนรูปภาพต้นฉบับโดยใช้คำบรรยาย (Text diffs)

Inpainting: ความสามารถในการเพิ่มองค์ประกอบของภาพต้นฉบับโดยใช้คำบรรยาย

DALL·E 2 มีความสามารถในการปรับเปลี่ยนองค์ประกอบของรูปภาพต้นฉบับ โดยสามารถเลือกตำแหน่งในรูปต้นฉบับที่ต้องการเปลี่ยน จากนั้นสามารถพิมพ์คำสั่งเพื่อให้เพิ่มองค์ประกอบรูป ณ ตำแหน่งนั้นได้ ดังแสดงตัวอย่างในรูปที่ 10 ที่มีการเพิ่มพระจันทร์เข้ามาในรูปภาพในตำแหน่งที่เลือกไว้ 

รูปที่ 10 รูปซ้ายมือคือ รูปต้นฉบับ ในขณะที่ในรูปขวามือ กรอบสีแดงแสดงตำแหน่งในรูปที่ต้องการเปลี่ยน
(Source: DALL-E 2 Inpainting / Editing Demo)
รูปที่ 11 ตัวอย่างการใช้คำสั่งในการเปลี่ยนองค์ประกอบของภาพในตำแหน่งที่เลือก โดยในกรณีนี้ใช้คำบรรยาย “a photo of a car in front of a scenic background with a moon” (รูปรถข้างหน้าทิวทัศน์และพระจันทร์)
เพื่อเพิ่มพระจันทร์เข้ามาในรูป (Source: DALL-E 2 Inpainting / Editing Demo)

Variations: ความสามารถในการสร้างรูปภาพใหม่ตามต้นฉบับ

DALL·E 2 นั้นยังมีความสามารถในการสร้างรูปภาพใหม่โดยลอกเลียนแบบจากรูปต้นฉบับ โดยยังคงองค์ประกอบหลักของภาพแต่สร้างรายละเอียดของภาพที่แตกต่างกันออกไปดังในรูปหญิงสาวโพกหัวนี้

รูปที่ 12 รูปด้านซ้ายคือรูปภาพ “Girl with a pearl earring” (รูปเด็กสาวใส่ตุ้มหูไช่มุก) ที่เป็นต้นแบบให้กับ DALL·E 2 ลอกเลียนแบบและสร้างขึ้นมาใหม่ในรูปตรงกลางและรูปด้านขวา (Source: OpenAI)

Text diffs: ความสามารถในการปรับเปลี่ยนรูปภาพต้นฉบับโดยใช้คำบรรยาย

DALL·E 2 นั้นยังมีความสามารถในการปรับเปลี่ยนรูปภาพต้นฉบับ โดยใส่คำบรรยายสำหรับรูปก่อนเปลี่ยนและคำบรรยายสำหรับรูปหลังเปลี่ยนได้ ตัวอย่างในรูปที่ 13 คือ รูปต้นฉบับซึ่งเป็นบ้านสมัย Victorian โดยคำบรรยายของรูปก่อนเปลี่ยนคือ “a Victorian house” (บ้านสมัย Victorian) และคำบรรยายรูปหลังเปลี่ยนคือ “a modern house” (บ้านในยุคสมัยปัจจุบัน) วิดีโอในรูปที่ 13 แสดงภาพที่ DALL·E 2 สร้างมาประกอบกันเพื่อแสดงถึงการปรับเปลี่ยนรูปต้นฉบับให้กลายเป็นบ้านยุคสมัยปัจจุบันตามโจทย์

รูปที่ 13 การเปลี่ยนรูปบ้านสมัย Victorian ให้กลายเป็นบ้านยุคปัจจุบันโดย DALL·E 2 (Source: Aditya Ramesh)

จะเห็นได้เลยว่า ความสามารถของ DALL·E 2 นั้นไม่ธรรมดาเลยทีเดียว ถ้าคุณสนใจถึงเทคโนโลยีเบื้องหลังของ DALL·E 2 รวมถึงข้อจำกัดและผลกระทบของปัญญาประดิษฐ์ตัวนี้ที่อาจจะสร้างความกังวลให้ในสังคม สามารถติดตามต่อไปได้ในภาคที่สองของบทความนี้

แหล่งอ้างอิง

เนื้อหาโดย ศรัณธร ภู่สิงห์ 
ตรวจทานและปรับปรุงโดย อนันต์วัฒน์ ทิพย์ภาวัต

Senior Data Scientist at Big Data institute (BDI)

แบ่งปันบทความ

กลุ่มเนื้อหา

แท็กยอดนิยม

แจ้งเรื่องที่อยากอ่าน

คุณสามารถแจ้งเรื่องที่อยากอ่านให้เราทราบได้ !
และเราจะนำไปพัฒนาบทความให้มีเนื้อหาที่น่าสนใจมากขึ้น

ไอคอน PDPA

เราใช้คุกกี้เพื่อพัฒนาประสิทธิภาพ และประสบการณ์ที่ดีในการใช้เว็บไซต์ของคุณ คุณสามารถศึกษารายละเอียดได้ที่ “นโยบายคุ้กกี้” และสามารถจัดการความเป็นส่วนตัวเองได้ของคุณได้เองโดยคลิกที่ “ตั้งค่า”

ตั้งค่าความเป็นส่วนตัว

คุณสามารถเลือกการตั้งค่าคุกกี้โดยเปิด/ปิด คุกกี้ในแต่ละประเภทได้ตามความต้องการ ยกเว้น คุกกี้ที่จำเป็น

ยอมรับทั้งหมด
จัดการความเป็นส่วนตัว
  • คุกกี้ที่มีความจำเป็น (Strictly Necessary Cookies)
    เปิดใช้งานตลอด

    คุกกี้ประเภทนี้มีความจำเป็นต่อการให้บริการเว็บไซต์ของ สำนักงานคณะกรรมการคุ้มครองข้อมูลส่วนบุคคล เพื่อให้ท่านสามารถเข้าใช้งานในส่วนต่าง ๆ ของเว็บไซต์ได้ รวมถึงช่วยจดจำข้อมูลที่ท่านเคยให้ไว้ผ่านเว็บไซต์ การปิดการใช้งานคุกกี้ประเภทนี้จะส่งผลให้ท่านไม่สามารถใช้บริการในสาระสำคัญของ สำนักงานคณะกรรมการคุ้มครองข้อมูลส่วนบุคคล ซึ่งจำเป็นต้องเรียกใช้คุกกี้ได้
    รายละเอียดคุกกี้

  • คุกกี้เพื่อการวิเคราะห์และประเมินผลการใช้งาน (Performance Cookies)

    คุกกี้ประเภทนี้ช่วยให้ BDI ทราบถึงการปฏิสัมพันธ์ของผู้ใช้งานในการใช้บริการเว็บไซต์ของ BDI รวมถึงหน้าเพจหรือพื้นที่ใดของเว็บไซต์ที่ได้รับความนิยม ตลอดจนการวิเคราะห์ข้อมูลด้านอื่น ๆ BDI ยังใช้ข้อมูลนี้เพื่อการปรับปรุงการทำงานของเว็บไซต์ และเพื่อเข้าใจพฤติกรรมของผู้ใช้งานมากขึ้น ถึงแม้ว่า ข้อมูลที่คุกกี้นี้เก็บรวบรวมจะเป็นข้อมูลที่ไม่สามารถระบุตัวตนได้ และนำมาใช้วิเคราะห์ทางสถิติเท่านั้น การปิดการใช้งานคุกกี้ประเภทนี้จะส่งผลให้ BDI ไม่สามารถทราบปริมาณผู้เข้าเยี่ยมชมเว็บไซต์ และไม่สามารถประเมินคุณภาพการให้บริการได้

  • คุกกี้เพื่อการใช้งานเว็บไซต์ (Functional Cookies)

    คุกกี้ประเภทนี้จะช่วยให้เว็บไซต์ของ BDI จดจำตัวเลือกต่าง ๆ ที่ท่านได้ตั้งค่าไว้และช่วยให้เว็บไซต์ส่งมอบคุณสมบัติและเนื้อหาเพิ่มเติมให้ตรงกับการใช้งานของท่านได้ เช่น ช่วยจดจำชื่อบัญชีผู้ใช้งานของท่าน หรือจดจำการเปลี่ยนแปลงการตั้งค่าขนาดฟอนต์หรือการตั้งค่าต่าง ๆ ของหน้าเพจซึ่งท่านสามารถปรับแต่งได้ การปิดการใช้งานคุกกี้ประเภทนี้อาจส่งผลให้เว็บไซต์ไม่สามารถทำงานได้อย่างสมบูรณ์

  • คุกกี้เพื่อการโฆษณาไปยังกลุ่มเป้าหมาย (Targeting Cookies)

    คุกกี้ประเภทนี้เป็นคุกกี้ที่เกิดจากการเชื่อมโยงเว็บไซต์ของบุคคลที่สาม ซึ่งเก็บข้อมูลการเข้าใช้งานและเว็บไซต์ที่ท่านได้เข้าเยี่ยมชม เพื่อนำเสนอสินค้าหรือบริการบนเว็บไซต์อื่นที่ไม่ใช่เว็บไซต์ของ BDI ทั้งนี้ หากท่านปิดการใช้งานคุกกี้ประเภทนี้จะไม่ส่งผลต่อการใช้งานเว็บไซต์ของ BDI แต่จะส่งผลให้การนำเสนอสินค้าหรือบริการบนเว็บไซต์อื่น ๆ ไม่สอดคล้องกับความสนใจของท่าน

บันทึกการตั้งค่า
ไซต์นี้ลงทะเบียนกับ wpml.org ในฐานะไซต์พัฒนา สลับไปยังไซต์การผลิตโดยใช้รหัส remove this banner.