Big Data 101

บทความทั้งหมด

All Big Data 101

Chunking: ตัวช่วยสำคัญในการจัดการข้อมูลขนาดใหญ่ใน Python DataFrame

เคยหรือไม่ที่คุณต้องเผชิญกับไฟล์ข้อมูลขนาดใหญ่จนโปรแกรมค้าง หรือหน่วยความจำ (RAM) ของเครื่องคอมพิวเตอร์ทำงานเกินขีดจำกัดจนไม่สามารถเปิดไฟล์เพื่ออ่านหรือประมวลผลได้ ปัญหานี้มักเกิดขึ้นบ่อยครั้งเมื่อต้องจัดการกับข้อมูลที่มีปริมาณมหาศาล โดยเฉพาะข้อมูลที่มีโครงสร้างซับซ้อน เช่น ไฟล์ CSV ขนาดใหญ่ ไฟล์บันทึก (Log files) ที่มีข้อมูลจำนวนมาก หรือแม้แต่ข้อมูลจากแหล่งข้อมูล Streaming ที่ไหลเข้ามาอย่างต่อเนื่อง การพยายามโหลดข้อมูลทั้งหมดเข้าสู่หน่วยความจำพร้อมกัน ไม่เพียงแต่จะทำให้เกิดปัญหาด้านทรัพยากรเท่านั้น แต่ยังส่งผลกระทบต่อประสิทธิภาพการทำงานของโปรแกรมโดยรวมอีกด้วย แล้วเราจะสามารถจัดการและประมวลผลข้อมูลขนาดใหญ่เหล่านี้ได้อย่างไรกัน วันนี้ เราจะมาทำความรู้จักกับเทคนิคสำคัญที่ช่วยให้การจัดการข้อมูลขนาดใหญ่ ให้เป็นเรื่องที่ง่ายและมีประสิทธิภาพมากยิ่งขึ้น นั่นก็คือ “Chunking” Chunking คืออะไร? Chunking คือเทคนิคการแบ่งข้อมูลที่มีขนาดใหญ่ออกเป็นชิ้นส่วนย่อย ๆ ที่มีขนาดเล็กลง (หรือ “chunks”) เพื่อให้คอมพิวเตอร์สามารถประมวลผลข้อมูลทีละส่วน โดยไม่ต้องโหลดข้อมูลทั้งหมดลงในหน่วยความจำพร้อมกัน ซึ่งจะช่วยหลีกเลี่ยงปัญหา Memory Error ที่เกิดจากการใช้หน่วยความจำที่มากเกินไป ทำไมต้องใช้ Chunking? การนำเทคนิค Chunking มาใช้ มีข้อดีสำหรับการทำงานกับ Big Data โดยตรง เช่น Chunking กับการจัดการ DataFrame ขนาดใหญ่ใน Python ในบริบทของการวิเคราะห์ข้อมูลด้วยภาษา Python นั้น DataFrame จากไลบราลี่ Pandas เป็นโครงสร้างข้อมูลแบบตารางสองมิติที่ใช้งานกันอย่างแพร่หลาย โดยมีแถว (Rows) แทนข้อมูลแต่ละรายการ และ คอลัมน์ (Columns) แทนคุณลักษณะหรือตัวแปรต่าง ๆ อย่างไรก็ตามไฟล์ข้อมูลที่บรรจุ DataFrame ที่มีจำนวนแถวและคอลัมน์มหาศาลนั้น การพยายามอ่านข้อมูลโดยใช้คำสั่งอ่านไฟล์มาตรฐาน เช่น pd.read_csv() อาจไม่สามารถทำได้ เนื่องจากปัญหา MemoryError ที่กล่าวไว้ข้างต้น ดังนั้นบทความนี้ จะแนะนำขั้นตอนการจัดการกับ DataFrame ขนาดใหญ่โดยใช้ Chunking ซึ่งประกอบด้วย 3 ขั้นตอนหลัก ดังนี้ ขั้นตอนที่ 1 มุ่งเน้นกับข้อมูลที่ตรงประเด็น (Focus on relevant data) ก่อนจะเริ่มแบ่งข้อมูลเป็น chunks การลดปริมาณข้อมูลที่ต้องโหลดในแต่ละส่วนย่อยตั้งแต่ต้น จะช่วยลดภาระการประมวลผลลงได้อย่างมาก ขั้นตอนนี้จึงมีความสำคัญไม่แพ้การทำ Chunking เริ่มต้นจากการพิจารณาว่ามีคอลัมน์ใดที่ต้องการนำไปประมวลผลบ้าง และมีเงื่อนไขอื่นใดอีกหรือไม่ที่จะสามารถกรองข้อมูลเฉพาะส่วนที่เกี่ยวข้องได้ เพื่อให้ได้ข้อมูลที่ตรงประเด็นที่สุด ในกรณีที่เราไม่ใช่เจ้าของข้อมูลโดยตรง การขอพจนานุกรมข้อมูล (Data Dictionary) จากเจ้าของข้อมูลจะช่วยให้เข้าใจความหมายของแต่ละคอลัมน์และเลือกคอลัมน์ที่จำเป็นได้อย่างถูกต้อง ตัวอย่าง: สมมติเราใช้ไฟล์ชุดข้อมูลรถยนต์มือสอง (autos.csv จาก Kaggle Used Cars Dataset) และมีโจทย์ที่ต้องการวิเคราะห์ความสัมพันธ์ระหว่างราคารถกับคุณลักษณะบางอย่างของรถยนต์มือสอง แทนที่จะโหลดคอลัมน์ทั้งหมดที่มี เราควรกำหนดตัวแปรเพื่อเลือกเฉพาะคอลัมน์ที่เกี่ยวข้องกับการวิเคราะห์ตั้งแต่ขั้นตอนการอ่านไฟล์ โดยใช้พารามิเตอร์ usecols ร่วมกับคำสั่งอ่านไฟล์ของ Pandas เช่น pd.read_csv(‘autos.csv’, usecols= [‘price’, ‘vehicleTypes’, ‘brand’, …]) นอกจากนี้ หากมีเงื่อนไขสำหรับกรองข้อมูลเบื้องต้น เช่น ต้องการเฉพาะรถยนต์ที่เสนอขาย (Angebot) เท่านั้น ในคอลัมน์ประเภทข้อเสนอ (offerType) ก็ควรกำหนดเงื่อนไขการกรองนี้ไว้ด้วย ดังภาพตัวอย่างโค้ด อย่างไรก็ตาม การกรองข้อมูลแถวในแนวยาว (เช่น df_sale = df[df[‘offerType’] == ‘Angebot’]) จะทำได้ก็ต่อเมื่อ DataFrame ที่เลือกคอลัมน์แล้วมีขนาดพอดีกับหน่วยความจำ หาก DataFrame นั้นมีขนาดใหญ่มากจนเกินหน่วยความจำ ก็มีความจำเป็นจะต้องทำการ Chunking เสียก่อน ขั้นตอนที่ 2 โหลดข้อมูลทีละส่วน (Load Data in Chunks) ขั้นตอนนี้เป็นหัวใจของการทำ Chunking สำหรับไฟล์ข้อมูลขนาดใหญ่ที่ไม่สามารถโหลดเข้าหน่วยความจำทั้งหมดได้ เราจะใช้พารามิเตอร์ chunksize ในฟังก์ชันอ่านไฟล์ของ Pandas โดยระบุขนาดของ chunk ที่ต้องการ เมื่อมีการประมวลผล Pandas จะไม่ส่งคืน DataFrame ทั้งก้อนให้ทันที แต่จะส่งคืนวัตถุที่เรียกว่า Iterator ซึ่งเราสามารถวนลูปเพื่อดึงข้อมูลมาประมวลผลได้ทีละส่วน (ทีละ chunk) ตามขนาดที่ได้กำหนดไว้ จากตัวอย่างโค้ดในภาพ 1 หากไฟล์ข้อมูล มี DataFrame ขนาดใหญ่ที่ไม่สามารถกรองข้อมูลรายแถวออกมาได้ทันที เราจำเป็นจะต้องใช้พารามิเตอร์เพื่อกำหนดขนาด chunksize ร่วมกับการอ่านไฟล์ด้วย Pandas ดังนี้ df = pd.read_csv(‘autos.csv’, chunksize = 50000) เมื่อมีการกำหนด chunksize=50000 คำสั่งอ่านไฟล์จะส่งคืน Iterator ซึ่งเราต้องทำการวนลูป เพื่ออ่านและประมวลผลข้อมูลทีละส่วน เช่น กระบวนการกรองข้อมูลรายแถว chunk_filtered = chunk[chunk[‘offerType’] == ‘Angebot’] โดยแต่ละส่วนจะมีข้อมูลไม่เกิน 50,000 แถว และส่งคืนกลับมาในรูปแบบ DataFrame ขนาดเล็กหนึ่งก้อน การประมวลผลจะดำเนินการไปเรื่อย ๆ จนกระทั่งอ่านข้อมูลจากไฟล์ได้ครบทุกส่วน เมื่อการประมวลผลแต่ละส่วนเสร็จสิ้น เราจะได้ DataFrame ขนาดเล็กหลาย ๆ ก้อนที่ถูกกรองเป็นที่เรียบร้อย ขั้นตอนที่ 3 บันทึกข้อมูลที่แก้ไขแล้วลงในไฟล์ใหม่ (Save modified data to new file) หลังจากที่เราได้ทำการโหลดและประมวลผลข้อมูลขนาดใหญ่ทีละส่วนตามขั้นตอนที่ 2 แล้ว ขั้นตอนสุดท้ายที่สำคัญคือการรวม DataFrame ขนาดเล็กเหล่านี้เข้าด้วยกันโดยการใช้คำสั่ง pd.concat() เพื่อสร้าง DataFrame ขนาดใหญ่ที่สมบูรณ์ซึ่งมีเฉพาะข้อมูลที่เราต้องการ เช่น df_sale = pd.concat(filtered_chunks) และบันทึกข้อมูลนี้ลงในไฟล์ใหม่ เพื่อให้สามารถนำไปใช้งานต่อในขั้นตอนการวิเคราะห์ข้อมูลขั้นสูงได้โดยไม่ต้องโหลดข้อมูลดิบขนาดใหญ่อีกต่อไป เทคนิค Chunking ใน Python Pandas ที่นำเสนอในบทความนี้ ถือเป็นแนวทางที่มีประสิทธิภาพอย่างยิ่งในการจัดการกับ DataFrame ขนาดใหญ่เกินหน่วยความจำ ด้วยสามขั้นตอนสำคัญ เราสามารถเอาชนะข้อจำกัดนี้ ทำให้การทำงานกับชุดข้อมูลขนาดมหึมาเป็นไปได้อย่างราบรื่น เป็นระบบ และพร้อมสำหรับการวิเคราะห์ Big Data โดยนักวิทยาศาสตร์ข้อมูลและวิศวกรข้อมูลสามารถประยุกต์ใช้ได้โดยไม่ต้องกังวลกับปัญหา MemoryError อีกต่อไป แหล่งข้อมูลอ้างอิง

16 May 2025

Big Data 101

Data Visualization ช่วยเราเข้าใจแผ่นดินไหวได้อย่างไร

แผ่นดินไหวเป็นภัยธรรมชาติที่สร้างความเสียหายมหาศาลต่อชีวิตและทรัพย์สิน การเข้าใจรูปแบบการเกิดแผ่นดินไหวผ่านการวิเคราะห์ข้อมูลและการแสดงผลข้อมูลเชิงภาพ (Data Visualization) จึงมีบทบาทสำคัญอย่างยิ่งในการเตรียมพร้อมรับมือและลดผลกระทบจากภัยพิบัติดังกล่าว บทความนี้นำเสนอวิธีการใช้ Data Visualization เพื่อทำความเข้าใจแผ่นดินไหวในมิติต่าง ๆ ความสำคัญของ Data Visualization ในการศึกษาแผ่นดินไหว การแสดงผลข้อมูลเชิงภาพช่วยให้เราสามารถเห็นรูปแบบและความสัมพันธ์ของข้อมูลที่ซับซ้อนได้อย่างชัดเจน สำหรับปรากฏการณ์แผ่นดินไหว การใช้ Data Visualization มีประโยชน์หลายประการ ดังนี้ การติดตามแผ่นดินไหว ณ เวลาปัจจุบัน (Real-time earthquake monitoring) ปัจจุบันมีระบบติดตามแผ่นดินไหวแบบเรียลไทม์หลายระบบ เช่น USGS Earthquake Map ที่จัดทำโดยสำนักงานธรณีวิทยาแห่งสหรัฐอเมริกา (USGS) โดยสามารถแสดงข้อมูลแผ่นดินไหวทั่วโลกแบบเรียลไทม์ (ภาพที่ 1) แสดงแผนที่ตำแหน่งการเกิดเหตุแผ่นดินไหวที่เกิดขึ้นล่าสุด เพื่อให้สามารถเข้าใจได้โดยง่าย แผนที่การเกิดแผ่นดินไหวจึงมักอยู่ในรูปแบบพื้นฐานที่ใช้แสดงตำแหน่งของแผ่นดินไหว โดยนิยมใช้จุด (Points) ที่มีขนาดและสีแตกต่างกันเพื่อแสดงความรุนแรงของแผ่นดินไหว การประยุกต์ใช้ Data Visualization ในการศึกษาแผ่นดินไหวมีความท้าทายสำคัญประการแรกคือการจัดการกับข้อมูลขนาดใหญ่ที่ไหลมาจากเครือข่ายเซนเซอร์จำนวนมาก ซึ่งจำเป็นต้องพัฒนาระบบการประมวลผลและแสดงผลแบบเรียลไทม์เพื่อให้ข้อมูลล่าสุดพร้อมใช้งานสำหรับการวิเคราะห์และติดตามสถานการณ์ นอกจากนี้ การออกแบบ Visualization ที่ซับซ้อนให้เข้าใจง่ายสำหรับประชาชนทั่วไปยังเป็นอีกความท้าทาย เพื่อให้การสื่อสารความเสี่ยงและการเตรียมพร้อมรับมือภัยพิบัติเป็นไปอย่างมีประสิทธิภาพ ปัจจุบัน สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน) ได้มีการจัดทำแดชบอร์ดติดตามสถานการณ์การเกิดแผ่นดินไหวในประเทศไทยและประเทศข้างเคียง (ภาพที่ 2) ซึ่งสามารถติดตามการกระจายตัว ขนาด ความถี่ รวมถึงแนวโน้มเชิงเวลาของ aftershocks ที่ปกติจะมีการเกิดขึ้นตามมาหลังจากการเกิดแผ่นดินไหวลูกใหญ่ (mainshock) ซึ่งโดยปกติจำนวน ขนาด และความถี่ของ aftershocks จะลดลงตามเวลาที่ผ่านไปหลังจากการเกิด mainshock ตามที่แสดงในภาพที่ 3 Data Visualization จึงเป็นเครื่องมือสำคัญในการทำความเข้าใจปรากฏการณ์แผ่นดินไหว การพัฒนาเทคนิคการแสดงผลข้อมูลที่มีประสิทธิภาพจะช่วยให้ประชาชนทั่วไปเข้าใจความเสี่ยงและเตรียมพร้อมรับมือกับแผ่นดินไหวได้ดียิ่งขึ้น ซึ่งในที่สุดจะช่วยลดความสูญเสียต่อชีวิตและทรัพย์สินจากภัยพิบัติทางธรรมชาติชนิดนี้ เอกสารอ้างอิง

28 April 2025

Big Data 101

Gotta Train ’Em All! พัฒนาองค์กรให้แข็งแกร่ง ด้วยระบบติดตามผลงานสไตล์โปเกเด็กซ์!

ในบริบทขององค์กรสมัยใหม่ การนำแนวคิดจากโลกโปเกมอนมาประยุกต์ใช้ในการบริหารทรัพยากรมนุษย์สามารถเป็นนวัตกรรมที่น่าสนใจ ระบบติดตามผลการปฏิบัติงานที่ออกแบบตามแนวคิดของ Pokédex ที่ให้ข้อมูลเชิงลึก สนุก และเข้าใจง่าย จะช่วยให้องค์กรสามารถวิเคราะห์ความสามารถ พัฒนาการ และศักยภาพของบุคลากรได้อย่างเป็นระบบและมีประสิทธิภาพ โดยมีเป้าหมายในการสร้างทีมงานที่มีความแข็งแกร่งและสามารถขับเคลื่อนองค์กรไปสู่ความสำเร็จ รูป Pokédex (https://www.pokemon.com/us/pokedex) Pokédex (https://www.pokemon.com/us/pokedex) เป็นสมุดบันทึกข้อมูลที่ใช้ในจักรวาลของโปเกมอน ทำหน้าที่บันทึกข้อมูลของโปเกมอนแต่ละชนิด มีคุณสมบัติหลัก แสดงรายละเอียดต่างๆ ของโปเกมอน เช่น: ประเภท ขนาด น้ำหนัก ความสามารถพิเศษ ถิ่นที่อยู่อาศัย ซึ่งช่วยให้เทรนเนอร์สามารถติดตามและศึกษาข้อมูลโปเกมอนได้อย่างละเอียด Employee Pokédex: โปรไฟล์เฉพาะตัวของพนักงาน โปเกมอนแต่ละตัวประกอบด้วยคุณลักษณะเฉพาะ พนักงานในองค์กรก็ล้วนมีความสามารถและศักยภาพที่แตกต่างกัน ระบบ Employee Pokédex จะเป็นเครื่องมือสำคัญที่ช่วยให้ฝ่ายทรัพยากรมนุษย์สามารถวิเคราะห์ภาพรวมของบุคลากรได้อย่างเป็นระบบและครอบคลุม โดยนำเสนอข้อมูลสำคัญ อาทิ ทักษะเชิงวิชาชีพ ความสามารถเฉพาะทาง และประวัติผลการปฏิบัติงาน เพื่อสนับสนุนการพัฒนาศักยภาพบุคลากรอย่างมีประสิทธิภาพและเป็นรูปธรรม ชื่อและตัวตน: ยอมรับความแตกต่างและศักยภาพของแต่ละบุคคล Pokédex จะบันทึกรายละเอียดเฉพาะของโปเกมอนแต่ละตัว องค์กรสมัยใหม่ก็ควรตระหนักถึงความหลากหลายของทรัพยากรมนุษย์ พนักงานแต่ละคนล้วนมีภูมิหลัง ทักษะ และคุณลักษณะเฉพาะตน การยอมรับและเคารพในความแตกต่างเหล่านี้จะช่วยสร้างวัฒนธรรมองค์กรที่ครอบคลุม เอื้ออำนวยให้บุคลากรรู้สึกถึงคุณค่าของตนเอง และสามารถแสดงศักยภาพได้อย่างเต็มประสิทธิภาพ ประเภทและความสามารถ: ค้นหาบทบาทที่ใช่ เช่นเดียวกับประเภทและความสามารถที่กำหนดประสิทธิภาพของโปเกมอนในการต่อสู้ พนักงานแต่ละคนในองค์กรก็มีคุณลักษณะเฉพาะที่แตกต่างกัน บางบุคคลมีความเชี่ยวชาญในการวิเคราะห์เชิงลึก บางคนโดดเด่นด้านความคิดสร้างสรรค์ และบางคนมีศักยภาพด้านภาวะผู้นำ การทำความเข้าใจ “ประเภท” และคุณลักษณะเฉพาะของพนักงานจะเป็นกลยุทธ์สำคัญที่ช่วยให้ฝ่ายทรัพยากรมนุษย์สามารถมอบหมายงานได้อย่างเหมาะสมและสอดคล้องกับความสามารถ อันจะนำไปสู่การสร้างทีมงานที่มีประสิทธิภาพและศักยภาพสูงสุด เพศ: ส่งเสริมความเท่าเทียมและความหลากหลาย ในโลกของโปเกมอนมีความหลากหลายทางพันธุกรรม องค์กรชั้นนำในปัจจุบันควรให้ความสำคัญอย่างยิ่งกับความหลากหลายและความเท่าเทียมในสถานที่ทำงาน เครื่องมือการบริหารทรัพยากรมนุษย์สมัยใหม่สามารถทำหน้าที่เป็นกลไกสำคัญในการส่งเสริมวัฒนธรรมองค์กรที่ครอบคลุม เพื่อสร้างโอกาสในการพัฒนาและความก้าวหน้าอย่างเป็นธรรมสำหรับบุคลากรทุกคน โดยไม่คำนึงถึงความแตกต่างทางเพศ เชื้อชาติ หรือพื้นฐานส่วนบุคคล Type Matchups: เข้าใจไดนามิกการทำงานเป็นทีม เช่นเดียวกับโปเกมอนที่มีคุณลักษณะเฉพาะทางพลังงานและความสามารถ พนักงานในองค์กรก็มีทักษะ จุดแข็ง และข้อจำกัดที่แตกต่างกัน การออกแบบทีมงานที่มีความหลากหลายและสามารถเสริมพลังซึ่งกันและกันจะเป็นกลยุทธ์ที่สำคัญในการเพิ่มประสิทธิภาพการทำงาน ฝ่ายทรัพยากรมนุษย์สามารถใช้ข้อมูลเชิงลึกในการจัดวางทรัพยากรบุคคล เพื่อสร้างทีมงานที่มีความสมดุลและมีศักยภาพในการขับเคลื่อนองค์กรอย่างมีประสิทธิภาพ Base Stats: วัดผลทักษะและศักยภาพของพนักงาน ศักยภาพของโปเกมอนจะมีค่าสถานะพื้นฐานที่เป็นตัวกำหนด พนักงานในองค์กรก็มีทักษะหลักที่สามารถพัฒนาและยกระดับได้ อาทิ ความสามารถในการวิเคราะห์และแก้ปัญหา ทักษะการปรับตัวต่อสถานการณ์ที่เปลี่ยนแปลง และประสิทธิภาพในการทำงานร่วมกับผู้อื่น ระบบติดตามผลการปฏิบัติงานแบบดิจิทัลจะเป็นเครื่องมือสำคัญที่ช่วยให้ฝ่ายทรัพยากรมนุษย์สามารถประเมินและวัดระดับความสามารถเหล่านี้ได้อย่างแม่นยำ อันจะนำไปสู่การวางแผนพัฒนาบุคลากรที่มีความเฉพาะเจาะจงและมีประสิทธิภาพสูงสุด Search Box: ค้นหาพนักงานที่ใช่ได้อย่างรวดเร็ว ฟังก์ชันการค้นหาที่มีประสิทธิภาพใน Pokédex ช่วยให้เทรนเนอร์สามารถเข้าถึงข้อมูลโปเกมอนได้อย่างรวดเร็ว ระบบการบริหารทรัพยากรมนุษย์สมัยใหม่ก็ควรพัฒนาเครื่องมือค้นหาที่มีความคล่องตัวและแม่นยำ ซึ่งจะช่วยให้ผู้บริหารสามารถค้นหาและคัดกรองบุคลากรตามคุณสมบัติเฉพาะ อาทิ ทักษะเชิงวิชาชีพ ประสบการณ์การทำงาน หรือผลงานที่ผ่านมา การออกแบบระบบสืบค้นดังกล่าวจะเป็นการเพิ่มประสิทธิภาพในการบริหารและพัฒนาทรัพยากรบุคคลขององค์กรอย่างเป็นระบบและมีประสิทธิผล สรุป: ใช้ข้อมูลขับเคลื่อนองค์กรให้เติบโตเหมือนเทรนเนอร์มืออาชีพ การประยุกต์ใช้แนวคิดจาก Pokédex ในระบบการวิเคราะห์ทรัพยากรมนุษย์จะเป็นนวัตกรรมที่ช่วยยกระดับการบริหารบุคลากร โดยสร้างระบบติดตามผลที่มีความแม่นยำ เข้าใจง่าย และมีประสิทธิภาพ ซึ่งจะช่วยให้ฝ่ายทรัพยากรมนุษย์สามารถประเมินและพัฒนาศักยภาพของพนักงานได้อย่างเป็นระบบ ท้ายที่สุดแล้ว ความสำเร็จขององค์กรเปรียบเสมือนการเดินทางในโลกโปเกมอน ที่ต้องอาศัยกลยุทธ์ การพัฒนาอย่างต่อเนื่อง และความร่วมมือของทีมงานที่เข้มแข็ง!

25 March 2025

Big Data 101 Data for Business Movements

Data Analytics คืออะไร ? และมีอะไรบ้าง ? ทำไมทุกองค์กรถึงให้ความสำคัญ

“Data is the new oil” เป็นประโยคที่ ไคลฟ์ ฮัมบี (Clive Humby) นักคณิตศาสตร์ชาวอังกฤษพูดไว้เมื่อปี 2006 เปรียบเปรยว่าข้อมูลเป็นเหมือนทรัพยากรที่มีค่าไม่ต่างจากน้ำมัน ถือเป็นคำกล่าวที่แสดงให้เห็นถึงความสำคัญของข้อมูลในยุคนี้ได้เป็นอย่างดี เพราะปัจจุบันข้อมูลได้กลายมาเป็นเครื่องมือสำคัญในการแข่งขันของโลกธุรกิจยุคใหม่ แต่การมีข้อมูลจำนวนมากแล้วไม่สามารถนำมาใช้งานได้ ก็เหมือนมีแค่น้ำมันดิบ หากไม่ได้ผ่านกระบวนการกลั่นก็ไม่มีประโยชน์ ดังนั้นการวิเคราะห์ข้อมูล หรือ Data Analytics จึงเปรียบเสมือนกระบวนการกลั่นที่เปลี่ยนข้อมูลดิบให้เป็นพลังงานขับเคลื่อนธุรกิจ เป็นขั้นตอนสำคัญที่ทำให้เราสามารถนำข้อมูลมาใช้งานได้อย่างมีประสิทธิภาพ แล้ว Data Analytics คืออะไร ? Data Analytics คือ กระบวนการวิเคราะห์ข้อมูลด้วยเทคโนโลยีสมัยใหม่ เช่น AI (Artificial Intelligence), Machine Learning และเครื่องมือ Data Analytics มาใช้วิเคราะห์ข้อมูลเพื่อหาข้อสรุปของข้อมูลนั้น ๆ ถือเป็นการนำข้อมูลที่ได้มา เข้าสู่กระบวนการแสดงค่า หาความหมาย และสรุปผลที่ได้จากข้อมูลนั้น ๆ ช่วยให้มองเห็นแนวโน้ม โอกาส และความเสี่ยงต่าง ๆ ทำให้สามารถตัดสินใจบนพื้นฐานของข้อมูลจริงแทนการใช้สัญชาตญาณ หรือประสบการณ์เพียงอย่างเดียว ซึ่งเป็นประโยชน์ต่อการคาดการณ์อนาคต หาแนวโน้มความน่าจะเป็น แนวโน้มคำตอบ หรือจุดที่ต้องแก้ไข ที่จะสามารถช่วยเสริมศักยภาพทางธุรกิจได้ รูปแบบการทำ Data Analytics การทำ Data Analytics สามารถแบ่งออกได้เป็น 4 ประเภทหลัก ๆ ตามลักษณะและวัตถุประสงค์ ดังนี้ ตัวอย่างเครื่องมือในการทำ Data Analytics (Data Analytics Tools) ความสำคัญของ Data Analytics ในธุรกิจ Data Analytics ยังเป็นส่วนสำคัญของการขับเคลื่อน Digital Transformation ในองค์กร เนื่องจากข้อมูลเชิงลึกที่ได้ จะช่วยให้ธุรกิจค้นพบไอเดียหรือโอกาสใหม่ ๆ ในการเพิ่มรายได้ ลดต้นทุน หรือสร้างนวัตกรรม ซึ่งเป็นปัจจัยสำคัญที่จะทำให้องค์กรสามารถปรับตัวและเติบโตได้อย่างรวดเร็วในโลกดิจิทัลที่มีการแข่งขันสูง หลายองค์กรตระหนักถึงความสำคัญของการใช้ Data Analytics เพื่อปรับปรุงกระบวนการทำงาน ลองมาดูตัวอย่างของการนำ Data Analytics ไปใช้งานในธุรกิจด้านต่าง ๆ กัน องค์กรสามารถใช้การวิเคราะห์ข้อมูลเพื่อทำความเข้าใจพฤติกรรมของลูกค้า ทำให้สามารถสร้างแคมเปญการตลาดที่มีประสิทธิภาพมากขึ้น รวมถึงการทำ Personalization ที่สามารถนำเสนอสินค้าหรือบริการที่ตรงกับความต้องการของลูกค้ามากที่สุด ตัวอย่างเช่น Netflix แพลตฟอร์มสตรีมมิ่งคอนเทนต์ระดับโลก ได้มีการนำ Data Analytics มาใช้ประโยชน์ในการรวบรวมพฤติกรรมการใช้งานของสมาชิก ด้วยเทคโนโลยี AI ทั้งอุปกรณ์ที่ใช้ในการรับชม ประวัติการดู คำค้นหา หรือผู้คนชอบดูภาพยนตร์และคอนเทนต์แนวไหนมากที่สุด จากนั้นนำมาวิเคราะห์พฤติกรรมของสมาชิกแต่ละคน เพื่อนำข้อมูลเหล่านี้มาใช้ในการแนะนำภาพยนตร์ หรือคอนเทนต์ ที่สมาขิกสนใจจะดูได้ตรงตามความต้องการ การวิเคราะห์ข้อมูลสามารถช่วยให้บริษัทคาดการณ์ความต้องการของสินค้าและบริหารจัดการสินค้าคงคลังได้อย่างมีประสิทธิภาพ ทำให้ลดปัญหาสินค้ามากเกินหรือน้อยเกินไป และช่วยลดต้นทุนทางธุรกิจ ตัวอย่างเช่น Amazon แพลตฟอร์มขายสินค้าออนไลน์ชื่อดัง ที่โดดเด่นในการใช้ Data Analytics โดยมีการใช้ Machine Learning และ Artificial Intelligence เพื่อวิเคราะห์ข้อมูลการสั่งซื้อและคาดการณ์แนวโน้ม ทำให้การจัดการสินค้าคงคลังมีความรวดเร็วและแม่นยำ การใช้ Data Analytics มาช่วยในการประเมินและจัดการความเสี่ยงในด้านต่าง ๆ จะช่วยให้ธุรกิจสามารถตรวจจับความผิดปกติและป้องกันการฉ้อโกงได้อย่างรวดเร็วจากสัญญาณความผิดปกติจากข้อมูล ทำให้สามารถแก้ไขปัญหาได้อย่างทันท่วงที ตัวอย่างเช่น บริษัทประกันภัยชั้นนำอย่าง AON ใช้ Data Analytics ในการบริหารจัดการและควบคุมความเสี่ยงที่เกี่ยวข้องกับการประกัน ซึ่งข้อมูลที่รวบรวมมาจากพฤติกรรมลูกค้าช่วยให้พวกเขาสามารถวางแผนและจัดการความเสี่ยงได้อย่างมีประสิทธิภาพ การใช้ Data Analytics ในการวิเคราะห์ข้อมูลพนักงานสามารถช่วยให้ผู้บริหารตัดสินใจในเรื่องการจ้างงาน การเลื่อนตำแหน่ง การฝึกอบรม และการระบุปัญหาที่เกิดขึ้นในองค์กรก่อนที่จะกลายเป็นปัญหาใหญ่ ตัวอย่างเช่น บริษัท Google มีการใช้ HR Analytics เพื่อทำความเข้าใจและปรับปรุงกระบวนการที่เกี่ยวข้องกับพนักงานทั้งหมด ตั้งแต่การจ้างงานจนถึงการเพิ่มคุณภาพชีวิตที่ทำงานด้วยการสำรวจและการวิเคราะห์ข้อมูล เพื่อรวบรวมความคิดเห็นและข้อมูลจากพนักงาน ในการปรับปรุงกระบวนการต่าง ๆ ให้เหมาะสมกับวัฒนธรรมองค์กรและสร้างสภาพแวดล้อมที่ดีขึ้น การนำ Data Analytics มาใช้ในการวิเคราะห์กระบวนการทำงานหรือขั้นตอนการผลิต จะช่วยให้สามารถค้นพบจุดที่เป็นคอขวด และเพิ่มประสิทธิภาพการดำเนินงานได้อย่างเป็นรูปธรรม ตัวอย่างเช่น Grab แพลตฟอร์มที่อำนวยความสะดวกให้แก่ผู้ใช้งานผ่านทางแอปพลิเคชันบนมือถือ ทั้งบริการเรียกรถรับส่ง บริการส่งพัสดุ และบริการรับส่งอาหาร มีการใช้ AI วิเคราะห์ข้อมูลการสั่งอาหารของลูกค้า โดยแนะนำร้านอาหารที่ชอบ ร้านอาหารที่มีโปรโมชั่นน่าสนใจ หรือร้านอาหารใกล้บ้าน และประมวลผลสำหรับผู้ให้บริการ Grab เพื่อให้บริการได้สะดวกมากยิ่งขึ้น การวิเคราะห์ข้อมูลลูกค้าจากหลายช่องทาง ทั้งข้อมูลการซื้อ พฤติกรรมการใช้งาน Social Media ทำให้เข้าใจความต้องการ ความชอบและ Pain Points ของลูกค้าได้ลึกซึ้งมากยิ่งขึ้น ส่งผลให้สามารถพัฒนาสินค้าและบริการให้ตรงใจลูกค้ามากขึ้นด้วย ตัวอย่างเช่น McDonald’s แบรนด์อาหารฟาสต์ฟู้ดที่มีจำนวนสาขาทั่วทุกมุมโลก ก็มีการทำ Data Analytics ในการเก็บข้อมูล เช่น รายการสั่งซื้อ เมนูที่ลูกค้าชอบ และการคอมเมนต์ตามแพลตฟอร์ม Social Media ต่าง ๆ นอกจากนี้ ยังใช้ AI ในการวิเคราะห์ข้อมูลกลุ่มเป้าหมาย เช่น ที่ตั้งของร้านมีผลต่อการเข้าใช้บริการของลูกค้าหรือไม่ ชุดเซตเมนูอย่าง Happy Meal เหมาะกับลูกค้าประเภทไหนบ้าง หรือเทรนด์การตลาดที่กำลังเป็นกระแส เพื่อทำการตลาดและนำเสนอเมนูที่ลูกค้าชอบ ที่ตอบโจทย์ความต้องการของลูกค้าให้ได้มากที่สุด จากตัวอย่างที่กล่าวมา จะเห็นได้ว่า Data Analytics มีบทบาทสำคัญต่อความสำเร็จของธุรกิจในยุคดิจิทัล องค์กรที่นำเทคโนโลยีมาวิเคราะห์ข้อมูล จะสามารถใช้ข้อมูลเชิงลึกเพื่อแก้ปัญหา วางแผนกลยุทธ์ และตัดสินใจได้อย่างแม่นยำ ธุรกิจที่ให้ความสำคัญกับ Data Analytics จะได้เปรียบในการแข่งขัน เพราะสามารถเข้าใจพฤติกรรมผู้บริโภค คาดการณ์แนวโน้ม และปรับตัวได้รวดเร็ว นอกจากนี้ การเก็บข้อมูลสถิติในกระบวนการทำงานยังช่วยให้ค้นพบวิธีการแก้ปัญหาใหม่ ๆ และเพิ่มประสิทธิภาพในทุกด้าน นี่คือเหตุผลว่าทำไม Data Analytics จึงเป็นกุญแจสู่ความสำเร็จขององค์กรชั้นนำในยุคนี้ แหล่งอ้างอิง

19 March 2025

Big Data 101

Meta Prompting: ใช้ AI ช่วยสร้างคำสั่งให้ AI ทำงานเก่งขึ้น

ทุกวันนี้ เราใช้ AI อย่าง ChatGPT, Claude, หรือ DeepSeek ช่วยทำงานได้หลายอย่าง ไม่ว่าจะเขียนบทความ ตอบคำถาม หรือช่วยคิดวิเคราะห์ข้อมูลต่าง ๆ แต่การจะ “สั่ง” Artificial Inteligence (AI) ให้ทำงานได้ตรงใจนั้นไม่ใช่เรื่องง่าย เพราะบางที AI ก็ให้คำตอบที่ไม่ตรงตามความต้องการ ทำให้เราต้องเสียเวลาแก้คำสั่งซ้ำไปซ้ำมา ซึ่งบทความนี้ผู้เขียนจะแนะนำเทคนิค “เมตาพรอมต์ติ้ง” หรือ Meta Prompting ที่จะให้ AI มาช่วยเราสร้างและปรับปรุง “คำสั่ง” ให้ดีขึ้นไปอีก Meta Prompting คืออะไร? Meta Prompting เป็นเทคนิคหนึ่งในการออกแบบคำสั่ง (Prompt Engineering) โดยเราจะใช้ AI มาช่วยสร้างหรือปรับปรุงชุดคำสั่ง แทนที่เราจะต้องคิดคำสั่งเองทั้งหมด เราก็ให้ AI ช่วยคิดโครงสร้าง เนื้อหา หรือแม้แต่ปรับปรุงคำสั่งเดิม ทำให้เราทำงานที่ซับซ้อน ได้ง่ายขึ้น และปรับตัวตามสถานการณ์ต่างๆ ได้ดีขึ้นด้วย ทำไมต้องใช้ Meta Prompting? วิธีการของ Meta Prompting บทความนี้จะแนะนำตัวอย่างการทำ Meta Prompting 3 วิธี ดังนี้ 1. Meta-Prompting รูปที่ 1 รูปแบบการทำงานของ Meta-Prompting [1] หลักการการทำงาน คือ การสร้าง “คำสั่งหลัก” ที่ทำหน้าที่เหมือน “ผู้จัดการโครงการ” โดยคอยแบ่งงานย่อย ๆ ให้ “คำสั่งย่อย” ที่ทำหน้าที่เหมือน “ผู้เชี่ยวชาญ” ในแต่ละด้าน เช่น “ผู้เชี่ยวชาญด้านการตลาด”, “ผู้เชี่ยวชาญด้านการเขียนโปรแกรม” แล้วค่อยรวบรวมผลลัพธ์ สามารถอ่านรายละเอียดเพิ่มเติมได้ที่ https://arxiv.org/pdf/2401.12954 ขั้นตอนการทำงาน: ตัวอย่างการใช้งาน: “` คุณคือ Meta-Expert ผู้เชี่ยวชาญด้านการวางแผนงานอีเวนต์ สามารถทำงานร่วมกับผู้เชี่ยวชาญอื่น ๆ ได้ เพื่อจัดงานเลี้ยงบริษัทให้สมบูรณ์แบบ คุณสามารถเรียกใช้ผู้เชี่ยวชาญด้านต่าง ๆ ได้แก่ “เชฟมืออาชีพ”, “นักตกแต่งสถานที่”, และ “นักวางแผนกิจกรรม” ในการเรียกผู้เชี่ยวชาญ ให้พิมพ์ชื่อตามด้วย “:” เช่น: เชฟมืออาชีพ: แนะนำเมนูอาหารสำหรับงานเลี้ยงบริษัท 100 คน เน้นอาหารไทย มีตัวเลือกสำหรับคนทานมังสวิรัติ และคนแพ้อาหารทะเล นักตกแต่งสถานที่: ออกแบบการตกแต่งสำหรับงานเลี้ยงบริษัทในธีม “รื่นเริงริมทะเล” ใช้งบประมาณไม่เกิน 50,000 บาท นักวางแผนกิจกรรม: จัดกิจกรรมสันทนาการ 3 กิจกรรมสำหรับพนักงานบริษัท เน้นกิจกรรมที่ส่งเสริมความสามัคคี และสนุกสนาน “` 2. Learning from Contrastive Prompts หลักการการทำงาน คือ การให้ AI เปรียบเทียบ “คำสั่งที่ดี” (ที่สามารถให้ผลลัพธ์ตรงตามความต้องการ) กับ “คำสั่งที่ไม่ดี” เพื่อเรียนรู้ว่าอะไรใช้ได้ผลและอะไรใช้ไม่ได้ผล แล้วสามารถสร้างคำสั่งใหม่ที่ดีกว่าเดิม สามารถอ่านรายละเอียดเพิ่มเติมได้ที่ https://arxiv.org/pdf/2409.15199 ขั้นตอนการทำงาน: รูปแบบการใช้งาน “` โจทย์: {{ Question }} กำหนดอินพุต: {{ Input }} และเอาต์พุตที่คาดหวัง: {{ Output }} อธิบายเหตุผลว่าเหตุใดอินพุตจึงสอดคล้องกับเอาต์พุตที่คาดหวัง จากนั้นใช้เหตุผลดังกล่าวสร้างพรอมต์เพื่อให้ได้เอาต์พุตที่คาดหวังจากอินพุตใดๆ ทั้งหมด 5 พรอมต์ ทำการอธิบายว่าพรอมต์ใดทำงานตามโจทย์ได้ดีที่สุด และสรุปเป็นพรอมต์ใหม่ ที่ดีขึ้นกว่าเดิม “` ตัวอย่างการใช้งาน “` โจทย์: จำแนกความรู้สึกของข้อความต่อไปนี้ว่าเป็น “บวก” หรือ “ลบ” ข้อมูล: “หนังเรื่องนี้สนุกมาก!“ คำตอบที่ถูกต้อง: บวก ข้อมูล: “ฉันไม่ชอบอาหารร้านนี้เลย” คำตอบที่ถูกต้อง: ลบ อธิบายเหตุผลว่าเหตุใดอินพุตจึงสอดคล้องกับเอาต์พุตที่คาดหวัง จากนั้นใช้เหตุผลดังกล่าวสร้างพรอมต์เพื่อให้ได้เอาต์พุตที่คาดหวังจากอินพุตใดๆ ทั้งหมด 5 พรอมต์ ทำการอธิบายว่าพรอมต์ใดทำงานตาม โจทย์ได้ดีที่สุด และสรุปเป็นพรอมต์ใหม่ ที่ดีขึ้นกว่าเดิม “` 3. Declarative Self-improving Python (DSPy) รูปที่ 2 ตัวอย่างการทำงานขอ DSPy [6] หลักการการทำงาน: เป็นหนึ่งใน Python Library ที่มี Framework ที่ช่วยในการคอยปรับแต่งและพัฒนาคำสั่งให้ดีขึ้นโดยอัตโนมัติ สามารถอ่านรายละเอียดเพิ่มเติมได้ที่ https://arxiv.org/pdf/2310.03714 ขั้นตอนการทำงาน: ตัวอย่างการใช้งาน “` import dspy # กำหนด LLM ที่จะใช้ (ในตัวอย่างนี้ขอสมมติเป็น OpenAI) lm = lm = dspy.LM(‘openai/gpt-4o-mini’, api_key=’YOUR_OPENAI_API_KEY’) dspy.settings.configure(lm=lm) # กำหนด signature บอกว่า input คืออะไร (text) และ output คืออะไร (sentiment) class SentimentAnalysis(dspy.Signature): text = dspy.InputField(desc=”The text to analyze”) sentiment = dspy.OutputField(desc=”Either ‘positive’ or ‘negative'”) # สร้าง module ที่ใช้ signature นี้ และมี dspy.Predict เพื่อเรียกใช้ LLM class AnalyzeSentiment(dspy.Module): def __init__(self): super().__init__() self.classify = dspy.Predict(SentimentAnalysis) def forward(self, text): pred = self.classify(text=text) return pred # สร้างตัวอย่างข้อมูล (input, output) trainset...

17 March 2025

Big Data 101

การสร้าง Dashboard โดยใช้ Chart.js ใน Next.js: จากโปรแกรมสำเร็จรูปสู่การพัฒนาเว็บไซต์

การสร้างแดชบอร์ด (dashboard) เพื่อแสดงข้อมูลในรูปแบบที่เข้าใจง่ายและมีประสิทธิภาพถือเป็นสิ่งสำคัญในยุคดิจิทัลปัจจุบัน ไม่ว่าจะเป็นการใช้งานในธุรกิจ การศึกษา หรือการวิเคราะห์ข้อมูล ในปัจจุบันมีเครื่องมือมากมายที่สามารถสร้างแดชบอร์ดได้อย่างรวดเร็ว เช่น Tableau และ Power BI ซึ่งเป็นโปรแกรมสำเร็จรูปที่มีเครื่องมือและฟังก์ชันการทำงานที่หลากหลาย ช่วยให้ผู้ใช้งานสามารถสร้าง แดชบอร์ด ได้โดยไม่ต้องมีทักษะการเขียนโปรแกรม อย่างไรก็ตามการสร้างแดชบอร์ดบนเว็บไซต์โดยใช้ JavaScript libraries เช่น Chart.js ใน Next.js ถือเป็นทางเลือกที่มีความยืดหยุ่นและสามารถปรับแต่งได้อย่างเต็มที่ ซึ่งเป็นการเปิดโอกาสให้ผู้พัฒนาสามารถสร้างแดชบอร์ด ที่ตอบโจทย์เฉพาะของตนเองได้มากยิ่งขึ้น Chart.js คืออะไร Chart.js เป็น JavaScript library ที่ช่วยให้นักพัฒนาสามารถสร้างกราฟและแผนภูมิในเว็บไซต์ได้อย่างง่ายดาย โดยไม่จำเป็นต้องมีความรู้ด้านการเขียนโค้ดที่ซับซ้อน นอกจากนี้ยังมีคุณสมบัติที่ยืดหยุ่นและปรับแต่งได้ตามความต้องการของผู้ใช้งาน Chart.js รอบรับการสร้างกราฟหลากหลายประเภท เช่น กราฟแท่ง กราฟเส้น กราฟวงกลม กราฟเรดาร์เป็นต้น อีกทั้ง Chart.js ยังมีขนาดเล็กและง่ายต่อการใช้งาน ทำให้เป็นตัวเลือกที่ดีสำหรับการสร้างแดชบอร์ดที่มีประสิทธิภาพ การใช้งาน Chart.js Chart.js สามารถติดตั้งได้ผ่าน Node Package Manager (npm) หรือ Content Delivery Network (CDN) ก็ได้ หลังจากติดตั้งเรียบร้อยแล้ว การสร้างกราฟจะสร้างผ่านตัวแปรและนำตัวแปรนั้นไปแสดงผลบนเว็บไซต์ในตำแหน่งที่ต้องการ ด้านบนเป็นการแสดงตัวอย่างการสร้างกราฟเส้น โดยหลัก ๆ แล้วการสร้างกราฟจะถูกแบ่งเป็น 2 ส่วนคือ ส่วนของข้อมูลและส่วนขององค์ประกอบอื่น ๆ ของกราฟ (option) ในส่วนของข้อมูลนั้นจะเป็นชื่อแกน ตัวเลขที่แสดงในกราฟ สีของกราฟเป็นต้น จากที่แสดงในตัวอย่างค่าของแกนนอน (x) จะเป็นชื่อเดือนตั้งแต่เดือน มกราคม ถึง กรกฎาคม จากตัวแปรที่ชื่อ “labels” ชื่อชุดข้อมูล จำนวนและองค์ประกอบต่าง ๆ ของเส้นกราฟสำหรับข้อมูลนั้นจะอยู่ในตัวแปรที่ชื่อว่า “datasets” ทั้งนี้ถ้าหากมีชุดข้อมูลมากกว่า 1 ชุดก็สามารถเพิ่มในส่วนนี้ได้เลย ในด้านองค์ประกอบอื่น ๆ ก็จะเกี่ยวกับการปรับแต่งค่าเริ่มต้นและสิ้นสุดของแกน การแสดงคำแนะนําเครื่องมือ (tooltip) การแสดงตัวเลขข้อมูล (data label) รวมถึงฟังก์ชัน (function) ในการกระทำ (Action) ต่าง ๆ ดังนั้นเมื่อนำกราฟหลาย ๆ อันมารวมกันก็จะสามารถประกอบกันเป็นแดชบอร์ดได้ ฟังก์ชันที่สำคัญอีกอย่างของแดชบอร์ดนั้นคือความสามารถในการตอบโต้ (interaction) เมื่อผู้ใช้งานคลิก (click) ที่กราฟ สิ่งที่จะเกิดขึ้นมักจะเป็นการกรองข้อมูล (filter) ให้เหลือข้อมูลในส่วนที่สนใจเท่านั้น ใน chart.js ก็สามารถทำได้เหมือนกันเพียงแค่เพิ่มฟังก์ชันในการกรองข้อมูลหลังจากที่กราฟถูกคลิกตามตัวอย่างดังนี้ จากตัวอย่างจะเห็นได้ว่าฟังก์ชัน onClick จะถูกเพิ่มลงในส่วนประกอบของการสร้างกราฟ จากคำสั่งด้านบนจะเป็นการสกัด label ของกราฟในส่วนที่ถูกคลิกเพื่อส่งต่อไปยังฟังก์ชันที่ชื่อ handleLineChartClick เพื่อทำการกรองข้อมูล เปลี่ยนสีกราฟ เป็นต้น จากตัวอย่างจะเป็นการกรองข้อมูลให้เหลือเฉพาะข้อมูลที่ถูกเลือกเท่านั้น หากมีหลายกราฟ ข้อมูลในกราฟอื่น ๆ ก็จะถูกกรองไปด้วยเช่นกัน เท่านี้ก็จะทำให้แดชบอร์ดบนเว็บของเรานั้นมีการตอบโต้แล้ว โดยสรุปแล้วการสร้าง Dashboard นั้นไม่ได้จำกัดอยู่แค่เครื่องมืออย่าง Power BI และ Tableau เท่านั้น แต่ยังสามารถทำได้ผ่านวิธีอื่น ๆ เช่นการใช้ Chart.js ซึ่งเป็น JavaScript library ที่ช่วยในการสร้างกราฟบนเว็บไซต์ ข้อดีของการใช้ Chart.js คือความยืดหยุ่นและการปรับแต่งที่ง่ายดาย ผู้ใช้สามารถออกแบบกราฟให้เข้ากับความต้องการเฉพาะได้ ไม่ว่าจะเป็นการแสดงผลในรูปแบบใด ๆ และยังสามารถทำงานร่วมกับเว็บไซต์หรือแอปพลิเคชันได้อย่างราบรื่น บทความโดย ทักษ์ดนัย แซ่ลี่ ทบทวนและปรับปรุงโดย อิสระพงศ์ เอกสินชล เอกสารอ้างอิง

24 December 2024

Big Data 101

การนำเสนอข้อมูลด้วย Synoptic Panel ใน Power BI: จากแผนภาพธรรมดาสู่ Interactive Dashboard สุดล้ำ

ในยุคที่ข้อมูลเป็นหัวใจสำคัญของการตัดสินใจทางธุรกิจ การนำเสนอข้อมูลที่ซับซ้อนให้เข้าใจง่ายถือเป็นความท้าทายอันดับต้น ๆ ของนักวิเคราะห์ข้อมูล แต่คุณเคยนึกภาพไหมว่า หากสามารถแปลงแผนผังอาคาร แผนที่ หรือแม้แต่ภาพวาดให้กลายเป็น Dashboard แบบ Interactive ได้ล่ะ? นี่คือสิ่งที่ Synoptic Panel ใน Power BI ทำได้! Synoptic Panel คืออะไร และทำไมต้องใช้? Synoptic Panel เป็น Visual Customization ที่ช่วยให้คุณสามารถแปลงภาพนิ่งให้กลายเป็น interactive dashboard โดยการเชื่อมโยงพื้นที่ต่างๆ ในภาพเข้ากับข้อมูลของคุณ ทำให้การนำเสนอข้อมูลมีความน่าสนใจและเข้าใจง่ายมากขึ้น หลักการทำงานของ Synoptic Panel Synoptic Panel มีหลักการทำงานโดย เชื่อมโยงข้อมูลกับภาพ ซึ่งคุณสามารถนำภาพใด ๆ มาใช้ เช่น แผนผังโรงงาน แผนที่โลก หรือแม้แต่แผนภูมิองค์กร แล้วกำหนดให้แต่ละส่วนของภาพนั้นแสดงค่าข้อมูลที่คุณต้องการ จากนั้นแสดงผลแบบไดนามิก เมื่อมีการเลือกข้อมูลในส่วนอื่น ๆ ของรายงาน Power BI ภาพที่อยู่ใน Synoptic Panel จะเปลี่ยนแปลงไปตามข้อมูลที่เลือก ทำให้เห็นภาพความสัมพันธ์ของข้อมูลได้อย่างชัดเจน ข้อดีของ Synoptic Panel ข้อจำกัดของ Synoptic Panel ตัวอย่างการประยุกต์ใช้งาน โจทย์ : ความพร้อมของเตียงและรถเข็นในจุดบริการตรงทางเข้าของโรงพยาบาล สิ่งที่ต้องรู้คือ เราต้องการทราบจำนวนเตียงและจำนวนรถเข็นของแต่ละที่เพื่อให้มีเตียงและรถเข็นให้เพียงพอต่อการใช้บริการ เริ่มขั้นแรกด้วยการวาดแปลนง่ายๆ โดยมีห้องเก็บของทั้งหมด 4 ห้องในตำแหน่งหมายเลข 1, 2, 3 และ 4 และจุดบริการเตียงและรถเข็น 2 จุด ณ ตำแหน่งหมายเลข 5 และ 6 ดังรูปที่ 1 รูปที่ 1 แผนที่แสดงตำแหน่งของห้องเก็บของและจุดบริการ จากนั้นนำรูปเข้า Synoptic Designer ซึ่งเป็นเครื่องมือที่จะช่วยกำหนดขอบเขตของห้องแต่ละห้อง เมื่อนำเข้าแล้วเราก็จะสามารถนำรูปที่เราวาดไว้เข้ามาแสดงในแดชบอร์ดได้ โดยกำหนด Area name ให้ครบทุกห้อง เมื่อกำหนดเสร็จแล้ว กด Export to Power BI ไฟล์ที่ได้เป็นประเภทไฟล์นามสกุล svg รูปที่ 2 การนำเข้าไฟล์และการกำหนดค่าใน Synoptic Designer ใน Power Bi เลือก Get more visuals รูปที่ 3 การนำเข้า Visual ใน Power Bi ค้นหา Synoptic Panel by OKViz หลังจากนั้นให้เลือก Add รูปที่ 4 นำเข้า Visual ตัวอย่างข้อมูล : รูปที่ 5 ตัวอย่างข้อมูล เมื่อนำเข้า Visual แล้ว หลังจากนั้นให้ลากและวางฟิลด์ในช่องที่กำหนด ในส่วนของ Visual เลือก Local maps จากนั้นเลือกรูปที่สร้างไว้ โดยเป็นไฟล์นามสกุล .svg รูปที่ 6 กำหนดฟิลด์ในช่องการแสดงผล เมื่อนำเข้าไฟล์ที่ต้องการแล้ว หลังจากนั้นนำฟิลด์ index_Status มาใส่ใน States Measure เพื่อใช้ในการกำหนดสีของสถานะของจำนวนรถเข็นและเตียง รูปที่ 7 การแสดงสถานะของจำนวนรถเข็นและเตียง เพิ่ม Visual อื่นๆ เช่น Slicer เพื่อเลือกอาคารที่สนใจ เพิ่มการแสดงจำนวนเตียงและรถเข็นรวมในแต่ละอาคาร และแสดงชื่อผู้รับผิดชอบที่มีหน้าที่ดูแล จุดบริการเตียงและรถเข็น ผลลัพธ์ที่ได้ : รูปที่ 8 การแสดงผลลัพธ์ที่ได้ Synoptic Panel ไม่ใช่แค่ Visual ธรรมดา แต่เป็นเครื่องมือที่ช่วยยกระดับการนำเสนอข้อมูลของคุณให้มีประสิทธิภาพมากขึ้น ด้วยความสามารถในการเชื่อมโยงข้อมูลเข้ากับภาพจริง ทำให้ผู้ใช้งานเข้าใจข้อมูลได้เร็วขึ้น และสามารถตัดสินใจได้แม่นยำมากขึ้น ไม่ว่าคุณจะทำงานในภาคการผลิต การจัดการอาคาร หรือการวิเคราะห์พื้นที่ขาย Synoptic Panel จะช่วยให้การนำเสนอข้อมูลที่มีประสิทธิภาพมากขึ้นอย่างแน่นอน บทความอ้างอิง บทความโดย พรวิภา มีเคลือบ ตรวจทานและปรับปรุงโดย ขวัญศิริ ศิริมังคลา

25 November 2024

Big Data 101

Pandas vs. PySpark เลือกเครื่องมือที่ใช่ให้เหมาะกับงานข้อมูลของคุณ?

Pandas และ PySpark เป็นเครื่องมือที่ใช้สำหรับการจัดการและวิเคราะห์ข้อมูลใน Python โดย Pandas เป็นไลบรารียอดนิยมที่ใช้สำหรับการทำงานกับชุดข้อมูลขนาดเล็ก ถึงขนาดกลาง ในหน่วยความจำบนเครื่องเดียว (single-node) ซึ่งมีฟังก์ชันหลากหลายสำหรับการจัดการและวิเคราะห์ข้อมูล ในทางตรงกันข้าม PySpark ซึ่งสร้างขึ้นบน Apache Spark ได้รับการออกแบบมาเพื่อการประมวลผลแบบกระจาย (distributed computing) ทำให้สามารถประมวลผลชุดข้อมูลขนาดใหญ่ได้บนหลายเครื่องใน cluster เดียว Pandas คืออะไร Pandas เป็นหนึ่งใน library แบบ open-source ที่ถูกใช้งานมากที่สุดใน Python สำหรับข้อมูลที่มีโครงสร้างแบบตารางเพื่อการวิเคราะห์ข้อมูลได้หลากหลาย เช่น การกรองข้อมูล การรวมข้อมูล การแปลงข้อมูล รวมถึงการทำความสะอาดและเตรียมข้อมูล จนไปถึงการทำ Machine Learning และอื่น ๆ อีกมากมาย โดยสามารถอ่านไฟล์ได้ในหลายรูปแบบ เช่น CSV, JSON, SQL และรูปแบบอื่นๆ จากนั้นจะสร้างข้อมูลในรูปแบบ DataFrame ซึ่งเป็นวัตถุที่มีโครงสร้างประกอบด้วยแถวและคอลัมน์ (คล้ายกับตาราง SQL) ตัวอย่างการใช้งาน Pandas DataFrame เริ่มต้นใช้งาน Pandas library โดยการ import library และสร้าง DataFrame ด้วยฟังก์ชัน pd.DataFrame โดยได้ผลลัพธ์ออกมาเป็นตารางที่มี index เริ่มที่ index 0 ตัวอย่าง Pandas Transformations ฟังก์ชันต่าง ๆ ในกระบวนการแปลงของ Pandas DataFrame ซึ่งรวมถึงฟังก์ชันทางคณิตศาสตร์ หรือฟังก์ชันทางสถิติ ที่สามารถเลือกทำได้ในทั้ง DataFrame หรือเลือกทำในแต่ละ column เป็นตัวช่วยให้จัดการและวิเคราะห์ข้อมูลยืดหยุ่นมากขึ้น ตัวอย่างเช่น PySpark คืออะไร PySpark เป็น API ของ Python สำหรับ Apache Spark ซึ่งเป็นกรอบการประมวลผลแบบกระจาย (distributed computing) ที่ออกแบบมาสำหรับการประมวลผลชุดข้อมูลขนาดใหญ่ใน cluster ของเครื่องคอมพิวเตอร์ โดยที่ PySpark ช่วยให้การประมวลผลและวิเคราะห์ข้อมูลแบบขนานเป็นไปได้โดยการกระจายการคำนวณไปยังหลาย node ใน cluster ซึ่งทำให้มีความสามารถในการขยายขนาด (scalability) และมีประสิทธิภาพสูงสำหรับงานวิเคราะห์ข้อมูลขนาดใหญ่ ซึ่ง PySpark มี API DataFrame ที่มีลักษณะคล้ายกับ Pandas ทำให้ผู้ใช้งานสามารถทำการจัดการข้อมูลได้คล้ายกัน แต่บนชุดข้อมูลที่กระจายกันอยู่ (Distributed Datasets) ตัวอย่างการใช้งาน PySpark DataFrame PySpark DataFrame เป็นวัตถุที่ไม่สามารถเปลี่ยนแปลงค่าได้ (immutable) ซึ่งหมายความว่าไม่สามารถเปลี่ยนแปลงได้เมื่อสร้างขึ้นแล้ว มีความสามารถในการทนต่อข้อผิดพลาด (fault-tolerant) และการทำ Transformations จะเป็น Lazy evaluation ซึ่งหมายความว่าจะไม่ถูกดำเนินการจนกว่าจะมีการเรียกใช้ Actions เช่น count(), collect(), show() เป็นต้น ซึ่ง PySpark DataFrames จะถูกกระจายอยู่ใน cluster (ซึ่งหมายถึงข้อมูลใน PySpark DataFrames จะถูกจัดเก็บในเครื่องคอมพิวเตอร์ต่าง ๆ ใน cluster เดียว) และการดำเนินการใด ๆ ใน PySpark จะถูกดำเนินการแบบขนานบนเครื่องทั้งหมดใน cluster เริ่มต้นโดยการ import และสร้าง SparkSession และสร้าง DataFrame ด้วย spark.createDataFrame โดยได้ผลลัพธ์ออกมาเป็นตารางที่ไม่มี index และเมื่อต้องการแสดงตาราง ให้ใช้ฟังก์ชัน show() และสามารถอ่านไฟล์ได้ เช่น การอ่าน csv file ด้วยฟังก์ชัน spark.read.csv ตัวอย่าง PySpark Transformations การทำ Transformations ใน PySpark มีลักษณะเป็นแบบ Lazy evaluation ซึ่งหมายความว่าจะไม่ถูกดำเนินการจนกว่าจะมีการเรียกใช้ Actions ตัวอย่างการแปลงใน PySpark มีดังนี้ ตัวอย่างการใช้งาน PySpark SQL PySpark รองรับการใช้คำสั่ง SQL เพื่อดำเนินการแปลงข้อมูล (Transformation) ซึ่งที่ต้องทำคือการสร้างตาราง (Table) หรือมุมมอง (View) จาก PySpark DataFrame ตัวอย่าง Note !! วิธีการตัดสินใจเลือกระหว่างใช้ Pandas หรือ PySpark การตัดสินใจเลือกระหว่าง Pandas หรือ PySpark มีหลายองค์ประกอบในการตัดสินใจ ไม่ว่าจะเป็น ขนาดของข้อมูล ทรัพยากรในการประมวลผลที่มีอยู่ และความต้องการเฉพาะของงานวิเคราะห์ข้อมูล References บทความโดย ดร.ภิรมย์มาส เตชิตณัฏฐ์ศรุต ตรวจทานและปรับปรุงโดย ดร.ขวัญศิริ ศิริมังคลา

2 October 2024

Big Data 101

3 วิธีการเปรียบเทียบข้อมูลกับช่วงก่อนหน้าที่ต้องการด้วย Looker Studio

Looker Studio ถือเป็นอีกเครื่องมือหนึ่งที่เป็นที่นิยมในปัจจุบัน สำหรับการสร้างกราฟหลากหลายรูปแบบเพื่อนำไปใช้วิเคราะห์และเจาะลึกข้อมูลตามความต้องการของผู้ใช้ สิ่งหนึ่งที่จำเป็นต่อการวิเคราะห์ข้อมูลคือความสามารถในการเปรียบเทียบข้อมูลกับช่วงเวลาก่อนหน้าที่ต้องการ เช่น การเปรียบเทียบข้อมูลปีนี้ กับปีที่แล้ว หรือช่วงไตรมาสปัจจุบันมีการเปลี่ยนแปลงจากไตรมาสที่แล้วอย่างไร เป็นต้น ซึ่ง Looker Studio เองมีความสามารถที่จะตอบสนองต่อความต้องการดังกล่าวได้ ในบทความนี้จึงจะนำเสนอ 3 วิธีที่จะช่วยให้การเปรียบเทียบข้อมูลในช่วงเวลาต่าง ๆ สามารถทำได้ด้วย Looker Studio วิธีที่ 1 การใช้ Date Range Control ใน Looker Studio จะมีตัวควบคุม (Control) ให้เลือกใช้อยู่หลากหลายแบบ แต่สิ่งที่จะนำมาใช้ในตอนนี้คือตัวควบคุมที่ชื่อว่า Date Range Control Date Range Control หรือการควบคุมช่วงวันที่ เป็นตัวควบคุมในรูปแบบปฏิทินที่สามารถปรับตั้งค่าได้ตามชอบ ซึ่งช่วยให้การปรับช่วงเวลาที่จะใช้แสดงผลทำได้สะดวกโดยไม่จำเป็นต้องแก้ไขข้อมูลหรือการตั้งค่าใด ๆ เมื่อนำตัวควบคุมดังกล่าววางลงในหน้าที่ต้องการใช้งานแล้ว หน้าการแสดงผลจะถูกควบคุมด้วย Date Range Control ตามการตั้งค่า ซึ่งมีอยู่ 2 แบบ เมื่อสร้าง Date Range Control แล้ว จะต้องเปิดใช้งานตัวเลือกการเปรียบเทียบกับช่วงเวลาก่อนหน้า (Comparison Date Range) โดยที่กราฟเกือบทั้งหมดสามารถแสดงการเปรียบเทียบกับช่วงเวลาก่อนหน้าได้ แต่บางกราฟไม่สามารถทำได้ เช่น กราฟวงกลม แผนที่ เป็นต้น ดังนั้นการพิจารณาก่อนใช้งานกราฟประเภทต่าง ๆ เองก็เป็นสิ่งสำคัญเช่นกัน ในการเปิดใช้งานการเปรียบเทียบช่วงเวลา ในการเปรียบเทียบ ไม่ได้มีการเปรียบเทีบกับช่วงก่อนหน้า (Previous period) เพียงอย่างเดียว วิธีที่ 2 การจัดกลุ่ม (Group) จากวิธีที่ 1 จะเห็นได้ว่า Date range control สามารถทำให้ผู้ใช้สามารถเปรียบเทียบข้อมูลกับช่วงที่ต้องการได้ แต่ว่าการตั้งค่าช่วงเวลาก่อนหน้าจะต้องถูกกำหนดตั้งแต่แรกใน Default date range ของกราฟนั้น ๆ ทำให้ผู้ใช้ที่ไม่ได้มีสิทธิ์ในการแก้ไขกราฟ ไม่สามารถปรับเปลี่ยนช่วงที่ต้องการเทียบได้อย่างอิสระ การจัดกลุ่ม (Group) จะสามารถแก้ไขปัญหาได้โดยมีวิธีการดังนี้ เมื่อลองเปลี่ยนช่วงวันที่ของ Date range control แต่ละตัว จะพบว่ากราฟจะมีการปรับเปลี่ยนตัวเลขตาม Date range control ที่ถูกจัดกลุ่มอยู่ด้วยกัน ไม่มีการยุ่งเกี่ยวกัน (Date range control 1 กับ กราฟ 1) ทำให้สามารถดูค่าตัวเลขเปรียบเทียบระหว่างสองช่วงเวลาได้ วิธีที่ 3 การใช้พารามิเตอร์ อีกหนึ่งวิธีในการเปรียบเทียบข้อมูลกับช่วงก่อนหน้าสามารถทำได้ด้วยพารามิเตอร์ (Parameter) หากย้อนกลับไปที่วิธีที่ 2 จะเห็นได้ว่าถึงแม้จะสามารถเปรียบเทียบค่าได้ แต่ตัวเลขจะอยู่คนละกราฟทำให้การพิจารณาตัวเลขทำได้ไม่สะดวกเท่าที่ควร เมื่อมาถึงขั้นตอนนี้เราจะได้ calculated field จำนวน 2 ตัวคือ present และ compare โดย present นั้นจะเป็นการบวกรวมค่าในคอลัมน์ count หากปีของข้อมูลมีค่าเท่ากับพารามิเตอร์ที่ชื่อปี ขณะที่ compare จะเป็นการบวกรวมค่าในคอลัมน์ count หากปีของข้อมูลมีค่าเท่ากับพารามิเตอร์ที่ชื่อปีที่ต้องการเปรียบเทียบ ทำให้ calculated fields ทั้ง 2 ตัวถูกแยกกันด้วยพารามิเตอร์สองตัวอย่างเด็ดขาด และจะเห็นได้ว่าเมื่อสร้างกราฟตารางขึ้นมา เราสามารถนำ calculated field ทั้ง 2 ตัว ไปใส่เอาไว้ในกราฟเดียวกันได้เลย นอกจากนั้นหากต้องการเปรียบเทียบเพิ่มเติมว่าข้อมูล calculated field ทั้ง 2 ตัว มีการเปลี่ยนแปลงเพิ่มขึ้นหรือลดลงย่างไรก็สามารถทำได้เช่นกัน เมื่อทำเสร็จตามขั้นตอน จะเห็นได้ว่าข้อมูล calculated field ทั้งสอง จะมีคอลัมน์ที่ชื่อ different มาแสดงค่าความเปลี่ยนแปลงว่ามีการเพิ่มขึ้นหรือลดลงอย่างไรเป็นที่เรียบร้อย การใช้งานการเปรียบเทียบข้อมูลใน Looker Studio นั้นจะเห็นได้ว่าสามารถทำได้อย่างหลากหลายวิธี และแต่ละวิธีเองก็มีข้อดี และข้อเสียที่แตกต่างกันไป จึงอยู่ที่ผู้ใช้งานที่จะเลือกใช้วิธีการต่าง ๆ ให้เหมาะสมกับข้อมูลและความต้องการของตนเอง บทความโดย ชนิกานต์ วิทยถาวรวงศ์ ตรวจทานและปรับปรุงโดย นววิทย์ พงศ์อนันต์ แหล่งอ้างอิง

17 September 2024

รู้จัก BDI

Organization

Policy and Plan

Personnel

Operations

บทความทั้งหมด

All Big Data 101

สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

Big Data Institute (Public Organization)

234/432 Soi Lat Phrao 12, Chomphon, Chatuchak, Bangkok 10900, Thailand

Contact Us

Quick Link

About Us

© Big Data Institute | Privacy Policy