Kittapat Ratanaphupha

Kittapat Ratanaphupha

Business Analyst at Big Data Institute (Public Organization), BDI

บทความทั้งหมด

All Articles

Author Category Post Filter
ความเคลื่อนไหวระดับประเทศเกี่ยวกับข้อมูลในเศรษฐกิจดิจิทัล กรณีศึกษาสหภาพยุโรป สหราชอาณาจักร และสหรัฐอเมริกา
หากกล่าวถึงสภาพสังคมโลก เทคโนโลยีสื่อสารโทรคมนาคมเป็นส่วนหนึ่งที่ช่วยขับเคลื่อนให้การส่งข้อมูล การจัดการข้อมูล และการใช้ประโยชน์จากข้อมูลเพิ่มขึ้นอย่างมีนัยสำคัญ กล่าวด้วยประจักษ์พยานดังต่อไปนี้ การส่งข้อมูล: เอกสาร Cisco Visual Networking Index ปี 2017-2022 ได้ประมาณการการจราจรทางอินเทอร์เน็ตผ่านเกณฑ์วิธีไอพี (IP Traffic) พบว่าตั้งแต่ พ.ศ. 2560 มีการส่งข้อมูลถึงกันในเครือข่ายอินเทอร์เน็ตอยู่ที่ 1.5 เซตตะไบต์ต่อปี (หรือคิดเป็น 47.5 เทระไบต์ต่อวินาที) ซึ่งประมาณการว่าเพิ่มขึ้นเป็น 3 เท่าใน พ.ศ. 2565[1] นับว่าเป็นการก้าวเข้าสู่ “ยุคเซตตาไบต์”[2] อย่างเป็นทางการ โดยข้อมูลที่ส่งผ่านนั้นมีตั้งแต่ ข้อมูลพฤติกรรมการใช้อินเทอร์เน็ตในอุปกรณ์สื่อสารส่วนบุคคล ข้อมูลส่วนตัว รวมถึงข้อมูลติดต่อสื่อสารระหว่างเครื่องสู่เครื่อง (Machine-to-Machine: M2M)[3] การจัดการข้อมูล: สืบเนื่องจากข้อมูลที่ส่งผ่านระหว่างเครือข่ายคอมพิวเตอร์มีขนาดใหญ่มากตามที่กล่าวไว้ข้างต้น สถาปัตยกรรมที่รองรับข้อมูลขนาดใหญ่จึงมีความจำเป็นอย่างยิ่ง อย่างไรก็ตามโครงสร้างพื้นฐานเหล่านี้ก็เป็นดาบสองคมที่มีการสร้างแบบจำลองธุรกิจใหม่ที่อยู่บนฐานคิดจากข้อมูล และอาจทำให้แบบจำลองธุรกิจแบบเก่าไม่สามารถคงอยู่ได้เพราะความไม่ทันโลก[4] การใช้ประโยชน์ข้อมูล: การใช้ประโยชน์จากเทคโนโลยีข้อมูลขนาดใหญ่สามารถส่งผลกับหลายภาคส่วนซึ่งมีผลต่อเศรษฐกิจโลกอย่างมีนัยสำคัญ[5] และมีผลต่อวิถีชีวิตของมนุษย์เป็นอย่างยิ่ง ทว่าการหาประโยชน์จากการใช้เทคโนโลยีข้อมูลขนาดใหญ่หลายครั้งที่ปรากฏชี้ให้เห็นว่าจำเป็นต้องมีการควบคุมในระดับรัฐและสากล เช่น ความกังวลในการสอดส่องตรวจตราภายใต้อัลกอริทึมที่อาจมีการเลือกปฏิบัติ[6] การใช้ข้อมูลส่วนบุคคลเกินวัตถุประสงค์ซึ่งก่อให้เกิดความเสียหายต่อเจ้าของข้อมูล (เช่น กลุ่มมิจฉาชีพผ่านโทรศัพท์มือถือ[7] หรือ Cambridge Analytica[8]) และการเกิดอิสระแห่งตน (Autonomy) ในปัญญาประดิษฐ์อย่าง Tay[9] หรือ Deepfake[10] สิ่งที่เกิดขึ้นที่ผ่านมาตลอดทศวรรษ 2010 สามารถสรุปได้ว่าการเปิดเสรีด้านข้อมูลสามารถพิสูจน์ให้เห็นถึงศักยภาพทางเศรษฐกิจและคุณภาพชีวิตที่พัฒนาสู่อุดมคติได้ แต่ก็สร้างความเสียหายทั้งในเรื่องดุลยภาพของตลาด ความมั่นคงของชาติ และความปลอดภัยส่วนบุคคลได้เช่นกัน เหตุการณ์ที่เกิดขึ้นที่กล่าวไปแล้วข้างต้นมีลักษณะคล้ายกับยุคอินเทอร์เน็ตเมื่อแรกเริ่ม[11] ในบทความนี้จึงนำเสนอถึงความเคลื่อนไหวของแต่ละประเทศ ซึ่งยกตัวอย่างกรณีศึกษา 3 กลุ่มประเทศ คือ สหภาพยุโรป สหราชอาณาจักร และสหรัฐอเมริกา โดยแรกเริ่มบทความนี้จะกล่าวถึงภาพรวมของการควบคุมเรื่องข้อมูลในเศรษฐกิจดิจิทัลในส่วนที่ 1 จากนั้นจึงเทียบเคียงกระบวนการทางกฎหมายที่เกี่ยวกับข้อมูลในแต่ละประเทศที่สนใจในส่วนที่ 2 ซึ่งกล่าวถึงความเหมือนกันในแต่ละประเทศเกี่ยวกับธรรมนูญข้อมูลส่วนบุคคล ส่วนที่ 3 กล่าวถึงความแตกต่างในแต่ละประเทศเกี่ยวกับแนวคิดในการร่างกฎหมายดิจิทัล และส่วนที่ 4 กล่าวถึงความแตกต่างในแต่ละประเทศเกี่ยวกับลักษณะอำนาจของหน่วยงานรับผิดชอบตามกฎหมาย 1 องค์ประกอบในเศรษฐกิจดิจิทัล จากนิยามของเศรษฐกิจดิจิทัลที่เป็นการผสมแนวคิดระหว่างการประมวลผลดิจิทัลและเศรษฐกิจ[12] ประกอบกับพลวัตของกิจกรรมในเศรษฐศาสตร์ระดับจุลภาคดังที่มีองค์ประกอบสำคัญ คือ ห่วงโซ่อุปทานและผู้บริโภค เรียกโดยรวมว่าระบบนิเวศแพลตฟอร์มดิจิทัล ซึ่งสังเคราะห์ภาพรวมและสรุปจากผู้เขียนอ้างอิงโดยใช้งาน Hein et al. (2019) พบว่าระบบนิเวศแพลตฟอร์มดิจิทัลที่สำคัญประกอบไปด้วยทั้งสิ้น 5 แบบตามภาพที่ 2 ดังนี้ ทั้ง 5 ส่วนดังกล่าวในแต่ละกลุ่มประเทศได้ให้ความสำคัญในการกำกับดูแลไม่เท่ากัน ซึ่งมีผลต่อพลวัตของเศรษฐกิจเมื่อมองในมุมมองของเศรษฐศาสตร์ระดับมหภาค แต่ในเบื้องต้นทั้งสามกลุ่มประเทศได้ให้การรับประกันเกี่ยวกับสิทธิเสรีภาพส่วนบุคคลของประชาชนด้วยกฎหมายระดับกลุ่มประเทศ ซึ่งเห็นเป็นที่ประจักษ์ชัดว่าการใช้ประโยชน์ข้อมูลในแพลตฟอร์มดิจิทัลมากจนเกินควรเป็นการลิดรอนสิทธิเสรีภาพความเป็นส่วนตัวอย่างยิ่ง[14] สรุปสาระสำคัญนโยบายทางข้อมูลของ 3 กลุ่มประเทศ ความเหมือน ความแตกต่าง 2 ธรรมนูญสิทธิเสรีภาพในข้อมูลส่วนบุคคล จุดเริ่มต้นของการคำนึงถึงสิทธิเสรีภาพในความเป็นส่วนตัว (privacy) เกิดขึ้นนับตั้งแต่สมัยหลังสงครามโลกครั้งที่ 2 จากปฏิญญาสากลว่าด้วยสิทธิมนุษยชนในข้อ 12 ซึ่งกล่าวไว้ว่า “ข้อ 12 บุคคลใดจะถูกแทรกแซงตามอำเภอใจในความเป็นส่วนตัว ครอบครัว ที่อยู่อาศัย หรือการสื่อสาร หรือจะถูกลบหลู่เกียรติยศและชื่อเสียงไม่ได้ ทุกคนมีสิทธิที่ได้รับความคุ้มครองตามกฎหมายต่อการแทรกแซงสิทธิหรือการลบหลู่ดังกล่าวนั้น” Universal Declaration of Human Rights[15] ซึ่งเป็นธรรมนูญในการดำเนินนโยบายของรัฐสำคัญหลังสงครามโลกครั้งที่ 2 อันเกี่ยวข้องจากการถูกสอดส่องในกิจการส่วนตัวอันส่งผลต่อเสรีภาพในการตัดสินใจของตนเอง ทั้งในเชิงความสัมพันธ์และเชิงข้อมูล[16] โดยในที่นี้ทั้ง 3 กลุ่มประเทศกฎหมายของทั้งสามกลุ่มประเทศจึงได้ให้ความสำคัญกับสิทธิความเป็นส่วนตัวเป็นอย่างยิ่ง สหภาพยุโรป: ได้จัดทำระเบียบคุ้มครองข้อมูลทั่วไป (General Data Protection Regulation: GDPR[17]) ซึ่งได้ประกาศใช้เมื่อ พ.ศ. 2559 และได้บังคับใช้เมื่อวันที่ 25 พฤษภาคม พ.ศ. 2561 ซึ่งเห็นได้ว่าตลอดเวลาที่บังคับใช้ได้มีการฟ้องร้องเรียกค่าเสียหายอย่างมีนัยสำคัญ เช่น เมื่อ Google Analytics ผิดกฎหมาย GDPR – Big Data Thailand สหราชอาณาจักร: ได้จัดทำพระราชบัญญัติคุ้มครองข้อมูล (The Data Protection Act) ในปี พ.ศ. 2561 เพื่อสอดรับกับ GDPR ของสหภาพยุโรป[18] ประกอบกับการใช้ GDPR ของสหภาพยุโรปร่วมผสมด้วย แต่เมื่อ พ.ศ. 2562 สหราชอาณาจักรได้ออกจากการเป็นสมาชิกสหภาพยุโรป จึงทำให้มีการประยุกต์กฎหมาย GDPR ของสหภาพยุโรปให้เป็นในรูปแบบของสหราชอาณาจักร โดยแก้ในสาระของพระราชบัญญัติคุ้มครองข้อมูลเมื่อ พ.ศ. 2563[19] สหรัฐอเมริกา: รูปแบบลักษณะของการคุ้มครองข้อมูลส่วนบุคคลมีลักษณะเป็นรัฐบัญญัติเช่นเดียวกับสหภาพยุโรปและสหภาพอาณาจักร แต่ความแตกต่างหนึ่งในระดับรัฐบาลกลาง คือ การบังคับใช้กฎหมายเกี่ยวกับข้อมูลส่วนบุคคลเฉพาะเรื่อง ประกอบด้วย ข้อมูลทางการแพทย์ (Health Insurance Portability and Accountability Act: HIPAA) ข้อมูลเด็ก (Children’s Online Privacy Protection Act: COPPA) ข้อมูลการศึกษา (Family Educational Rights and Privacy Act: FERPA) ข้อมูลเครดิตบูโร (Fair Credit Reporting Act: FCRA)[20] และในภาคส่วนอื่น ๆ ทั้งนี้ในช่วงปี ค.ศ. 2023 แต่ละรัฐ เช่น แคลิฟอร์เนีย คอนเนทิคัต ยูทาห์ มีการผลักดันการใช้กฎหมายที่เกี่ยวข้องข้อมูลส่วนบุคคลในลักษณะรูปแบบธรรมนูญข้อมูลส่วนบุคคลอ้างอิงจาก GDPR ของสหภาพยุโรปเป็นสำคัญ[21] จากเอกสารและกฎหมายประกอบอ้างอิง สหรัฐอเมริกามีลักษณะการบังคับใช้กฎหมายที่แตกต่างจากสหภาพยุโรปและสหราชอาณาจักร โดยแม้การยึดอาศัยหลักการจำกัดสิทธิเสรีภาพเท่าที่จำเป็น (Virtue jurisprudence) แต่สหรัฐอเมริกาได้เลือกใช้การจำกัดสิทธิเสรีภาพตามภาคส่วนทางเศรษฐกิจและกำหนดการคุ้มครองข้อมูลส่วนบุคคลเฉพาะภาคส่วนจำเพาะ ซึ่งแตกต่างจากสหภาพยุโรปและสหราชอาณาจักรที่ใช้เป็นธรรมนูญทั่วไป หากพูดถึงกฎหมายในระดับรัฐบาลกลาง อย่างไรก็ตามในระดับรัฐแต่ละรัฐของสหรัฐอเมริกาก็เริ่มมีการใช้การจำกัดสิทธิรายการกระทำอันเกี่ยวข้องกับข้อมูลส่วนบุคคลเป็นกรณีทั่วไปเหมือนกับ GDPR ของสหภาพยุโรปมากยิ่งขึ้น โดยมีปรากฏการณ์ในลักษณะเกิดขึ้นภายใน พ.ศ. 2566 ในจำนวนอย่างน้อย 5 รัฐซึ่งถือว่ามีนัยสำคัญกับการปฏิบัติตามกฎหมายของสหรัฐอเมริกา จากที่กล่าวมาทั้งหมดนี้ การนำกฎหมายข้อมูลส่วนบุคคลมาบังคับใช้ในแต่ละกลุ่มประเทศเป็นตัวอย่างสำคัญไม่กี่สิ่งที่มีลักษณะการบังคับใช้คล้ายคลึงกันทั้งในหลักการและเหตุผล หากพิจารณาส่วนอื่น ๆ ของระบบนิเวศแพลตฟอร์มดิจิทัลตามที่กล่าวไว้ในบทที่ 1 จะพบว่าแต่ละกลุ่มประเทศมีหลักการ เหตุผล และการบังคับใช้ที่แตกต่างกันอย่างสิ้นเชิงดังที่แสดงไว้ในภาพที่ 3 3 แนวคิดในการยกร่างกฎหมาย ทั้งสามกลุ่มประเทศได้กำหนดเป็นแผนยุทธศาสตร์เกี่ยวกับข้อมูลไว้อย่างชัดเจน ซึ่งในสาระสำคัญจะพบว่าแต่ละกลุ่มประเทศมีโจทย์ที่ต้องแก้ไขปัญหาไม่เหมือนกัน โดยในบริบทของสหภาพยุโรปและสหรัฐอเมริกาจะเน้นไปที่การปกป้องสิทธิเสรีภาพของประชาชนจากเทคโนโลยีดิจิทัลเป็นสำคัญ ขณะที่สหราชอาณาจักรจะเน้นไปที่การส่งเสริมและปรับเปลี่ยนโครงสร้างทางเศรษฐกิจให้มีความเป็นดิจิทัลทัดเทียมนานาประเทศ แนวคิดในการขับเคลื่อนด้านข้อมูลของสหภาพยุโรป เมื่อวันที่ 19 กุมภาพันธ์ พ.ศ. 2563 คณะกรรมาธิการยุโรปได้เผยแพร่เอกสารเลขที่ COM (2020) 66 Final ว่าด้วยเรื่องยุทธศาสตร์ยุโรปสำหรับข้อมูล (A European strategy for data) ซึ่งเป็นจุดกำเนิดในการเคลื่อนไหว Digital Decade ของสหภาพยุโรป[22] เนื้อหาสาระของเอกสารดังกล่าวได้กล่าวถึงเป้าหมายของสหภาพยุโรปว่าจะเป็นผู้นำต้นแบบสังคมที่ให้อำนาจกับข้อมูลเพื่อการตัดสินใจเชิงนโยบายทั้งในภาคธุรกิจและภาคสาธารณะได้ดียิ่งขึ้น[23] โดยเรียกแบบจำลองนี้ว่า...
10 January 2024
ความท้าทายในงานจดหมายเหตุเมื่อเข้าสู่ยุค Big Data: ตอนที่ 1 ความหมายของจดหมายเหตุ (Archives)
ความท้าทายงานจดหมายเหตุเมื่อเข้าสู่ยุค Big Dataตอนที่ 1. ความหมายของจดหมายเหตุ (ท่านกำลังอ่านบทความนี้)ตอนที่ 2. การทำให้เป็นดิจิทัลของเอกสารจดหมายเหตุตอนที่ 3. การใช้ประโยชน์ข้อมูลงานจดหมายเหตุ เมื่อพูดถึงการวิเคราะห์หรือบรรยายเหตุการณ์ ตัวตน และสภาพการณ์ของสิ่ง ๆ หนึ่ง สิ่งที่ขาดไม่ได้ คือ ข้อมูลในอดีตหรือข้อมูลทางประวัติศาสตร์ (Historical Data) โดยมีประโยชน์ที่เห็นได้ในเชิงประจักษ์ดังนี้ ทั้งสามตัวอย่างนี้ สิ่งหนึ่งที่เป็นสิ่งสำคัญมาก คือ ข้อมูลเหล่านั้นต้องสะท้อนถึงความเป็นจริง (Integrity) โดยสิ่งนี้ย่อมควรถูกจัดการตั้งแต่กระบวนการที่วางไว้ในการปฏิบัติงานในตอนต้น ซึ่งหนึ่งในโครงสร้างที่สามารถช่วยเรื่องได้ คือ ธรรมาภิบาลข้อมูล (Data Governance) โดยในภาพรวมนั้นเป็นไปตามภาพประกอบนี้ โดยในบทความนี้เราจะกล่าวถึง Archive และ Destroy เป็นหลัก หากต้องการรายละเอียดเต็มที่เกี่ยวข้องกับ Data Governance สามารถรับชมได้ที่นี่ หนึ่งในกระบวนการที่จะขาดไม่ได้ หากต้องการทำให้ธรรมาภิบาลข้อมูลสามารถใช้ได้ครบถ้วนสมบูรณ์ ซึ่งจะเป็นหัวข้อที่จะอภิปรายในบทความนี้ คือ กระบวนการจัดเก็บข้อมูลถาวร และ กระบวนการทำลายข้อมูล บทความนี้จะพาไปศึกษานิยามและลักษณะตัวตนของงานจดหมายเหตุ ก่อนที่จะเริ่มความท้าทายในงานจดหมายเหตุในปัจจุบัน นิยามของงาน “จดหมายเหตุ” (Archives) อ้างอิงจากภาษาอังกฤษ คำว่า “จดหมายเหตุ” จะสามารถเทียบเคียงได้กับคำว่า “Archives” โดยคำว่า Archives สามารถแปลได้ทั้งสิ้น 3 ความหมายดังนี้ หลักเกณฑ์ในการจำแนกเอกสารจดหมายเหตุ ตามนิยามของ “เอกสารจดหมายเหตุ” ของปัจเจกหนึ่ง ๆ เราสามารถพิจารณาได้โดยสององค์ประกอบหลัก คือ ตัวอย่างการระบุว่าใช่หรือไม่ใช่เอกสารจดหมายเหตุเป็นไปตามภาพที่ 5 ประเด็นที่น่าสนใจเกี่ยวกับเอกสารจดหมายเหตุ เมื่อกล่าวถึงปัจจุบันกาลแล้ว เทคโนโลยีในการจัดเก็บข้อมูลหรือรูปแบบข้อมูลที่สามารถจัดเก็บได้มีความหลากหลายยิ่งขึ้นนอกจากข้อมูลในอดีตที่อยู่ในรูปแบบหนังสือลายลักษณ์ (Manuscript) หรือเอกสารภาพ รวมทั้งเทคโนโลยีในการประมวลผลที่มีความสามารถในการวิเคราะห์มากขึ้นอย่างต่อเนื่องจากการพัฒนาเทคโนโลยี Data Analytics ที่เป็นกระแสเรื่อยมาตลอด 10 ปี ทำให้การทำงานจดหมายเหตุให้มีประสิทธิภาพในยุคปัจจุบันจึงมีความท้าทายมากขึ้นอีกด้วย โดยความท้าทายในงานจดหมายเหตุนั้นจะกล่าวถึงต่อไปในตอนที่ 2 เชิงอรรถ เรียบเรียงโดย กฤตพัฒน์ รัตนภูผาตรวจทานและปรับปรุงโดย นววิทย์ พงศ์อนันต์
6 September 2023
ความท้าทายในงานจดหมายเหตุเมื่อเข้าสู่ยุค Big Data: ตอนที่ 2 การทำให้เป็นดิจิทัลของเอกสารจดหมายเหตุ (Digitization)
ความท้าทายงานจดหมายเหตุเมื่อเข้าสู่ยุค Big Dataตอนที่ 1. ความหมายของจดหมายเหตุตอนที่ 2. การทำให้เป็นดิจิทัลของเอกสารจดหมายเหตุ (ท่านกำลังอ่านบทความนี้)ตอนที่ 3. การใช้ประโยชน์ข้อมูลงานจดหมายเหตุ ก่อนหน้านี้ในบทความ งาน “จดหมายเหตุ” ความท้าทายเมื่อเข้าสู่ยุค Big Data เราได้รู้จักคำจำกัดความของงาน “จดหมายเหตุ” และการคัดแยกระหว่างสิ่งที่เป็นเอกสารจดหมายเหตุและสิ่งที่ไม่ใช่เอกสารจดหมายเหตุ ซึ่งจะเห็นได้ว่ารูปแบบของเอกสารจดหมายเหตุเปลี่ยนไปตามกาลเวลาดังภาพที่ 1 การจัดการเอกสารจดหมายเหตุในปัจจุบันสมัยจึงเป็นสิ่งที่ท้าทายมากยิ่งขึ้นทั้งในปัจจัยทางรูปแบบเอกสารและปัจจัยทางการวิเคราะห์ข้อมูล ซึ่งในบทความนี้จะแบ่งความท้าทายในงานจดหมายเหตุออกเป็น 4 ประเด็นดังนี้ โดยบทความนี้จะพูดถึงในสองหัวข้อแรกก่อน ซึ่งเกี่ยวข้องกับส่วนของการแปลงข้อมูลให้อยู่ในรูปแบบดิจิทัล (Digitalization) ข้อมูลที่หลากหลายมากขึ้นในยุค Big Data ด้วยความที่หลักฐานทางประวัติศาสตร์สามารถเป็นเอกสารจดหมายเหตุได้ โดยขึ้นอยู่การจัดการเก็บรวบรวมของเอกสารหรือวัสดุนั้น ๆ หากหลักฐานทางประวัติศาสตร์นั้นได้ถูกจัดเก็บและได้ทำบัญชีแล้ว หลักฐานทางประวัติศาสตร์นั้นจะนับเป็นเอกสารจดหมายเหตุตามนิยามของเอกสารจดหมายเหตุ ฉะนั้นการพิจารณารูปแบบของเอกสารจดหมายเหตุจึงสามารถทำได้เหมือนกับ “หลักฐานทางประวัติศาสตร์” เอกสารจดหมายเหตุสามารถเป็นได้ทั้งในรูปแบบที่เป็นลายลักษณ์อักษรและไม่ใช่ลายลักษณ์อักษร โดยผันแปรไปตามเทคโนโลยี ซึ่งในปัจจุบัน รูปแบบการจัดเก็บของเอกสาร มีความซับซ้อนยิ่งขึ้นตามเทคโนโลยี เอกสารจดหมายเหตุนั้นสามารถอยู่ทั้งในรูปแบบดิจิทัลและรูปแบบไม่เป็นดิจิทัล ซึ่งสามารถแบ่งออกมาได้เป็นดังภาพที่ 2 การคัดแยกเอกสารที่สามารถเป็นจดหมายเหตุได้ว่าเป็น Digital-born จะสามารถคัดแยกได้จากความจำเป็นในการทำ Digitization ต่อเอกสารนั้น ๆ หากต้องการให้คอมพิวเตอร์สามารถอ่านได้ หากเอกสารนั้นไม่มีความจำเป็นในการทำ Digitization จะนับว่าเอกสารที่เป็น Digital-born ว่าด้วยรูปแบบเอกสาร Digital-born และโครงการที่เกี่ยวข้อง เอกสารที่เป็น Digital-born จะกล่าวถึงเอกสารที่สร้างขึ้นจากคอมพิวเตอร์ โดยไม่ได้เกิดจากกระบวนการ Digitization โดยตัวอย่างเอกสาร Digital-born จะเป็นไปดังภาพที่ 3 การแบ่งรูปแบบเอกสาร Digital-born นี้มีความแตกต่างในการจัดเก็บข้อมูล อย่างข้อมูลเว็บไซต์อาจต้องเก็บข้อมูลให้ยังสามารถเข้าถึงผ่านเว็บเบราว์เซอร์ได้ในปัจจุบัน โดยมีเซิร์ฟเวอร์ที่สามารถโฮสต์เว็บนั้นได้อยู่ ข้อมูลที่เกี่ยวข้องกับ e-Service อาจสามารถเก็บอยู่ภายใต้ Relational Database, ข้อมูลสถิติอาจปล่อยเป็นรูปแบบหน้า View ซึ่งให้เข้าถึงผ่าน API ได้ หรือข้อมูลประเภทอื่น ๆ ซึ่งวิธีการเก็บข้อมูลต่าง ๆ จะใช้สถาปัตยกรรมข้อมูลที่แตกต่างกันขึ้นกับข้อมูลนั้น ๆ ความท้าทายแรกที่ว่านี้จึงเป็นส่วนของการวางสถาปัตยกรรมข้อมูลและการวางนโยบายธรรมาภิบาลข้อมูลขององค์กร ซึ่งโครงการธรรมาภิบาลข้อมูลจากแต่ละประเภทข้อมูลที่ได้ยกตัวอย่างมาอาจยกตัวอย่างได้ 2 กรณี คือ แต่ถ้าหากว่าเราสนใจเอกสารที่ไม่เป็น Digital-born ความท้าทายที่เกิดขึ้นจะเป็นอีกรูปแบบหนึ่ง ซึ่งเจาะจงไปที่การทำให้อยู่ในรูปแบบดิจิทัลของเอกสารนั้น ๆ โดยจะกล่าวถึงในหัวข้อถัดไป กระบวนการ Digitization ในเอกสารจดหมายเหตุ การทำ Digitization เบื้องต้นในเอกสารจดหมายเหตุจะสามารถแบ่งขั้นตอนได้ออกมาเป็น 4 ขั้นตอนหลักดังภาพที่ 4 ซึ่งกระบวนการที่มีความแตกต่าง คือ กระบวนการที่ 1 ในการสแกนเอกสารซึ่งใช้อุปกรณ์และเทคนิคที่แตกต่างกันตามชนิดเอกสารนั้น ๆ และกระบวนการที่ 3 ที่จะทำการดึงสารสนเทศของเอกสาร (Information Retrieval) นั้นออกมา เช่น เอกสารลายลักษณ์ สามารถใช้เทคนิค Optical Character Recognition (OCR) ในดึงข้อความจากเอกสาร หรือ เอกสารจำพวกเสียง อาจนำเทคนิคที่เกี่ยวกับ Speech-to-text มาแปลงเป็นรูปคำที่กล่าวออกมาในไฟล์เสียงนั้น ๆ ได้อีกด้วย ทว่าในบางครั้ง ความแม่นยำในการดึงสารสนเทศออกมาจากเอกสารเหล่านั้นอาจมีไม่สูงนัก เนื่องจากข้อจำกัดทางอุปกรณ์และอัลกอริทึมที่ใช้ในการดึงข้อมูล โดยในที่นี้เราจะยกตัวอย่างเป็นเอกสารลายลักษณ์ที่ปรากฏอยู่ในประวัติศาสตร์ไทย Digitization งานเอกสารลายลักษณ์ภาษาไทย ในบริบทของภาษาไทย การปฏิรูปอักขระไทยมีส่วนสำคัญในการประเมินความสะดวกในการทำ digitization โดยการปฏิรูปอักขระไทยเกิดขึ้นในสมัยรัชกาลที่ 3 จากใบประกาศห้ามสูบฝิ่นและเอกสารไวยากรณ์ไทย และมีแบบอักขระในการจัดพิมพ์ที่เหมาะสมกับการพิมพ์เอกสารด้วยแท่นเดิม ซึ่งเรียกว่าตัวพิมพ์ตะกั่ว เหตุการณ์สำคัญดังกล่าวที่ใช้แยกเกณฑ์การทำ Digitization คือ การทำให้ตัวอักขระไทยเป็นอักขระตั้งตรง (Latinization,) โดยความแตกต่างเป็นไปดังภาพที่ 5 นอกจากนี้แล้ว รูปแบบเอกสารอาจไม่ได้มีลักษณะเป็นการเขียนเรียงเป็นบรรทัดอย่างที่เป็นในปัจจุบันดังตัวอย่างในภาพที่ 6 เช่น กลบท หรือ การเขียนรวบรัดอย่างฉบับขอม รวมทั้งในบางครั้งเอกสารนั้นอาจไม่ได้ใช้ตัวอักษรไทย แต่อาจใช้ไวยากรณ์และการสะกดแบบภาษาไทย เช่น ตัวอักษรไทยย่อ ไทยขอม ปัลลวะ ตัวธรรมอีสาน/เมือง หรืออาจเขียนเป็นภาษาอื่น เช่น ภาษาจีน หากว่ากระบวนการ OCR ไม่สามารถนำมาใช้ได้แล้ว โดยปกติ วิธีการทางโบราณคดีในการตีความเอกสารเหล่านี้จะแบ่งออกเป็น 5 ขั้นตอนตามภาพที่ 7 จะเห็นได้ว่าในกระบวนการ Digitization ขั้นตอนที่ 1 และ 3 ในภาพที่ 4 นั้นมีความละเอียดอ่อนและบางครั้งอาจต้องใช้ผู้เชี่ยวชาญจากสาขาที่เกี่ยวข้องกับเอกสารชุดนั้น ๆ มาทำ Digitization อีกด้วย นอกจากนี้แล้ว กระบวนการ Digitization ยังมีความซับซ้อนเพิ่มเติมในส่วนขั้นตอนที่ 2 และขั้นตอนที่ 4 อีกด้วย ซึ่งความซับซ้อนดังกล่าวเกี่ยวข้องกับการจัดการข้อมูลขนาดใหญ่และลักษณะภววิทยาของเอกสารจดหมายเหตุที่แปลงมาอยู่ในรูปแบบดิจิทัลเป็นที่เรียบร้อยแล้วอีกด้วย เมื่อเรากล่าวถึงกระบวนการที่ทำให้เอกสารต่าง ๆ เป็นข้อมูลดิจิทัลซึ่งนำไปใช้ประโยชน์ได้แล้ว ความท้าทายหนึ่งที่สำคัญไม่แพ้กับกระบวนการ Digitization คือ การนำข้อมูลไปใช้ประโยชน์ได้อย่างมีประสิทธิภาพ ซึ่งเราจะกล่าวในตอนถัดไป เชิงอรรถ เรียบเรียงโดย กฤตพัฒน์ รัตนภูผาตรวจทานและปรับปรุงโดย นววิทย์ พงศ์อนันต์
6 September 2023
ความท้าทายในงานจดหมายเหตุเมื่อเข้าสู่ยุค Big Data: ตอนที่ 3 การใช้ประโยชน์ข้อมูลงานจดหมายเหตุ (Data Utilization)
ความท้าทายงานจดหมายเหตุเมื่อเข้าสู่ยุค Big Dataตอนที่ 1. ความหมายของจดหมายเหตุตอนที่ 2. การทำให้เป็นดิจิทัลของเอกสารจดหมายเหตุตอนที่ 3. การใช้ประโยชน์ข้อมูลงานจดหมายเหตุ (ท่านกำลังอ่านบทความนี้) จาก 4 ประเด็นความท้าทายในงานจดหมายเหตุ ในบทความตอนที่ 2 ได้พูดถึงประเด็นความท้าทาย 2 ประเด็นแรกเป็นที่เรียบร้อยแล้ว ซึ่งเกี่ยวข้องกับการทำเอกสารให้อยู่รูปแบบดิจิทัล (Digitization) ซึ่งชี้ให้เห็นว่ากระบวนการทั้งระบบในการเก็บเอกสารให้อยู่ในรูปแบบดิจิทัลจะต้องทำอย่างไรบ้าง บทความนี้จึงต้องการให้เห็นถึงการใช้ประโยชน์ข้อมูลจดหมายเหตุเป็นกรณีศึกษาทั้งในหอจดหมายเหตุและนอกหอจดหมายเหตุ ซึ่งสามารถปรับใช้ทฤษฎีทางจดหมายเหตุและการบริหารจัดการข้อมูลกับองค์กรได้ และความท้าทายอื่น ๆ ที่เกี่ยวข้องกับงานจดหมายเหตุที่ยังไม่ได้กล่าวถึงในบทความตอนที่ 2 การจัดการและหาข้อมูลเชิงลึกในเอกสารจดหมายเหตุในปัจจุบัน เนื่องจากเอกสารจดหมายเหตุในปัจจุบันมีความหลากหลายและมีจำนวนที่มาก การเตรียมการทางสถาปัตยกรรมข้อมูลสำหรับเอกสารเหล่านี้จึงเป็นเรื่องที่สำคัญเป็นอย่างยิ่ง ซึ่งในบริบทของประเทศไทย ทางเราได้มีการจัดทำระเบียบวิธีวิจัยดังภาพที่ 1 ซึ่งสามารถแบ่งออกได้เป็น 2 ส่วนการวิจัย คือ ความท้าทายในการเข้าถึงข้อมูลเพื่องานด้านสังคมศาสตร์และมนุษยศาสตร์ จากการให้ข้อมูลผ่านแบบสอบถามประกอบกับประสบการณ์การเข้าใช้ของผู้เขียน จึงสามารถประกอบออกมาเป็นความท้าทายออกมาได้ดังนี้ นอกจากนี้ยังมีความท้าทายอื่น เช่น ข้อมูลในอินเทอร์เน็ต หรือ ข้อมูลจากฐานข้อมูลขององค์กรซึ่งเป็น Digital-born (ข้อมูลที่เป็นดิจิทัลมาตั้งแต่เริ่มต้น) ไม่ครอบคลุมเมื่อเทียบกับที่มีอยู่ในสถานที่จริง หรือ แม้แต่ความหลากหลายของชนิดเอกสารที่จัดเก็บซึ่งมีความท้าทายในกระบวนการ digitization, การจัดเก็บข้อมูลดิจิทัลเหล่านั้น และการเก็บรักษาเอกสารต้นฉบับให้คงอยู่ได้นานที่สุดอีกด้วย ความท้าทายเชิงเทคนิคเพื่อสัมฤทธิ์ผลความต้องการของผู้ใช้ จากการอนุเคราะห์ข้อมูลและคำสัมภาษณ์ตามส่วนที่ 2 ที่ระบุในระเบียบวิธีวิจัย รวมถึงการศึกษางานวิจัยที่เกี่ยวข้องกับการจัดการข้อมูลจดหมายเหตุ พบว่าความท้าทายในเชิงเทคนิคสามารถแบ่งออกมาได้เป็น 3 รูปแบบ คือ 1. การค้นหาเอกสารด้วยเนื้อหาและความหมายภายในเอกสารนั้น (Semantic Search) นับตั้งแต่ พ.ศ. 2550 (ค.ศ. 2007) เป็นต้นมา แนวคิดวิทยาการเปิดเผย (Open Science) ได้ถูกนำมาพูดถึงและปฏิบัติใช้ในวงการวิจัยและแพร่กระจายไปยังวงการอื่น ๆ รวมถึงการทำข้อมูลเปิดเผยอีกด้วย ซึ่งโครงสร้างและความเชื่อมโยงของแนวคิดวิทยาการเปิดเผยเป็นไปตามภาพที่ 2 โดยแนวคิดแกนหลักของวิทยาการเปิดเผยจะมีวัตถุประสงค์เพื่อเพิ่มความโปร่งใสในกระบวนการวิจัย นับตั้งแต่กระบวนการทำวิจัย การบริหารจัดการงานวิจัย ไปจนถึงการบริหารข้อมูลที่มาจากงานวิจัย ในปัจจุบัน เนื่องจากข้อมูลนั้นเพิ่มขึ้นมาเป็นจำนวนมาก การบริหารจัดการข้อมูลเพื่อทำให้สามารถเพิ่มศักยภาพในการค้นพบความรู้ใหม่และนวัตกรรมเป็นสิ่งที่จำเป็นอย่างยิ่ง จึงทำให้ Wilkinson, et al. (2016) ได้สรุปหลักการพื้นฐานที่ทำให้การบริหารจัดการข้อมูลเป็นไปอย่างมีประสิทธิภาพ คือ Findable-Accessible-Interoperable-Reusable (FAIR Principles) ซึ่งเจาะจงไปที่ตัวข้อมูลและเมตาเดตาให้มีรายละเอียดอธิบายที่มากเพียงพอให้สามารถค้นหาได้ เปิดเผย และเป็นมาตรฐาน Hawkins (2022) ได้ระบุว่าการทำให้ผู้ศึกษาวิจัยสามารถค้นคว้าข้อมูลในเชิงความหมาย (Semantic Search) สามารถยกระดับความเร็วในการค้นพบความรู้สู่การเป็นวิทยาการใหม่หรือแนวทางการศึกษาแบบใหม่ให้กับผู้ศึกษาวิจัยที่เกี่ยวข้องกับสาขาวิชานั้นมากขึ้น โดยพื้นฐานโครงสร้างหลักจะแบ่งออกเป็น 4 องค์ประกอบหลักดังภาพที่ 3 คือ โครงสร้างพื้นฐานทางข้อมูล (Data Infrastructure) ชั้นภววิทยา (Ontological Layer) ชั้นจัดการตรรกะ (Unifying Logic Layer) และชั้นพิสูจน์ข้อเท็จจริง (Proof Layer) โดยชั้นที่มีความท้าทายในการทำงานที่สุด คือ ชั้นจัดการตรรกะและชั้นพิสูจน์ข้อเท็จจริง แต่อย่างไรนั้น การสร้างแพลตฟอร์มที่สามารถค้นหาบริบทอย่างชาญฉลาดดังที่กล่าวไว้ ข้อมูลเป็นสิ่งที่จำเป็น ซึ่งข้อมูลดังกล่าวมีความเป็นไปได้ทั้งเป็น Digital-born และ Non-digital-born Documents โดยจากที่พูดถึงในตอนที่ 2 เรื่อง Digitalization นั้นจะเห็นถึงปัญหาในการแกะตัวอักษรทั้งด้วยเทคโนโลยีและโบราณคดี หากสรุปโดยง่าย เราสามารถทำ Digitization ได้ด้วย OCR อย่างที่ผู้เขียนได้ทำไว้ในภาพที่ 4 ซึ่งหากยังไม่มีข้อมูลที่เพียงพอในการทำการวิเคราะห์ผล การทำให้มีข้อมูลอย่างเช่นการนำเข้าข้อมูลเอกสารจริงเป็นรูปแบบดิจิทัลเป็นปัจจัยที่จำเป็นอย่างยิ่ง 2. การสืบประวัติการแก้ไขของเอกสารทางกฎหมาย นอกจากนี้แล้ว ประเด็นที่น่าสนใจอีกหนึ่งอย่างจากที่ได้ข้อมูลมาจากผู้เชี่ยวชาญ คือ การสืบประวัติการแก้ไขของเอกสารทางกฎหมาย ซึ่งมีลักษณะคล้ายกับ Git Version Control System โดยในเบื้องต้น การทำให้เห็นการชำระและปรับปรุงกฎหมายเป็นสิ่งที่รัฐหลายประเทศทำ เช่น สหราชอาณาจักร หรือ สหรัฐอเมริกาใน District of Columbia ซึ่งทำให้เห็นถึงการเปลี่ยนแปลงและตีความกฎหมายได้อย่างเป็นระบบมากยิ่งขึ้น ประการหนึ่ง คือ การทำให้เห็นเป็นที่ประจักษ์ว่าศัพท์ทางกฎหมายหนึ่ง ๆ มีบริบทความหมายว่าอย่างไร 3. การจัดการเอกสารจดหมายเหตุด้วยกฎเกณฑ์การจำแนกเอกสาร (Document Classification) ในทางงานจัดการบันทึกเอกสารและจัดการจดหมายเหตุ กฎเกณฑ์การจำแนกเอกสารเป็นสิ่งที่จำเป็นอย่างยิ่งเพื่อทำให้ผู้ค้นคว้าสามารถหยิบหาได้ง่ายยิ่งขึ้นและเห็นภาพรวมของการจัดเก็บเอกสารยิ่งขึัน ซึ่งในงานจัดการบันทึกเอกสารและงานทางจดหมายเหตุจะมีหลักการคิดไม่เหมือนกันดังภาพที่ 5 ซึ่งหลักการในการจัดการเอกสารบันทึกนั้นจะเน้นการใช้งานที่ทำให้องค์กร สะดวกในการทำงานตามภารกิจขององค์กรที่สุด โดยจะเริ่มแบ่งขั้นตอนตามหน้าที่ขององค์กร แล้วลงมาที่กิจกรรมซึ่งทำให้วัตถุบรรลุวัตถุจุดประสงค์นั้น โครงการ และชิ้นงานเอกสารตามลำดับ แต่หากพูดถึงมาตรฐาน ISAD(G) ซึ่งเป็นมาตรฐานในการจัดการเอกสารจดหมายเหตุหรือการจัดเก็บข้อมูลถาวร โจทย์ประธานของมาตรฐานนี้จึงเป็นวัตถุประสงค์ในการสืบสาวความเป็นมาและเหตุในการกระทำเชิงประวัติ การจัดมาตรฐานจึงจำเป็นต้องแบ่งตามหัวข้อที่ชี้ให้เห็นถึงเหตุการณ์สำคัญขององค์กร อย่างไรก็ตาม Payne (2018) และนักวิจัยอื่น ๆ ที่เกี่ยวข้อง ได้เล็งเห็นถึงอิทธิพลสำคัญของขนาดของข้อมูลที่เพิ่มขึ้นมาอย่างมีนัยสำคัญ จึงทำให้เกิดวิทยาการใหม่อย่าง “วิทยาการจดหมายเหตุเชิงคำนวณ (Computational Archival Sciences)” ซึ่งเห็นว่าการนำวิทยาการคอมพิวเตอร์มาใช้ในการจัดการเอกสารจดหมายเหตุ ทั้งในมิติของการทำให้เห็นความสัมพันธ์ระหว่างมนุษย์ เทคโนโลยี และสังคม การเก็บรักษาเอกสารระยะยาว และประกอบสร้างซึ่งข้อเท็จจริงให้มีความคงเส้นคงวามากขึ้นผ่านเทคโนโลยี ตัวอย่างหนึ่งที่ทำให้เห็นว่าบทบาทของแบบจำลองการเรียนรู้ของเครื่อง ซึ่ง Franks (2022) ได้ใช้แบบจำลองการเรียนรู้ 3 ประเภท คือ Machine Learning Model กับ TF-IDF ปกติ Neural Networks และ Language Model ในการคัดแยกหมวดหมู่ของเอกสารในองค์กร Australian Human Rights Commission ที่มีจำนวนบทความทั้งสิ้น 6,217 บทความใน 29 กลุ่มชุดของเอกสาร พบว่าความถูกต้องในการจัดหมวดหมู่เอกสารอยู่ที่ประมาณ 67-88% และมีความแม่นยำ 54-81% ซึ่งร้อยละจะแปรผันตามประเภทของแบบจำลองที่ใช้ การ Resampling จากความไม่สมดุลของจำนวนข้อมูลในแต่ละประเภท (Imbalanced Data) และจำนวนของข้อมูลในแต่ละประเภท นอกจากนี้ เมื่อสามารถจัดหมวดหมู่ของเอกสารได้แล้ว แบบจำลองการเรียนรู้ของเครื่องอื่น ๆ ยังสามารถสร้างคำอธิบายให้กับคลังจดหมายเหตุ, การตอบคำถามจากสารานุกรม, และการสรุปสาระสังเขป โดย Generative AI อย่าง ChatGPT สามารถทำงานเหล่านี้ได้ หากมีการปรับปรุงแบบจำลองให้มีความจำเพาะกับบริบทที่สนใจ เช่น WangchanBERTa ซึ่งก็จะย้อนไปตอบคำถามในส่วนแรกที่เกี่ยวข้องกับการค้นหาข้อมูลเชิงความหมาย ทว่าแบบจำลองเหล่านี้ยังคงสร้างข้อมูลที่ไม่มีอยู่จริงและขัดแย้งกับข้อเท็จจริงที่มนุษย์ทราบ (Hallucination) และยังต้องใช้ทรัพยากรการคำนวณที่ค่อนข้างมาก จึงยังคงเป็นความท้าทายอยู่ในปัจจุบันนี้ การตีความผลการวิเคราะห์จากเอกสารจดหมายเหตุ สามารถอ่านได้เพิ่มเติมที่ Critical Questions for Archives as (Big) Data (core.ac.uk) หากเรามองว่าเอกสารจดหมายเหตุเป็นข้อมูลที่ถูกนำมาใช้ในการวิเคราะห์ได้นั้น การทำ data analytics สามารถกระทำได้โดยนักวิทยาศาสตร์ข้อมูลและผู้เชี่ยวชาญทางการคำนวณอื่น ๆ เพื่อแสดงให้เห็นถึงผลสัมฤทธิ์จากโจทย์ปัญหาโดยมีเอกสารจดหมายเหตุเป็นข้อมูลตัวตั้ง ชะรอยผู้เชี่ยวชาญเหล่านี้อาจไม่ได้มีความรู้ที่เกี่ยวข้องกับเอกสารsหรือโจทย์ที่เกี่ยวข้อง ซึ่งเป็นปกติในงานทางวิทยาศาสตร์ข้อมูลที่จะมีผู้เชี่ยวชาญด้านอื่น ๆ มาช่วยพิจารณาความสมเหตุสมผลในการวิเคราะห์ข้อมูลจากนักวิทยาศาสตร์ข้อมูล การวิเคราะห์ข้อมูลตามโจทย์ปัญหาที่ตั้งไว้นับตั้งแต่กระบวนการคิดโจทย์ไปจนถึงกระบวนการตอบคำถามและอภิปรายผล ย่อมมีปรัชญาที่แทรกซึมอยู่ภายในปัญหาเหล่านั้นเสมอ หากได้เป็นตั้งแต่การวิเคราะห์ประวัติศาสตร์ ไปจนถึงการค้นหาความจริงของโลก ซึ่งเป็นสิ่งที่ ณ...
6 September 2023
PDPA Icon

We use cookies to optimize your browsing experience and improve our website’s performance. Learn more at our Privacy Policy and adjust your cookie settings at Settings

Privacy Preferences

You can choose your cookie settings by turning on/off each type of cookie as needed, except for necessary cookies.

Accept all
Manage Consent Preferences
  • Strictly Necessary Cookies
    Always Active

    This type of cookie is essential for providing services on the website of the Personal Data Protection Committee Office, allowing you to access various parts of the site. It also helps remember information you have previously provided through the website. Disabling this type of cookie will result in your inability to use key services of the Personal Data Protection Committee Office that require cookies to function.
    Cookies Details

  • Performance Cookies

    This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

  • Functional Cookies

    This type of cookie enables the Big Data Institute (Public Organization)’s website to remember the choices you have made and deliver enhanced features and content tailored to your usage. For example, it can remember your username or changes you have made to font sizes or other customizable settings on the page. Disabling these cookies may result in the website not functioning properly.

  • Targeting Cookies

    "This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

Save settings
This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.