เปรียบเทียบ Data Fabric, Data Mesh และ Knowledge Graph

เปรียบเทียบ Data Fabric, Data Mesh และ Knowledge Graph

30 July 2022
Big Data และทางเเก้ไข

เป็นเวลาเกือบหนึ่งทศวรรษหรือมากกว่านั้นแล้วที่เวนเดอร์ ผู้ให้คำปรึกษา ตลอดไปจนถึงลูกค้าของพวกเขาได้พูดคุยกันในแง่ของโครงสร้างข้อมูลหรือ Data Fabric ถ้าหาก “Big Data (ข้อมูลขนาดใหญ่)” เป็นปัญหาที่ต้องแก้ไข Data Fabric ก็แนะนำทางแก้ไว้เสร็จสรรพแล้ว John Mashey (จอห์น แมชีย์) หัวหน้านักวิทยาศาสตร์ที่ Silicon Graphics ใช้ศัพท์คำว่า “Big Data” เพื่อบรรยายถึงชุดข้อมูลขนาดใหญ่ที่ไม่มีโครงสร้างและผลกระทบที่ของมันมีต่อโครงสร้างพื้นฐานในสไลด์นำเสนอในปี 1998 อีกทั้ง Apache Hadoop ได้รับความนิยมขึ้นมาหลังจากวิศวกรคนหนึ่งที่ New York Times ได้เขียนบล็อกในปี 2009 เกี่ยวกับการผสมผสาน PDF แบบอัตโนมัติโดยใช้ Hadoop ( Big Data และทางเเก้ไข )

ศัพท์คำว่า “Data Lake” เริ่มมาเป็นที่นิยมในต้นทศวรรษ 2010 เพื่อบรรยายถึงวิธีที่ไม่เป็นทางการในการทำให้ทีมวิเคราะห์สามารถเข้าถึงข้อมูลหลายประเภทได้ Data Lake ช่วงแรก ๆ เกี่ยวข้องกับคลังแบบกระจายตามแนวทางของ Hadoop สำหรับการวิเคราะห์ที่เรียบง่าย (10000 โหนดคลัสเตอร์ของ Yahoo ซึ่งได้แรงบันดาลใจจากการเก็บข้อมูลแบบกระจายภายในช่วงแรก ๆ ของ Google )

แต่เมื่อองค์กรเพิกเฉยต่อ Data Lake ของพวกเขา นักวิจารณ์จึงรีบเรียกมันว่า “Data Swamp” แต่การใช้ Data Lake ยังคงมีต่อไปไม่น้อยลงเลย อาจเพราะว่า Data warehouse ก็มักไม่ได้รับการดูแลอย่างดีเช่นกัน

Data Fabric

ในปี 2014 SAP ใช้ “In-memory Data Fabric” เพื่ออธิบายถึงคลังข้อมูลออนไลน์ ซึ่งเป็นองค์ประกอบหลักของสายผลิตภัณฑ์ “360-degree Customer View ” จาก HANA ทุกวันนี้ Gartner ก็ใช้ศัพท์คำว่า “Data Fabric” เพื่อหมายถึงวิธีครบวงจรของการผสมผสานข้อมูลที่ต่างชนิดกัน  เมื่ออ้างอิงจากโพสต์ในปี 2021 เรื่องสถาปัตยกรรม Data Fabric:

“[Data Fabric] คือแนวความคิดซึ่งทำหน้าที่เป็นข้อมูลหลายระดับชั้น (Fabric) ซึ่งผสมผสานกันและเป็นกระบวนการที่เชื่อมโยงกัน Data Fabric ใช้ประโยชน์จากการวิเคราะห์ Metadata Asset ที่มีอยู่ ค้นพบได้ อนุมานได้ อย่างต่อเนื่อง เพื่อสนับสนุนการออกแบบ การจัดสรร และการใช้ข้อมูลที่ผสมผสานและใช้ซ้ำใหม่ในเงื่อนไขต่าง ๆ ได้ ซึ่งรวมไปถึงแพลตฟอร์มไฮบริดและ Multi-cloud อีกด้วย

“Data Fabric ใช้ประโยชน์จากศักยภาพของทั้งมนุษย์และเครื่องจักรเพื่อเข้าถึงข้อมูลที่มีอยู่ อีกทั้งยังระบุและเชื่อมโยงข้อมูลจากการใช้งานที่แตกต่างกันเพื่อค้นพบความสัมพันธ์เชิงธุรกิจใหม่ ๆ ระหว่าง  Data Point ที่มีอยู่”

Gartner เผยแพร่รายงานเรื่องการบริหารข้อมูลของ “AI-enabled” และทิศทางการเปลี่ยนแปลงของการบริหารข้อมูล “Data Fabric” จึงกลายมาเป็นวิธีลัดสำหรับเทคนิคการบริหารข้อมูลที่สมัยใหม่ที่มีศักยภาพมากกว่า

Data Mesh

Zhamak Dehghani (ซามัค เดคานี) ผู้อำนวยการฝ่ายเทคโนโลยีอุบัติใหม่ที่ Thoughtworks กับทีมงานของเธอ คิดค้นแนวคิดของ “Data Mesh” ขึ้นมาว่าเป็นอีกทางเลือกหนึ่งของคลังข้อมูลและ Data Lake ซึ่งเชื่อมกับโดเมนและเป็นแบบกระจาย ี่ Thoughtworks เปรียบเปรยว่าการใช้งานนั้นเป็นเหมือน Data Plane สองอัน-อันหนึ่งเป็นฝ่ายปฏิบัติการและอีกอันเป็นฝ่ายวิเคราะห์

แนวคิดเรื่อง Data Mesh ของ Thoughtworks มุ่งเน้นที่วิธีที่ใช้โดเมนมากกว่าวิธี Monolithic ของสถาปัตยกรรมเชิงวิเคราะห์ เจ้าของ Domain Data ต้องรับผิดชอบต่อการมอบข้อมูลที่กลายเป็นผลิตภัณฑ์ให้กับผู้ใช้งาน  “ข้อมูลในฐานะผลิตภัณฑ์” หมายความว่าข้อมูลที่ให้นั้นต้องมีคุณภาพ สมบูรณ์ สภาพพร้อมใช้งานและอื่น ๆ ที่จำเป็นสำหรับผู้ใช้ที่จะสามารถพึ่งพามันได้

ตามมุมมองนี้ ผลิตภัณฑ์ข้อมูลคือ “Architectural Quantum หรือควอนตัมคอมพิวเตอร์เชิงสถาปัตยกรรม” ผลิตภัณฑ์นี้เป็นหน่วยสถาปัตยกรรมที่เล็กที่สุดที่สามารถทำงานด้วยกันได้ดีด้วยตัวมันเอง ด้วยเหตุผลนี้แต่ละผลิตภัณฑ์จึงมีรหัส ข้อมูล Metadata และโครงสร้างพื้นฐานรวมอยู่ด้วย

เป้าหมายที่ครอบคลุมของแพลตฟอร์ม Data Mesh ซึ่งประกอบด้วยควอนตัมคอมพิวเตอร์เฉพาะโดเมนเหล่านี้คือการวิเคราะห์ตนเองแบบที่สามารถวัดได้ แต่ละแพลตฟอร์มจะมี 3 เพลน (Plane) ได้แก่ เพลนสำหรับการจัดสรรโครงสร้างพื้นฐาน เพลนสำหรับประสบการณ์ของผู้พัฒนา และเพลนสำหรับการดูแลงาน นอกจากนี้ Thoughtworks ยังมีวิสัยทัศน์ถึงระบบการกำกับดูแลแบบศูนย์รวมที่ซับซ้อนในการบริหารนโยบายต่าง ๆ ตลอดทั่วแพลตฟอร์ม

แนวคิดเรื่อง Data Mesh ยังอยู่ในระยะเริ่มต้น วิสาหกิจผู้ทำความเข้าใจเรื่อง Data Mesh บอกว่า Data Mesh ไม่ใช่จุดหมายปลายทางแต่เป็นการเดินทางมากกว่า ความพยายามในช่วงแรกมักใช้ไปกับการค้นคว้า หาวิธีที่จะนำไปใช้ให้เกิดประโยชน์ที่สุด และจัดสรรทรัพยากรที่ Data Mesh จำเป็นต้องใช้ Tareq Abedrabbo (ทาเรค อะเบดรับโบ) หัวหน้าวิศวกรข้อมูลหลักของผู้ให้บริการแพลตฟอร์มแลกเปลี่ยน CMC Markets อธิบายในการสัมภาษณ์กับ InfoQ ถึงความท้าทายของการค้นหาข้อมูลที่ CMC ต้องเผชิญเมื่อใช้ Data Mesh ตัวอย่างเช่น ตามหลักการแล้วข้อมูลต้องกระจายออกจากศูนย์กลาง แต่วิธีการอย่างเช่น SQL กลับจำเป็นต้องมีการรวมข้อมูลสู่ศูนย์กลาง

Knowledge Graph

ศัพท์คำว่า Knowledge Graph เริ่มได้รับความนิยมตั้งแต่เมื่อ Google บัญญัติขึ้นมาในปี 2012 ตลอดทศวรรษที่ผ่านมา มากกว่า 90 เปอร์เซ็นต์ของบริษัททางเทคโนโลยียักษ์ใหญ่ของโลกได้สร้างและใช้ Knowledge Graph ตั้งแต่ผู้นำในวงการเภสัช รัฐบาล บริการการเงิน การผลิต และร้านค้าออนไลน์ต่างก็ใช้ Knowledge Graph

การใช้ Knowledge Graph ที่พบบ่อยและโดนเด่นที่สุดคือการใช้วิวัฒนาการของเทคโนโลยี Semantic Web Stack (การซ้อนกันของเว็บความหมาย) ซึ่งถูกพัฒนาและปรับปรุงมามากกว่าสองทศวรรษ แรงบันดาลใจดั้งเดิมของ Tim Berners-Lee สำหรับ Semantic Web คือให้เป็น “Web of Data (เครือข่ายข้อมูล)” โดยมีเนื้อหา, การนิยามความหมาย (ontologies) และข้อมูลเชิงสัมพันธ์รวมไว้อยู่ใน Entity เดียวกัน + ความสัมพันธ์หรือลักษณะที่มีภาคประธาน ภาคแสดง ภาคกรรมพ่วงมา 

นอกจากนี้ยังมีการวางกรอบความคิดอื่น ๆ มากมายเกี่ยวกับ Knowledge Graph ซึ่งมากเกินกว่าจะกล่าวถึงทั้งหมดในโพสต์บล็อกสั้น ๆ นี้ ทางเลือกอื่น ๆ หลายอันมีวิสัยทัศน์ถึงการอัตโนมัติเต็มรูปแบบโดยทาง NLP เชิงสถิติแบบสแตนด์อโลนและวิธีการที่เกี่ยวข้องที่ยังไม่ได้มีการพิสูจน์ว่าสามารถทำงานได้ด้วยตัวมันเอง ความแตกต่างหลักระหว่างวิธีการทั้งสามที่อธิบายไว้ด้านล่างขึ้นอยู่กับที่มาและวัตถุประสงค์ของแต่ละวิธี:

วิธีการที่มาและวัตถุประสงค์สถานภาพปัจจุบัน
Data Fabricขยายขนาดและเปลี่ยนคลังข้อมูลให้เป็นระบบคอมพิวเตอร์และการบริหารข้อมูลแบบ RDBMSมีการใช้งานที่เพิ่มขึ้นถึงแม้จะมีข้อจำกัดอยู่หลายอย่างและอยู่ภายในขอบเขตงานของตนเอง
Data Meshแบ่งแยกและควบคุมตามโดเมน; ใช้หลักการออกแบบและบังคับควบคุมในหลาย ๆ ระดับเพื่อให้แน่ใจว่าข้อมูลในฐานะผลิตภัณฑ์นั้นมีคุณภาพบริการตนเองและมีความสามารถในการปรับระดับได้เป็นวิสัยทัศน์ยิ่งใหญ่พร้อมความเข้าใจลึกซึ้งเชิงสถาปัตยกรรมบางอย่างที่เป็นประโยชน์ แต่ดูเหมือนจะก่อปัญหาที่ไม่จำเป็นขึ้นมาเมื่อบางเรื่องได้ถูก้แก้ไขไว้นานแล้ว
ณ ปัจจุบันนี้ส่วนใหญ่เป็นเรื่องความทะเยอทะยานในการทำให้สำเร็จ
Knowledge Graph (W3C)ช่วยให้แน่ใจว่ามีความหมายที่สอดคล้องกันในข้อมูลทั้งหมดและในภววิทยาเฉพาะโดเมนหรือโมเดลข้อมูล

เนื้อหา ความรู้ และแผนกที่บริหารข้อมูลทั้งหมดต่างทำงานร่วมกันโดยใช้วิธีการที่ผสมผสานและการทำงานแบบเดียวกัน
ผู้ที่ใช้วิธีการ W3C แบบคลาสสิคก็พัฒนาขึ้น ถึงแม้ว่าจะวิจารณ์และบ่นแต่ก็พยายามแยกไปตามทางของตน โดยปัจจุบันมีความสำเร็จใหญ่ ๆ ให้เห็นบ้าง

อย่างไรก็ตามกลุ่มที่เชื่อในการนำไปใช้แบบเชิงสัญลักษณ์ (การแทนความรู้/W3C) และเชิงสถิติ (การเรียนรู้เชิงลึก/NLP) ส่งผลให้เกิดการยับยั้งในการยอมรับ

การวิเคราะห์ของ Google Trends เรื่องความนิยมในการค้นหาคำศัพท์สามคำนั้นในปีที่ผ่านมายกให้ Knowledge Graph เป็นอันดับหนึ่ง Data Mesh เป็นอันดับสองและ Data Fabric เป็นอันดับสาม

ไม่มีวิธีไหนในสามวิธีนี้ที่ง่ายและสามารถนำมาใช้งานได้เลย แม้ว่า Data Fabric จะใช้การลงทุนด้านองค์กรน้อยทีสุด แต่ก็ให้ผลลัพธ์ที่คุ้มค่าน้อยที่สุดเช่นกัน ขณะที่ Data Mesh ก็ถูกพูดถึงโดยผู้พัฒนาและหลักการทำงานของมันมากกว่า ส่วน Knowledge Graph มีพื้นฐานมาจากการใช้นำเสนอข้อมูลและ Logic Programming จึงไม่ใช่หัวข้อที่เจ้าหน้าที่ไอทีทั่วไปจะคุ้นเคยนัก

KM Shop ในองค์กรแห่งหนึ่งจะสามารถมีทักษะภายในเทียบเท่าเจ้าหน้าที่วิศวกรไอทีได้ ก็ต่อเมื่อมีพรสวรรค์เท่านั้น กราฟต้องอาศัยความสามารถในการจูงใจมากกว่า และต้องพึ่งความสามารถในการหาผู้ฟังที่เปิดรับ พร้อมกับงบประมาณให้เสี่ยง แต่ประโยชน์จากการนำไปใช้งานได้จริงอาจมีมากกว่าที่คิด และส่วนมากขึ้นอยู่กับเห็นคุณค่าในประโยชน์ที่ตามมาเหล่านี้และทำความเข้าใจให้มากขึ้น

บทความโดย Alan Morrison
เนื้อหาจากบทความของ TechTarget
แปลและเรียบเรียงโดย ไอสวรรค์ ไชยชะนะ
ตรวจทานและปรับปรุงโดย นววิทย์ พงศ์อนันต์

แบ่งปันบทความ

กลุ่มเนื้อหา

แท็กยอดนิยม

แจ้งเรื่องที่อยากอ่าน

คุณสามารถแจ้งเรื่องที่อยากอ่านให้เราทราบได้ !
และเราจะนำไปพัฒนาบทความให้มีเนื้อหาที่น่าสนใจมากขึ้น

PDPA Icon

We use cookies to optimize your browsing experience and improve our website’s performance. Learn more at our Privacy Policy and adjust your cookie settings at Settings

Privacy Preferences

You can choose your cookie settings by turning on/off each type of cookie as needed, except for necessary cookies.

Accept all
Manage Consent Preferences
  • Strictly Necessary Cookies
    Always Active

    This type of cookie is essential for providing services on the website of the Personal Data Protection Committee Office, allowing you to access various parts of the site. It also helps remember information you have previously provided through the website. Disabling this type of cookie will result in your inability to use key services of the Personal Data Protection Committee Office that require cookies to function.
    Cookies Details

  • Performance Cookies

    This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

  • Functional Cookies

    This type of cookie enables the Big Data Institute (Public Organization)’s website to remember the choices you have made and deliver enhanced features and content tailored to your usage. For example, it can remember your username or changes you have made to font sizes or other customizable settings on the page. Disabling these cookies may result in the website not functioning properly.

  • Targeting Cookies

    "This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

Save settings
This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.