การแยกร้ายข้อมูล AI: ทำไม Data DAOs สำคัญตอนนี้

กลางJul 14, 2024
บทความนี้สำรวจข้อ จำกัด ปัจจุบันของแหล่งข้อมูล AI และแนะนำว่า Data DAOs (Decentralized Autonomous Organizations) สามารถให้ชุดข้อมูลคุณภาพสูงใหม่เพื่อสนับสนุนโมเดล AI ได้ โดย Data DAOs สามารถเสริมสร้างการฝึกอบรม AI ด้วยข้อมูลจริงๆ ในชีวิตประจำวัน ข้อมูลสุขภาพส่วนบุคคล และคำติชมจากมนุษย์ แต่พวกเขายังเผชิญกับความท้าทายเช่นการบิดเบือนแรงจูงใจ การตรวจสอบข้อมูล และการประเมินผลประโยชน์
การแยกร้ายข้อมูล AI: ทำไม Data DAOs สำคัญตอนนี้

การดำเนินการให้สิทธิ์ข้อมูลที่สำคัญเร็ว ๆ นี้ เช่น การระหว่าง openai และ news corp และ reddit ได้เน้นถึงความจำเป็นของข้อมูลคุณภาพสูงใน AI โมเดล AI ชั้นนำได้รับการฝึกอบรมบนส่วนสำคัญของอินเทอร์เน็ตอยู่แล้ว ตัวอย่างเช่น common crawl ดัชนีได้ประมาณ 10% ของหน้าเว็บสำหรับการฝึกโมเดลภาษาขนาดใหญ่ ซึ่งรวมถึงมากกว่า 100 ล้านล้านโทเคน

เพื่อปรับปรุงโมเดล AI อีกเพิ่มขึ้น จำเป็นต้องขยายและเพิ่มประสิทธิภาพข้อมูลที่ใช้ในการฝึกอบรม พวกเรากำลังพูดถึงวิธีการรวบรวมข้อมูลโดยเฉพาะอย่างยิ่งผ่านวิธีการที่กระจายอยู่ พวกเราสนใจอย่างยิ่งในวิธีการกระจายที่ช่วยสร้างชุดข้อมูลใหม่และให้สิ่งส่งเสริมทางเศรษฐกิจให้กับผู้มีส่วนร่วมและผู้สร้าง

ในปีหลังสุด ๆ หนึ่งในหัวข้อที่มีความฮอทในโลกคริปโตคือแนวคิดของ DAO ข้อมูล ซึ่งเป็นกลุ่มของคนที่สร้าง จัดองค์ และจัดการข้อมูล ในขณะที่หัวข้อนี้ได้รับการพูดคุยโดย Multicoin และผู้อื่น ๆ การก้าวหน้าอย่างรวดเร็วของ AI ยืนยันคำถามใหม่ว่า “ทำไมตอนนี้ถึงเป็นเวลาที่เหมาะสมสำหรับ DAO ข้อมูล?”

ในบทความนี้ เราจะแบ่งปันความคิดเห็นของเราเกี่ยวกับ Data DAOs เพื่อตอบคำถาม: วิธีใดที่ Data DAOs สามารถส่งเสริมการพัฒนา AI ได้เร็วขึ้น?

1. สถานะปัจจุบันของข้อมูลใน AI

วันนี้โมเดล AI ถูกฝึกฝนโดยส่วนใหญ่บนข้อมูลสาธารณะ ไม่ว่าจะเป็นผ่านความร่วมมือกับบริษัท เช่น news corp และ reddit หรือโดยการขูดข้อมูลจากอินเทอร์เน็ตเปิดเผย ตัวอย่างเช่น llama 3 ของ meta ถูกฝึกฝนโดยใช้ 15 ล้านล้านโทเคนจากแหล่งข้อมูลสาธารณะ ในขณะที่วิธีเหล่านี้มีประสิทธิภาพในการรวบรวมข้อมูลจำนวนมากอย่างรวดเร็ว แต่ก็มีข้อจำกัดเกี่ยวกับประเภทของข้อมูลที่ถูกรวบรวมและวิธีที่ข้อมูลเหล่านี้ถูกได้มา

ประการแรกเกี่ยวกับข้อมูลที่ควรรวบรวม: การพัฒนา AI ถูกขัดขวางโดยคอขวดในด้านคุณภาพและปริมาณข้อมูล Leopold Aschenbrenner กล่าวถึง "กําแพงข้อมูล" ที่ จํากัด การปรับปรุงอัลกอริทึมเพิ่มเติม: "ในไม่ช้าวิธีการง่ายๆของการฝึกอบรมโมเดลภาษาขนาดใหญ่ล่วงหน้าเกี่ยวกับข้อมูลที่คัดลอกมามากขึ้นอาจเผชิญกับปัญหาคอขวดที่สําคัญ"

วิธีหนึ่งในการเอาชนะกำแพงข้อมูลคือการทำให้ชุดข้อมูลใหม่สามารถใช้ได้ เช่น บริษัทแบบจำลองไม่สามารถดึงข้อมูลที่ป้องกันด้วยการเข้าสู่ระบบได้โดยละเมิดข้อกำหนดในการให้บริการของเว็บไซต์ส่วนใหญ่ และพวกเขาไม่สามารถเข้าถึงข้อมูลที่ยังไม่ได้รวบรวมได้ ณ ปัจจุบันมีข้อมูลส่วนตัวจำนวนมากที่การฝึกอาชีพด้าน AI ไม่สามารถเข้าถึงได้ เช่น ข้อมูลจาก Google Drive, Slack, บันทึกข้อมูลสุขภาพส่วนบุคคล และข้อมูลส่วนตัวอื่น ๆ

ประการที่สองเกี่ยวกับวิธีการรวบรวมข้อมูล: ในรูปแบบปัจจุบัน บริษัท รวบรวมข้อมูลจะจับมูลค่าส่วนใหญ่ การยื่น S-1 ของ Reddit เน้นย้ําถึงการออกใบอนุญาตข้อมูลในฐานะแหล่งรายได้หลักที่คาดการณ์ไว้: "เราคาดหวังว่าข้อได้เปรียบด้านข้อมูลที่เพิ่มขึ้นและทรัพย์สินทางปัญญาของเราจะยังคงเป็นองค์ประกอบสําคัญในการฝึกอบรม LLM ในอนาคต" อย่างไรก็ตามผู้ใช้ปลายทางที่สร้างเนื้อหาจริงจะไม่ได้รับผลประโยชน์ทางเศรษฐกิจใด ๆ จากข้อตกลงใบอนุญาตเหล่านี้หรือโมเดล AI เอง ความคลาดเคลื่อนนี้อาจกีดกันการมีส่วนร่วม—มีการเคลื่อนไหวเพื่อฟ้องร้องบริษัท AI เชิงกําเนิดหรือเลือกไม่เข้าร่วมชุดข้อมูลการฝึกอบรมอยู่แล้ว นอกจากนี้การมุ่งเน้นรายได้ในมือของ บริษัท ต้นแบบหรือแพลตฟอร์มโดยไม่แบ่งปันกับผู้ใช้ปลายทางมีผลกระทบทางเศรษฐกิจและสังคมอย่างมีนัยสําคัญ

2. ผลกระทบของดาวด้าข้อมูล

ปัญหาข้อมูลที่กล่าวมาข้างต้นมีจุดร่วมกันคือการได้รับส่วนร่วมของผู้ใช้ที่หลากหลายและแทนที่ ขณะที่ข้อมูลแต่ละจุดอาจมีผลกระทบน้อยต่อประสิทธิภาพของโมเดล โดยรวมแล้ว กลุ่มผู้ใช้ที่มีจำนวนมากสามารถสร้างชุดข้อมูลใหม่ที่มีคุณค่าสูงสำหรับการฝึกอบรม AI ได้ นี่คือจุดที่ Data DAOs (Decentralized Autonomous Organizations) เข้ามาเล่นหน้าที่ ด้วย Data DAOs ผู้มีส่วนร่วมในการให้ข้อมูลสามารถได้รับรางวัลเศษเหรียญเงินตราและควบคุมว่าข้อมูลของพวกเขาจะถูกใช้อย่างไรและมีการหารือได้

ในพื้นที่ใดบ้างที่ Data DAOs สามารถมีผลกระทบอย่างมีนัยสำหรับภูมิทัศน์ข้อมูลปัจจุบันได้บ้าง? นี่คือเพียงไม่กี่ความคิด - นี่ไม่ใช่รายการที่ครบถ้วนและ Data DAOs แน่นอนมีโอกาสอื่นๆอีกมาก

(1) ข้อมูลในโลกจริง
ในเขตข้อมูลพื้นฐานที่ไม่มีการกำหนด (depin) เครือข่ายเช่น hivemapper เป้าหมายที่จะรวบรวมข้อมูลแผนที่โลกล่าสุดโดยกำลังใจเจ้าของ dashcam ให้แบ่งปันข้อมูลของพวกเขาและกระตุ้นผู้ใช้ให้ให้ข้อมูลผ่านแอปพลิเคชันของพวกเขา (เช่น ข้อมูลเกี่ยวกับการปิดทางหรือการซ่อมแซม) depin สามารถมองเห็นได้เป็น dao ข้อมูลในโลกแห่งจริยธรรมที่ข้อมูลเชิงตรงจากอุปกรณ์ฮาร์ดแวร์และ/หรือเครือข่ายผู้ใช้ ข้อมูลนี้มีค่าทางการค้าสำหรับ บริษัท มากมาย และผู้มีส่วนร่วมได้รับการตอบแทนด้วยโทเคน

(2) ข้อมูลสุขภาพส่วนบุคคล
ไบโอแฮกกิ้งเป็นการเคลื่อนไหวสังคมที่บุคคลและชุมชนนำเข้าแนวทางด้วยตัวเองเพื่อศึกษาชีววิทยา โดยมักจะทดลองด้วยตนเอง เช่น บางคนอาจใช้ยาโนโทรปิกเพื่อเพิ่มประสิทธิภาพของสมอง ลองใช้วิธีการรักษาหรือการเปลี่ยนแปลงสภาพแวดล้อมต่าง ๆ เพื่อปรับปรุงการนอนหลับ หรือแม้แต่ฉีดสารทดลองเข้าไปในร่างกายของตนเอง

DAO ข้อมูลสามารถสนับสนุนการพยากรณ์ชีวภาพเหล่านี้โดยการจัดองค์กรผู้เข้าร่วมร่วมกันในการทดลองที่แบ่งปันและรวบรวมผลลัพธ์อย่างเป็นระบบ รายได้ที่สร้างขึ้นโดย DAO สุขภาพส่วนบุคคลเช่นจากห้องปฏิบัติการวิจัยหรือโรงงานเภสัชกรรมสามารถส่งกลับไปยังผู้เข้าร่วมที่มีส่วนร่วมในการส่งข้อมูลสุขภาพส่วนบุคคลของตน

(3) การเรียนรู้ด้วยการเสริมรักษาด้วยคำแนะนำจากมนุษย์
การเรียนรู้แบบเสริมแรงด้วย Human Feedback (RLhF) เกี่ยวข้องกับการใช้ข้อมูลของมนุษย์เพื่อปรับแต่งโมเดล AI และปรับปรุงประสิทธิภาพ โดยทั่วไปข้อเสนอแนะมาจากผู้เชี่ยวชาญในสาขาเฉพาะที่สามารถประเมินผลลัพธ์ของแบบจําลองได้อย่างมีประสิทธิภาพ ตัวอย่างเช่นห้องปฏิบัติการวิจัยอาจขอความช่วยเหลือจากปริญญาเอกคณิตศาสตร์เพื่อเพิ่มความสามารถทางคณิตศาสตร์ของ AI รางวัลโทเค็นสามารถดึงดูดและจูงใจให้ผู้เชี่ยวชาญเข้าร่วมโดยเสนอมูลค่าการเก็งกําไรและการเข้าถึงทั่วโลกผ่านระบบการชําระเงิน crypto บริษัท ต่างๆเช่น Sapien, Fraction และ Sahara กําลังทํางานอย่างแข็งขันในพื้นที่นี้

(4) ข้อมูลส่วนตัว
เนื่องจากข้อมูลสาธารณะที่มีให้สําหรับการฝึกอบรม AI เริ่มขาดแคลนการมุ่งเน้นอาจเปลี่ยนไปใช้ชุดข้อมูลที่เป็นกรรมสิทธิ์รวมถึงข้อมูลผู้ใช้ส่วนตัว เบื้องหลังกําแพงเข้าสู่ระบบมีข้อมูลคุณภาพสูงมากมายที่ยังคงไม่สามารถเข้าถึงได้ เช่น ข้อความส่วนตัวและเอกสาร ข้อมูลนี้มีประสิทธิภาพสูงสําหรับการฝึกอบรม AI ส่วนบุคคลและมีข้อมูลที่มีค่าที่ไม่พบบนอินเทอร์เน็ตสาธารณะ

การเข้าถึงและใช้ข้อมูลนี้ถือเป็นความท้าทายทางกฎหมายและจริยธรรมที่สําคัญ Data DAOS สามารถนําเสนอโซลูชันโดยอนุญาตให้ผู้เข้าร่วมที่เต็มใจอัปโหลดและสร้างรายได้จากข้อมูลของตนในขณะที่จัดการการใช้งาน ตัวอย่างเช่นข้อมูล Reddit DAO สามารถช่วยให้ผู้ใช้สามารถอัปโหลดข้อมูล Reddit ที่ส่งออกรวมถึงความคิดเห็นโพสต์และประวัติการลงคะแนนซึ่งสามารถขายหรือเช่าให้กับ บริษัท AI ในลักษณะที่ปกป้องความเป็นส่วนตัว สิ่งจูงใจโทเค็นช่วยให้ผู้ใช้ได้รับไม่เพียง แต่จากการทําธุรกรรมครั้งเดียว แต่ยังมาจากมูลค่าต่อเนื่องที่สร้างขึ้นโดยโมเดล AI ที่ได้รับการฝึกฝนด้วยข้อมูลของพวกเขา

3. ปัญหาและความท้าทายที่เปิด

ในขณะที่ข้อมูลดาโอสมีโอกาสที่สำคัญมาก แต่ก็มีปัญหาสำคัญและความท้าทายหลายประการที่ต้องจัดการ

(1) การเบนทึกแรงจูงใจ
บทเรียนสำคัญจากประวัติศาสตร์การใช้แรงจูงใจโทเค็นในคริปโตคือสิ่งที่รางวัลจากภายนอกสามารถเปลี่ยนแปลงพฤติกรรมของผู้ใช้ได้ นี้มีผลโดยตรงต่อการใช้แรงจูงใจโทเค็นในการรวบรวมข้อมูล: แรงจูงใจอาจทำให้ผู้เข้าร่วมกลุ่มผู้ร่วมและประเภทของข้อมูลที่พวกเขามีส่งผลกระทบ

การนำเสนอสิทธิผลตอบแทนโทเค็นยังเปิดโอกาสให้ผู้เข้าร่วมใช้เครื่องมือเพื่อประโยชน์ส่วนตัว โดยการส่งข้อมูลคุณภาพต่ำหรือปลอมแปลงเพื่อเพิ่มรายได้ของพวกเขา สิ่งนี้มีความสำคัญเพราะความสำเร็จของ Data DAOs ขึ้นอยู่กับคุณภาพของข้อมูล หากการสนับสนุนเลี้ยงเลี้ยงออกจากเป้าหมายที่ต้องการ มูลค่าของชุดข้อมูลอาจถูกเสียหาย

(2) การวัดและรางวัลข้อมูล

แนวคิดหลักของ Data Daos คือการให้รางวัลแก่ผู้มีส่วนร่วมสําหรับการส่งข้อมูลด้วยโทเค็น ซึ่งจะสร้างรายได้ให้กับ DAO ในระยะยาว อย่างไรก็ตามเนื่องจากลักษณะอัตนัยของค่าข้อมูลการกําหนดรางวัลที่เหมาะสมสําหรับการมีส่วนร่วมของข้อมูลที่แตกต่างกันจึงเป็นเรื่องที่ท้าทายอย่างมาก ตัวอย่างเช่นในสถานการณ์ biohacking: ข้อมูลของผู้ใช้บางคนมีค่ามากกว่าคนอื่น ๆ หรือไม่? ถ้าเป็นเช่นนั้นปัจจัยอะไรเป็นตัวกําหนดสิ่งนี้? สําหรับข้อมูลแผนที่: ข้อมูลจากบางพื้นที่มีค่ามากกว่าข้อมูลจากพื้นที่อื่นหรือไม่ ความแตกต่างเหล่านี้ควรวัดปริมาณอย่างไร? (การวิจัยเกี่ยวกับการวัดค่าข้อมูลใน AI โดยการประเมินการมีส่วนร่วมที่เพิ่มขึ้นของข้อมูลต่อประสิทธิภาพของแบบจําลองกําลังดําเนินอยู่ แต่สามารถคํานวณได้อย่างเข้มข้น)

นอกจากนี้เป็นสิ่งสำคัญที่จะสร้างกลไกที่มั่นคงเพื่อการยืนยันความถูกต้องและความแม่นยำของข้อมูล โดยไม่มีมาตรการเหล่านี้ ระบบอาจเป็นอยู่ในภาวะที่เจาะจงต่อการส่งข้อมูลที่ไม่ซื่อสัตย์ (เช่น การสร้างบัญชีปลอม) หรือการโจมตีซับิล โดยที่ depin networks จัดการกับปัญหานี้โดยการรวมการยืนยันที่ระดับอุปกรณ์ฮาร์ดแวร์ แต่แบบอื่น ๆ ของ data daos ที่พึ่งพาบนการมีส่วนร่วมของผู้ใช้อาจสามารถโดนการจัดการได้มากกว่า

(3) มูลค่าเพิ่มของข้อมูลใหม่
เครือข่ายแบบเปิดส่วนใหญ่ได้รับการยกระดับเพื่อวัตถุประสงค์ในการฝึกอบรมแล้วดังนั้นผู้ให้บริการ Data DAO จึงต้องพิจารณาว่าชุดข้อมูลที่รวบรวมในลักษณะกระจายอํานาจจะเพิ่มมูลค่าที่เพิ่มขึ้นให้กับข้อมูลที่มีอยู่บนเครือข่ายแบบเปิดอย่างแท้จริงหรือไม่และนักวิจัยสามารถเข้าถึงข้อมูลนี้จากแพลตฟอร์มหรือผ่านวิธีการอื่นได้หรือไม่ แนวคิดนี้เน้นย้ําถึงความสําคัญของการรวบรวมข้อมูลใหม่ทั้งหมดที่เหนือกว่าที่มีอยู่ในปัจจุบันซึ่งนําไปสู่การพิจารณาครั้งต่อไป: ขนาดของผลกระทบและโอกาสในการสร้างรายได้

(4) การประเมินโอกาสทางรายได้
โดยพื้นฐานแล้ว Data DAOs กำลังสร้างตลาดสองด้านที่เชื่อมโยงผู้ซื้อข้อมูลกับผู้สนับสนุนข้อมูล ดังนั้นความสำเร็จของ Data DAO ขึ้นอยู่กับความสามารถในการดึงดูดลูกค้าที่มีความหลากหลายและมั่นคงที่ต้องการจะซื้อข้อมูล

ข้อมูล DAOs จําเป็นต้องระบุและยืนยันความต้องการข้อมูลของพวกเขาและตรวจสอบให้แน่ใจว่าโอกาสในการสร้างรายได้มีความสําคัญเพียงพอ (ไม่ว่าจะทั้งหมดหรือต่อผู้มีส่วนร่วม) เพื่อกระตุ้นปริมาณและคุณภาพของข้อมูลที่จําเป็น ตัวอย่างเช่นแนวคิดในการสร้างข้อมูลผู้ใช้ DAO เพื่อรวบรวมความชอบส่วนบุคคลและข้อมูลการท่องเว็บเพื่อวัตถุประสงค์ในการโฆษณาได้รับการกล่าวถึงมานานหลายปี แต่ผลตอบแทนที่อาจเกิดขึ้นสําหรับผู้ใช้อาจน้อยที่สุด (สําหรับบริบท ARPU ทั่วโลกของ Meta อยู่ที่ 13.12 ดอลลาร์ ณ สิ้นปี 2023) ด้วย บริษัท AI ที่วางแผนจะลงทุนหลายล้านล้านดอลลาร์ในการฝึกอบรมรายได้ที่อาจเกิดขึ้นจากข้อมูลอาจเพียงพอที่จะจูงใจให้มีส่วนร่วมขนาดใหญ่ทําให้เกิดคําถามที่น่าสนใจสําหรับ Data Daos: "ทําไมตอนนี้"

4. การฟังความคิดเพื่อเจาะกำแพงข้อมูล

เดต้าดาออสเสนอ sol ฟิลส์ที่มีความสมัครใจสำหรับการสร้างชุดข้อมูลที่มีคุณภาพสูงและพัฒนาผ่านกำแพงข้อมูลที่ท้าทายปัญญาประดิษฐ์ ในขณะที่วิธีที่แน่ชัดในการบรรลุเป้าหมายนี้ยังคงต้องได้รับการกำหนดใหม่ เราตื่นเต้นที่จะเห็นว่าสาขานี้จะเติบโตอย่างไร

ข้อปฏิเสธ:

  1. บทความนี้ถูกเผยแพร่ใหม่จาก [Jinse finance], และลิขสิทธิ์เป็นของผู้เขียนต้นฉบับ [li jin] หากคุณมีคำปฏิเสธใด ๆ เกี่ยวกับการนำเสนอนี้ กรุณาติดต่อทีม Gate Learn ที่gatelearn@Gate.ioทีมจะรีบแก้ไขปัญหาทุกข์ตามขั้นตอนที่เกี่ยวข้อง
  2. คำประกาศ: มุมมองและความคิดเห็นที่แสดงในบทความนี้เป็นเพียงของผู้เขียนเท่านั้นและไม่เกิดเป็นคำแนะนำในการลงทุนใด ๆ
  3. เวอร์ชันภาษาอื่น ๆ ของบทความนี้ได้รับการแปลโดยทีม Gate Learn โดยไม่ต้องพูดถึงGate.io บทความที่ถูกแปลอาจไม่สามารถคัดลอก กระจายหรือก๊อปปี้ได้

การแยกร้ายข้อมูล AI: ทำไม Data DAOs สำคัญตอนนี้

กลางJul 14, 2024
บทความนี้สำรวจข้อ จำกัด ปัจจุบันของแหล่งข้อมูล AI และแนะนำว่า Data DAOs (Decentralized Autonomous Organizations) สามารถให้ชุดข้อมูลคุณภาพสูงใหม่เพื่อสนับสนุนโมเดล AI ได้ โดย Data DAOs สามารถเสริมสร้างการฝึกอบรม AI ด้วยข้อมูลจริงๆ ในชีวิตประจำวัน ข้อมูลสุขภาพส่วนบุคคล และคำติชมจากมนุษย์ แต่พวกเขายังเผชิญกับความท้าทายเช่นการบิดเบือนแรงจูงใจ การตรวจสอบข้อมูล และการประเมินผลประโยชน์
การแยกร้ายข้อมูล AI: ทำไม Data DAOs สำคัญตอนนี้

การดำเนินการให้สิทธิ์ข้อมูลที่สำคัญเร็ว ๆ นี้ เช่น การระหว่าง openai และ news corp และ reddit ได้เน้นถึงความจำเป็นของข้อมูลคุณภาพสูงใน AI โมเดล AI ชั้นนำได้รับการฝึกอบรมบนส่วนสำคัญของอินเทอร์เน็ตอยู่แล้ว ตัวอย่างเช่น common crawl ดัชนีได้ประมาณ 10% ของหน้าเว็บสำหรับการฝึกโมเดลภาษาขนาดใหญ่ ซึ่งรวมถึงมากกว่า 100 ล้านล้านโทเคน

เพื่อปรับปรุงโมเดล AI อีกเพิ่มขึ้น จำเป็นต้องขยายและเพิ่มประสิทธิภาพข้อมูลที่ใช้ในการฝึกอบรม พวกเรากำลังพูดถึงวิธีการรวบรวมข้อมูลโดยเฉพาะอย่างยิ่งผ่านวิธีการที่กระจายอยู่ พวกเราสนใจอย่างยิ่งในวิธีการกระจายที่ช่วยสร้างชุดข้อมูลใหม่และให้สิ่งส่งเสริมทางเศรษฐกิจให้กับผู้มีส่วนร่วมและผู้สร้าง

ในปีหลังสุด ๆ หนึ่งในหัวข้อที่มีความฮอทในโลกคริปโตคือแนวคิดของ DAO ข้อมูล ซึ่งเป็นกลุ่มของคนที่สร้าง จัดองค์ และจัดการข้อมูล ในขณะที่หัวข้อนี้ได้รับการพูดคุยโดย Multicoin และผู้อื่น ๆ การก้าวหน้าอย่างรวดเร็วของ AI ยืนยันคำถามใหม่ว่า “ทำไมตอนนี้ถึงเป็นเวลาที่เหมาะสมสำหรับ DAO ข้อมูล?”

ในบทความนี้ เราจะแบ่งปันความคิดเห็นของเราเกี่ยวกับ Data DAOs เพื่อตอบคำถาม: วิธีใดที่ Data DAOs สามารถส่งเสริมการพัฒนา AI ได้เร็วขึ้น?

1. สถานะปัจจุบันของข้อมูลใน AI

วันนี้โมเดล AI ถูกฝึกฝนโดยส่วนใหญ่บนข้อมูลสาธารณะ ไม่ว่าจะเป็นผ่านความร่วมมือกับบริษัท เช่น news corp และ reddit หรือโดยการขูดข้อมูลจากอินเทอร์เน็ตเปิดเผย ตัวอย่างเช่น llama 3 ของ meta ถูกฝึกฝนโดยใช้ 15 ล้านล้านโทเคนจากแหล่งข้อมูลสาธารณะ ในขณะที่วิธีเหล่านี้มีประสิทธิภาพในการรวบรวมข้อมูลจำนวนมากอย่างรวดเร็ว แต่ก็มีข้อจำกัดเกี่ยวกับประเภทของข้อมูลที่ถูกรวบรวมและวิธีที่ข้อมูลเหล่านี้ถูกได้มา

ประการแรกเกี่ยวกับข้อมูลที่ควรรวบรวม: การพัฒนา AI ถูกขัดขวางโดยคอขวดในด้านคุณภาพและปริมาณข้อมูล Leopold Aschenbrenner กล่าวถึง "กําแพงข้อมูล" ที่ จํากัด การปรับปรุงอัลกอริทึมเพิ่มเติม: "ในไม่ช้าวิธีการง่ายๆของการฝึกอบรมโมเดลภาษาขนาดใหญ่ล่วงหน้าเกี่ยวกับข้อมูลที่คัดลอกมามากขึ้นอาจเผชิญกับปัญหาคอขวดที่สําคัญ"

วิธีหนึ่งในการเอาชนะกำแพงข้อมูลคือการทำให้ชุดข้อมูลใหม่สามารถใช้ได้ เช่น บริษัทแบบจำลองไม่สามารถดึงข้อมูลที่ป้องกันด้วยการเข้าสู่ระบบได้โดยละเมิดข้อกำหนดในการให้บริการของเว็บไซต์ส่วนใหญ่ และพวกเขาไม่สามารถเข้าถึงข้อมูลที่ยังไม่ได้รวบรวมได้ ณ ปัจจุบันมีข้อมูลส่วนตัวจำนวนมากที่การฝึกอาชีพด้าน AI ไม่สามารถเข้าถึงได้ เช่น ข้อมูลจาก Google Drive, Slack, บันทึกข้อมูลสุขภาพส่วนบุคคล และข้อมูลส่วนตัวอื่น ๆ

ประการที่สองเกี่ยวกับวิธีการรวบรวมข้อมูล: ในรูปแบบปัจจุบัน บริษัท รวบรวมข้อมูลจะจับมูลค่าส่วนใหญ่ การยื่น S-1 ของ Reddit เน้นย้ําถึงการออกใบอนุญาตข้อมูลในฐานะแหล่งรายได้หลักที่คาดการณ์ไว้: "เราคาดหวังว่าข้อได้เปรียบด้านข้อมูลที่เพิ่มขึ้นและทรัพย์สินทางปัญญาของเราจะยังคงเป็นองค์ประกอบสําคัญในการฝึกอบรม LLM ในอนาคต" อย่างไรก็ตามผู้ใช้ปลายทางที่สร้างเนื้อหาจริงจะไม่ได้รับผลประโยชน์ทางเศรษฐกิจใด ๆ จากข้อตกลงใบอนุญาตเหล่านี้หรือโมเดล AI เอง ความคลาดเคลื่อนนี้อาจกีดกันการมีส่วนร่วม—มีการเคลื่อนไหวเพื่อฟ้องร้องบริษัท AI เชิงกําเนิดหรือเลือกไม่เข้าร่วมชุดข้อมูลการฝึกอบรมอยู่แล้ว นอกจากนี้การมุ่งเน้นรายได้ในมือของ บริษัท ต้นแบบหรือแพลตฟอร์มโดยไม่แบ่งปันกับผู้ใช้ปลายทางมีผลกระทบทางเศรษฐกิจและสังคมอย่างมีนัยสําคัญ

2. ผลกระทบของดาวด้าข้อมูล

ปัญหาข้อมูลที่กล่าวมาข้างต้นมีจุดร่วมกันคือการได้รับส่วนร่วมของผู้ใช้ที่หลากหลายและแทนที่ ขณะที่ข้อมูลแต่ละจุดอาจมีผลกระทบน้อยต่อประสิทธิภาพของโมเดล โดยรวมแล้ว กลุ่มผู้ใช้ที่มีจำนวนมากสามารถสร้างชุดข้อมูลใหม่ที่มีคุณค่าสูงสำหรับการฝึกอบรม AI ได้ นี่คือจุดที่ Data DAOs (Decentralized Autonomous Organizations) เข้ามาเล่นหน้าที่ ด้วย Data DAOs ผู้มีส่วนร่วมในการให้ข้อมูลสามารถได้รับรางวัลเศษเหรียญเงินตราและควบคุมว่าข้อมูลของพวกเขาจะถูกใช้อย่างไรและมีการหารือได้

ในพื้นที่ใดบ้างที่ Data DAOs สามารถมีผลกระทบอย่างมีนัยสำหรับภูมิทัศน์ข้อมูลปัจจุบันได้บ้าง? นี่คือเพียงไม่กี่ความคิด - นี่ไม่ใช่รายการที่ครบถ้วนและ Data DAOs แน่นอนมีโอกาสอื่นๆอีกมาก

(1) ข้อมูลในโลกจริง
ในเขตข้อมูลพื้นฐานที่ไม่มีการกำหนด (depin) เครือข่ายเช่น hivemapper เป้าหมายที่จะรวบรวมข้อมูลแผนที่โลกล่าสุดโดยกำลังใจเจ้าของ dashcam ให้แบ่งปันข้อมูลของพวกเขาและกระตุ้นผู้ใช้ให้ให้ข้อมูลผ่านแอปพลิเคชันของพวกเขา (เช่น ข้อมูลเกี่ยวกับการปิดทางหรือการซ่อมแซม) depin สามารถมองเห็นได้เป็น dao ข้อมูลในโลกแห่งจริยธรรมที่ข้อมูลเชิงตรงจากอุปกรณ์ฮาร์ดแวร์และ/หรือเครือข่ายผู้ใช้ ข้อมูลนี้มีค่าทางการค้าสำหรับ บริษัท มากมาย และผู้มีส่วนร่วมได้รับการตอบแทนด้วยโทเคน

(2) ข้อมูลสุขภาพส่วนบุคคล
ไบโอแฮกกิ้งเป็นการเคลื่อนไหวสังคมที่บุคคลและชุมชนนำเข้าแนวทางด้วยตัวเองเพื่อศึกษาชีววิทยา โดยมักจะทดลองด้วยตนเอง เช่น บางคนอาจใช้ยาโนโทรปิกเพื่อเพิ่มประสิทธิภาพของสมอง ลองใช้วิธีการรักษาหรือการเปลี่ยนแปลงสภาพแวดล้อมต่าง ๆ เพื่อปรับปรุงการนอนหลับ หรือแม้แต่ฉีดสารทดลองเข้าไปในร่างกายของตนเอง

DAO ข้อมูลสามารถสนับสนุนการพยากรณ์ชีวภาพเหล่านี้โดยการจัดองค์กรผู้เข้าร่วมร่วมกันในการทดลองที่แบ่งปันและรวบรวมผลลัพธ์อย่างเป็นระบบ รายได้ที่สร้างขึ้นโดย DAO สุขภาพส่วนบุคคลเช่นจากห้องปฏิบัติการวิจัยหรือโรงงานเภสัชกรรมสามารถส่งกลับไปยังผู้เข้าร่วมที่มีส่วนร่วมในการส่งข้อมูลสุขภาพส่วนบุคคลของตน

(3) การเรียนรู้ด้วยการเสริมรักษาด้วยคำแนะนำจากมนุษย์
การเรียนรู้แบบเสริมแรงด้วย Human Feedback (RLhF) เกี่ยวข้องกับการใช้ข้อมูลของมนุษย์เพื่อปรับแต่งโมเดล AI และปรับปรุงประสิทธิภาพ โดยทั่วไปข้อเสนอแนะมาจากผู้เชี่ยวชาญในสาขาเฉพาะที่สามารถประเมินผลลัพธ์ของแบบจําลองได้อย่างมีประสิทธิภาพ ตัวอย่างเช่นห้องปฏิบัติการวิจัยอาจขอความช่วยเหลือจากปริญญาเอกคณิตศาสตร์เพื่อเพิ่มความสามารถทางคณิตศาสตร์ของ AI รางวัลโทเค็นสามารถดึงดูดและจูงใจให้ผู้เชี่ยวชาญเข้าร่วมโดยเสนอมูลค่าการเก็งกําไรและการเข้าถึงทั่วโลกผ่านระบบการชําระเงิน crypto บริษัท ต่างๆเช่น Sapien, Fraction และ Sahara กําลังทํางานอย่างแข็งขันในพื้นที่นี้

(4) ข้อมูลส่วนตัว
เนื่องจากข้อมูลสาธารณะที่มีให้สําหรับการฝึกอบรม AI เริ่มขาดแคลนการมุ่งเน้นอาจเปลี่ยนไปใช้ชุดข้อมูลที่เป็นกรรมสิทธิ์รวมถึงข้อมูลผู้ใช้ส่วนตัว เบื้องหลังกําแพงเข้าสู่ระบบมีข้อมูลคุณภาพสูงมากมายที่ยังคงไม่สามารถเข้าถึงได้ เช่น ข้อความส่วนตัวและเอกสาร ข้อมูลนี้มีประสิทธิภาพสูงสําหรับการฝึกอบรม AI ส่วนบุคคลและมีข้อมูลที่มีค่าที่ไม่พบบนอินเทอร์เน็ตสาธารณะ

การเข้าถึงและใช้ข้อมูลนี้ถือเป็นความท้าทายทางกฎหมายและจริยธรรมที่สําคัญ Data DAOS สามารถนําเสนอโซลูชันโดยอนุญาตให้ผู้เข้าร่วมที่เต็มใจอัปโหลดและสร้างรายได้จากข้อมูลของตนในขณะที่จัดการการใช้งาน ตัวอย่างเช่นข้อมูล Reddit DAO สามารถช่วยให้ผู้ใช้สามารถอัปโหลดข้อมูล Reddit ที่ส่งออกรวมถึงความคิดเห็นโพสต์และประวัติการลงคะแนนซึ่งสามารถขายหรือเช่าให้กับ บริษัท AI ในลักษณะที่ปกป้องความเป็นส่วนตัว สิ่งจูงใจโทเค็นช่วยให้ผู้ใช้ได้รับไม่เพียง แต่จากการทําธุรกรรมครั้งเดียว แต่ยังมาจากมูลค่าต่อเนื่องที่สร้างขึ้นโดยโมเดล AI ที่ได้รับการฝึกฝนด้วยข้อมูลของพวกเขา

3. ปัญหาและความท้าทายที่เปิด

ในขณะที่ข้อมูลดาโอสมีโอกาสที่สำคัญมาก แต่ก็มีปัญหาสำคัญและความท้าทายหลายประการที่ต้องจัดการ

(1) การเบนทึกแรงจูงใจ
บทเรียนสำคัญจากประวัติศาสตร์การใช้แรงจูงใจโทเค็นในคริปโตคือสิ่งที่รางวัลจากภายนอกสามารถเปลี่ยนแปลงพฤติกรรมของผู้ใช้ได้ นี้มีผลโดยตรงต่อการใช้แรงจูงใจโทเค็นในการรวบรวมข้อมูล: แรงจูงใจอาจทำให้ผู้เข้าร่วมกลุ่มผู้ร่วมและประเภทของข้อมูลที่พวกเขามีส่งผลกระทบ

การนำเสนอสิทธิผลตอบแทนโทเค็นยังเปิดโอกาสให้ผู้เข้าร่วมใช้เครื่องมือเพื่อประโยชน์ส่วนตัว โดยการส่งข้อมูลคุณภาพต่ำหรือปลอมแปลงเพื่อเพิ่มรายได้ของพวกเขา สิ่งนี้มีความสำคัญเพราะความสำเร็จของ Data DAOs ขึ้นอยู่กับคุณภาพของข้อมูล หากการสนับสนุนเลี้ยงเลี้ยงออกจากเป้าหมายที่ต้องการ มูลค่าของชุดข้อมูลอาจถูกเสียหาย

(2) การวัดและรางวัลข้อมูล

แนวคิดหลักของ Data Daos คือการให้รางวัลแก่ผู้มีส่วนร่วมสําหรับการส่งข้อมูลด้วยโทเค็น ซึ่งจะสร้างรายได้ให้กับ DAO ในระยะยาว อย่างไรก็ตามเนื่องจากลักษณะอัตนัยของค่าข้อมูลการกําหนดรางวัลที่เหมาะสมสําหรับการมีส่วนร่วมของข้อมูลที่แตกต่างกันจึงเป็นเรื่องที่ท้าทายอย่างมาก ตัวอย่างเช่นในสถานการณ์ biohacking: ข้อมูลของผู้ใช้บางคนมีค่ามากกว่าคนอื่น ๆ หรือไม่? ถ้าเป็นเช่นนั้นปัจจัยอะไรเป็นตัวกําหนดสิ่งนี้? สําหรับข้อมูลแผนที่: ข้อมูลจากบางพื้นที่มีค่ามากกว่าข้อมูลจากพื้นที่อื่นหรือไม่ ความแตกต่างเหล่านี้ควรวัดปริมาณอย่างไร? (การวิจัยเกี่ยวกับการวัดค่าข้อมูลใน AI โดยการประเมินการมีส่วนร่วมที่เพิ่มขึ้นของข้อมูลต่อประสิทธิภาพของแบบจําลองกําลังดําเนินอยู่ แต่สามารถคํานวณได้อย่างเข้มข้น)

นอกจากนี้เป็นสิ่งสำคัญที่จะสร้างกลไกที่มั่นคงเพื่อการยืนยันความถูกต้องและความแม่นยำของข้อมูล โดยไม่มีมาตรการเหล่านี้ ระบบอาจเป็นอยู่ในภาวะที่เจาะจงต่อการส่งข้อมูลที่ไม่ซื่อสัตย์ (เช่น การสร้างบัญชีปลอม) หรือการโจมตีซับิล โดยที่ depin networks จัดการกับปัญหานี้โดยการรวมการยืนยันที่ระดับอุปกรณ์ฮาร์ดแวร์ แต่แบบอื่น ๆ ของ data daos ที่พึ่งพาบนการมีส่วนร่วมของผู้ใช้อาจสามารถโดนการจัดการได้มากกว่า

(3) มูลค่าเพิ่มของข้อมูลใหม่
เครือข่ายแบบเปิดส่วนใหญ่ได้รับการยกระดับเพื่อวัตถุประสงค์ในการฝึกอบรมแล้วดังนั้นผู้ให้บริการ Data DAO จึงต้องพิจารณาว่าชุดข้อมูลที่รวบรวมในลักษณะกระจายอํานาจจะเพิ่มมูลค่าที่เพิ่มขึ้นให้กับข้อมูลที่มีอยู่บนเครือข่ายแบบเปิดอย่างแท้จริงหรือไม่และนักวิจัยสามารถเข้าถึงข้อมูลนี้จากแพลตฟอร์มหรือผ่านวิธีการอื่นได้หรือไม่ แนวคิดนี้เน้นย้ําถึงความสําคัญของการรวบรวมข้อมูลใหม่ทั้งหมดที่เหนือกว่าที่มีอยู่ในปัจจุบันซึ่งนําไปสู่การพิจารณาครั้งต่อไป: ขนาดของผลกระทบและโอกาสในการสร้างรายได้

(4) การประเมินโอกาสทางรายได้
โดยพื้นฐานแล้ว Data DAOs กำลังสร้างตลาดสองด้านที่เชื่อมโยงผู้ซื้อข้อมูลกับผู้สนับสนุนข้อมูล ดังนั้นความสำเร็จของ Data DAO ขึ้นอยู่กับความสามารถในการดึงดูดลูกค้าที่มีความหลากหลายและมั่นคงที่ต้องการจะซื้อข้อมูล

ข้อมูล DAOs จําเป็นต้องระบุและยืนยันความต้องการข้อมูลของพวกเขาและตรวจสอบให้แน่ใจว่าโอกาสในการสร้างรายได้มีความสําคัญเพียงพอ (ไม่ว่าจะทั้งหมดหรือต่อผู้มีส่วนร่วม) เพื่อกระตุ้นปริมาณและคุณภาพของข้อมูลที่จําเป็น ตัวอย่างเช่นแนวคิดในการสร้างข้อมูลผู้ใช้ DAO เพื่อรวบรวมความชอบส่วนบุคคลและข้อมูลการท่องเว็บเพื่อวัตถุประสงค์ในการโฆษณาได้รับการกล่าวถึงมานานหลายปี แต่ผลตอบแทนที่อาจเกิดขึ้นสําหรับผู้ใช้อาจน้อยที่สุด (สําหรับบริบท ARPU ทั่วโลกของ Meta อยู่ที่ 13.12 ดอลลาร์ ณ สิ้นปี 2023) ด้วย บริษัท AI ที่วางแผนจะลงทุนหลายล้านล้านดอลลาร์ในการฝึกอบรมรายได้ที่อาจเกิดขึ้นจากข้อมูลอาจเพียงพอที่จะจูงใจให้มีส่วนร่วมขนาดใหญ่ทําให้เกิดคําถามที่น่าสนใจสําหรับ Data Daos: "ทําไมตอนนี้"

4. การฟังความคิดเพื่อเจาะกำแพงข้อมูล

เดต้าดาออสเสนอ sol ฟิลส์ที่มีความสมัครใจสำหรับการสร้างชุดข้อมูลที่มีคุณภาพสูงและพัฒนาผ่านกำแพงข้อมูลที่ท้าทายปัญญาประดิษฐ์ ในขณะที่วิธีที่แน่ชัดในการบรรลุเป้าหมายนี้ยังคงต้องได้รับการกำหนดใหม่ เราตื่นเต้นที่จะเห็นว่าสาขานี้จะเติบโตอย่างไร

ข้อปฏิเสธ:

  1. บทความนี้ถูกเผยแพร่ใหม่จาก [Jinse finance], และลิขสิทธิ์เป็นของผู้เขียนต้นฉบับ [li jin] หากคุณมีคำปฏิเสธใด ๆ เกี่ยวกับการนำเสนอนี้ กรุณาติดต่อทีม Gate Learn ที่gatelearn@Gate.ioทีมจะรีบแก้ไขปัญหาทุกข์ตามขั้นตอนที่เกี่ยวข้อง
  2. คำประกาศ: มุมมองและความคิดเห็นที่แสดงในบทความนี้เป็นเพียงของผู้เขียนเท่านั้นและไม่เกิดเป็นคำแนะนำในการลงทุนใด ๆ
  3. เวอร์ชันภาษาอื่น ๆ ของบทความนี้ได้รับการแปลโดยทีม Gate Learn โดยไม่ต้องพูดถึงGate.io บทความที่ถูกแปลอาจไม่สามารถคัดลอก กระจายหรือก๊อปปี้ได้
เริ่มตอนนี้
สมัครและรับรางวัล
$100