تفكيك حواجز بيانات الذكاء الاصطناعي: لماذا تكون البيانات داو مهمة الآن

متوسطJul 14, 2024
يفحص هذا المقال القيود الحالية لمصادر بيانات الذكاء الاصطناعي ويشير إلى أن Data DAOs يمكن أن توفر مجموعات بيانات جديدة عالية الجودة لتطوير نماذج الذكاء الاصطناعي. يمكن لـ Data DAOs تعزيز تدريب الذكاء الاصطناعي بالبيانات الواقعية وبيانات الصحة الشخصية وتغذية ردود الفعل البشرية، ولكنها تواجه أيضًا تحديات مثل تشويه الحوافز والتحقق من البيانات وتقييم الفوائد.
تفكيك حواجز بيانات الذكاء الاصطناعي: لماذا تكون البيانات داو مهمة الآن

تسليط الضوء مؤخرًا على صفقات الموافقة على البيانات الملحوظة ، مثل تلك بين OpenAI و News Corp و Reddit ، تؤكد على الحاجة إلى بيانات عالية الجودة في الذكاء الاصطناعي. تم تدريب نماذج الذكاء الاصطناعي الرائدة بالفعل على جزء كبير من الإنترنت. على سبيل المثال ، تم فهرسة Common Crawl حوالي 10٪ من صفحات الويب لتدريب نموذج اللغة الكبير ، والذي يشمل أكثر من 100 تريليون رمز.

لتحسين نماذج الذكاء الاصطناعي بشكل أكبر ، من الضروري توسيع وتعزيز البيانات المتاحة للتدريب. لقد كنا نناقش طرق تجميع البيانات ، خاصة من خلال الطرق المتمايزة. نحن مهتمون بشكل خاص بكيفية مساعدة النهج المتمايز في إنشاء مجموعات بيانات جديدة وتقديم حوافز اقتصادية للمساهمين والمبدعين.

في السنوات الأخيرة ، كانت واحدة من المواضيع الساخنة في عالم العملات المشفرة هي مفهوم الـ data daos ، والتي هي مجموعات من الأشخاص الذين يقومون بإنشاء وتنظيم وإدارة البيانات. في حين تمت مناقشة هذا الموضوع من قبل multicoin وآخرين ، فإن التقدم السريع للذكاء الاصطناعي يطرح سؤالا جديدا: "لماذا هذا هو الوقت المناسب الآن لـ data daos؟"

في هذا المقال، سنشارك رؤيتنا حول داوات البيانات للتعامل مع السؤال: كيف يمكن لداوات البيانات تسريع تطوير الذكاء الاصطناعي؟

1. الحالة الحالية للبيانات في الذكاء الاصطناعي

اليوم ، يتم تدريب نماذج الذكاء الاصطناعي في الغالب على البيانات العامة ، سواء من خلال شراكات مع شركات مثل نيوز كورب ورديت ، أو عن طريق جمع البيانات من الإنترنت المفتوح. على سبيل المثال ، تم تدريب لاما 3 التابعة لميتا باستخدام 15 تريليون رمز من المصادر العامة. على الرغم من أن هذه الطرق فعالة لجمع كميات كبيرة من البيانات بسرعة ، إلا أن لديها قيود فيما يتعلق بأنواع البيانات التي يتم جمعها وكيفية الحصول على هذه البيانات.

أولا، فيما يتعلق بالبيانات التي ينبغي جمعها: يعوق تطوير الذكاء الاصطناعي الاختناقات في جودة البيانات وكميتها. ناقش ليوبولد أشينبرينر "جدار البيانات" الذي يحد من المزيد من التحسينات في الخوارزمية: "قريبا ، قد يواجه النهج البسيط المتمثل في التدريب المسبق لنماذج لغوية أكبر على المزيد من البيانات المكشطة اختناقات كبيرة".

أحد الطرق لتجاوز جدار البيانات هو توفير مجموعات بيانات جديدة. على سبيل المثال ، لا يمكن لشركات النمذجة جمع البيانات المحمية بكلمة مرور دون انتهاك أحكام معظم مواقع الويب ، ولا يمكنهم الوصول إلى البيانات التي لم يتم جمعها. حاليًا ، هناك كمية ضخمة من البيانات الخاصة التي لا يمكن لتدريب الذكاء الاصطناعي الوصول إليها ، مثل البيانات من Google Drive وSlack وسجلات الصحة الشخصية ومعلومات أخرى خاصة.

ثانيا ، فيما يتعلق بكيفية جمع البيانات: في النموذج الحالي ، تستحوذ شركات جمع البيانات على معظم القيمة. يسلط ملف S-1 الخاص ب Reddit الضوء على ترخيص البيانات كمصدر رئيسي متوقع للإيرادات: "نتوقع أن تظل ميزة البيانات المتنامية والملكية الفكرية لدينا عناصر أساسية في تدريب LLM في المستقبل." ومع ذلك ، لا يحصل المستخدمون النهائيون الذين ينشئون المحتوى الفعلي على أي فوائد اقتصادية من اتفاقيات الترخيص هذه أو نماذج الذكاء الاصطناعي نفسها. قد يؤدي هذا الاختلال إلى تثبيط المشاركة - فهناك بالفعل حركات لمقاضاة شركات الذكاء الاصطناعي التوليدية أو إلغاء الاشتراك في مجموعات بيانات التدريب. بالإضافة إلى ذلك ، فإن تركيز الإيرادات في أيدي الشركات أو المنصات النموذجية دون مشاركتها مع المستخدمين النهائيين له آثار اجتماعية واقتصادية كبيرة.

2. تأثير داو البيانات

القضايا البيانية المذكورة سابقًا تتشارك في موضوع مشترك: إنها تستفيد من مساهمات كبيرة من عينات مستخدمين متنوعة وممثلة. بينما قد يكون لديها أي نقطة بيانات واحدة تأثيراً يمكن تجاهله على أداء النموذج، يمكن لمجموعة كبيرة من المستخدمين جمع مجموعات بيانات جديدة تكون قيمة للغاية لتدريب الذكاء الاصطناعي. هنا تأتي داوات البيانات (المنظمات المستقلة اللامركزية) إلى اللعب. مع داوات البيانات، يمكن لمساهمي البيانات كسب مكافآت اقتصادية مقابل تقديم البيانات ويمكنهم التحكم في كيفية استخدام بياناتهم وتحقيق الأرباح منها.

في أي مجالات يمكن لـ داوات البيانات أن تحقق تأثيراً كبيراً في الساحة البيانات الحالية؟ إليك بعض الأفكار - هذه ليست قائمة شاملة، وبالتأكيد لدى داوات البيانات فرص أخرى:

(1) البيانات الواقعية
في مجال البنية التحتية المادية المفتوحة (depin) ، تهدف الشبكات مثل hivemapper إلى جمع أحدث بيانات الخرائط العالمية عن طريق تحفيز مالكي كاميرات الرصد على مشاركة بياناتهم وتشجيع المستخدمين على تقديم البيانات من خلال تطبيقاتهم (على سبيل المثال ، معلومات حول إغلاق الطرق أو الإصلاحات). يمكن اعتبار depin كـ dao لبيانات العالم الحقيقي ، حيث يتم إنشاء مجموعات البيانات من الأجهزة الأساسية و / أو شبكات المستخدمين. هذه البيانات لها قيمة تجارية للعديد من الشركات ، ويتم مكافأة المساهمين بالرموز.

(2) بيانات الصحة الشخصية
التلاعب البيولوجي هو حركة اجتماعية حيث يعتمده الأفراد والمجتمعات نهجًا عمليًا لدراسة الأحياء، وغالباً ما يقومون بالتجارب على أنفسهم. على سبيل المثال، قد يستخدم شخص ما مختلف العقاقير الذكائية لتعزيز أداء الدماغ، أو يحاول مختلف العلاجات أو التغييرات البيئية لتحسين النوم، أو حتى حقن أنفسهم بمواد تجريبية.

يمكن لبيانات الداوس دعم هذه الجهود الحيوية من خلال تنظيم المشاركين حول التجارب المشتركة وجمع النتائج بشكل منهجي. يمكن إعادة الدخل الذي يتم توليده من خلال هذه الدوس الصحية الشخصية ، مثل من مختبرات البحوث أو الشركات الصيدلانية ، إلى المشاركين الذين ساهموا ببيانات صحتهم الشخصية.

(3) التعلم التعزيزي مع ردود فعل الإنسان
تعلم التعزيز مع تغذية ردود الفعل البشرية (RLHF) ينطوي على استخدام إدخال الإنسان لضبط نماذج الذكاء الاصطناعي وتحسين أدائها. عادةً ما يأتي الردود من الخبراء في مجالات محددة الذين يمكنهم تقييم إخراج النموذج بشكل فعال. على سبيل المثال، قد يبحث مختبر بحثي عن مساعدة من حاملي الدكتوراه في الرياضيات لتعزيز قدرات الذكاء الاصطناعي الخاص بهم في الرياضيات. يمكن أن تجذب المكافآت المميزة وتحفز الخبراء للمشاركة، مقدمة قيمة استثمارية ووصولًا عالميًا من خلال أنظمة الدفع الرقمية. شركات مثل سابين، فراكشن، وساهارا تعمل بنشاط في هذا المجال.

(4) بيانات خاصة
بما أن البيانات العامة المتاحة لتدريب الذكاء الاصطناعي تصبح أقل، فقد يتحول التركيز إلى مجموعات البيانات الخاصة، بما في ذلك بيانات المستخدم الخاصة. يوجد خلف حوائط تسجيل الدخول ثروة من البيانات عالية الجودة التي لا تزال غير متاحة، مثل الرسائل الخاصة والمستندات. يمكن أن تكون هذه البيانات فعالة للغاية في تدريب الذكاء الاصطناعي المخصص وتحتوي على معلومات قيمة لا يمكن العثور عليها على الإنترنت العام.

يمثل الوصول إلى هذه البيانات واستخدامها تحديات قانونية وأخلاقية كبيرة. يمكن أن تقدم DAOs للبيانات حلا من خلال السماح للمشاركين الراغبين بتحميل بياناتهم وتحقيق الدخل منها أثناء إدارة استخدامها. على سبيل المثال ، يمكن ل Reddit Data DAO تمكين المستخدمين من تحميل بيانات Reddit المصدرة ، بما في ذلك التعليقات والمشاركات وسجل التصويت ، والتي يمكن بيعها أو تأجيرها لشركات الذكاء الاصطناعي بطريقة تحمي الخصوصية. تسمح الحوافز الرمزية للمستخدمين بالكسب ليس فقط من معاملة لمرة واحدة ولكن أيضا من القيمة المستمرة الناتجة عن نماذج الذكاء الاصطناعي المدربة على بياناتهم.

3. المسائل المفتوحة والتحديات

بينما تقدم داوس البيانات فوائد محتملة كبيرة، هناك عدة اعتبارات وتحديات مهمة يجب معالجتها.

تشويه الحوافز
درس رئيسي من تاريخ استخدام حوافز الرمز في عالم العملات المشفرة هو أن المكافآت الخارجية يمكن أن تغير سلوك المستخدم. وهذا ينطوي على آثار مباشرة على استخدام حوافز الرمز لجمع البيانات: قد تشوه الحوافز مجموعة المشاركين وأنواع البيانات التي يساهمون بها.

تتيح إدخال حوافز الرموز أيضًا احتمال استغلال المشاركين للنظام ، على سبيل المثال عن طريق تقديم بيانات ذات جودة منخفضة أو مفبركة لتعظيم دخلهم. هذا أمر حرج لأن نجاح بيانات DAO يعتمد على جودة البيانات. إذا اختلفت المساهمات عن الهدف المرغوب فيه ، يمكن التضحية بقيمة مجموعة البيانات.

(2) قياس ومكافأة البيانات

الفكرة المركزية ل Data DAOs هي مكافأة المساهمين على عمليات إرسال البيانات الخاصة بهم باستخدام الرموز المميزة ، والتي ستولد إيرادات ل DAO على المدى الطويل. ومع ذلك ، نظرا للطبيعة الذاتية لقيمة البيانات ، فإن تحديد المكافأة المناسبة لمساهمات البيانات المختلفة يمثل تحديا كبيرا. على سبيل المثال ، في سيناريو الاختراق البيولوجي: هل بيانات بعض المستخدمين أكثر قيمة من غيرها؟ إذا كان الأمر كذلك ، فما هي العوامل التي تحدد ذلك؟ بالنسبة لبيانات الخريطة: هل المعلومات الواردة من مناطق معينة أكثر قيمة من غيرها؟ كيف ينبغي قياس هذه الاختلافات؟ (البحث في قياس قيمة البيانات في الذكاء الاصطناعي من خلال تقييم المساهمة الإضافية للبيانات في أداء النموذج مستمر ولكن يمكن أن يكون مكثفا من الناحية الحسابية.)

علاوة على ذلك، من الضروري إقامة آليات قوية للتحقق من أصالة ودقة البيانات. بدون هذه الإجراءات، يمكن أن يكون النظام عرضة لتقديمات بيانات مزورة (مثل إنشاء حسابات مزيفة) أو هجمات سايبيل. تتعامل شبكات ديبين مع هذه المسألة من خلال دمج التحقق على مستوى جهاز الأجهزة، ولكن أنواع أخرى من داوات البيانات التي تعتمد على مساهمات المستخدم قد تكون أكثر عرضة للتلاعب.

(3) القيمة التزايدية للبيانات الجديدة
تم استغلال معظم الشبكات المفتوحة بالفعل لأغراض التدريب ، لذا يجب على مشغلي بيانات DAO أن ينظروا في ما إذا كانت مجموعات البيانات التي تم جمعها بطريقة لامركزية تضيف قيمة تزايدية حقًا للبيانات الموجودة على الشبكات المفتوحة ، وما إذا كان الباحثون يمكنهم الوصول إلى هذه البيانات من خلال المنصة أو من خلال وسائل أخرى. تؤكد هذه الفكرة على أهمية جمع بيانات جديدة تمامًا تتجاوز ما هو متاح حاليًا ، مما يؤدي إلى الاعتبار التالي: مدى التأثير وفرص الإيرادات.

(4) تقييم فرص الحصول على الإيرادات
أساسًا ، تقوم منصات البيانات ببناء سوق ثنائي الجانب يربط بين المشترين والمساهمين في البيانات. وبالتالي ، يعتمد نجاح منصة البيانات على قدرتها على جذب قاعدة زبائن مستقرة ومتنوعة مستعدة لدفع ثمن البيانات.

تحتاج DAOs البيانات إلى تحديد وتأكيد الطلب على بياناتها والتأكد من أن فرص الإيرادات كبيرة بما يكفي (سواء في المجموع أو لكل مساهم) لتحفيز كمية ونوعية البيانات اللازمة. على سبيل المثال ، تمت مناقشة مفهوم إنشاء DAO لبيانات المستخدم لتجميع التفضيلات الشخصية وبيانات التصفح لأغراض الدعاية لسنوات ، ولكن قد تكون العوائد المحتملة للمستخدمين ضئيلة. (للسياق ، كان متوسط العائد لكل مستخدم (ARPU) العالمي ل Meta 13.12 دولارا في نهاية عام 2023.) مع تخطيط شركات الذكاء الاصطناعي لاستثمار تريليونات الدولارات في التدريب ، قد تكون الأرباح المحتملة من البيانات كافية لتحفيز المساهمات واسعة النطاق ، مما يثير سؤالا مثيرا للاهتمام ل Data DAOs: "لماذا الآن؟"

4. تحطيم حائط البيانات

تقدم أنظمة Data DAOs حلولًا واعدة لإنشاء مجموعات بيانات جديدة وعالية الجودة وتحطيم الحاجز البياني الذي يواجه الذكاء الاصطناعي. على الرغم من أن الطرق الدقيقة لتحقيق هذا الهدف لم يتم تحديدها بعد ، إلا أننا متحمسون لمشاهدة كيفية تطور هذا المجال.

تنويه:

  1. تمت إعادة طبع هذه المقالة من [ جينسي فاينانس، وحقوق الطبع والنشر تعود للكاتب الأصلي [li jin]. إذا كان لديك أي اعتراضات على هذا النشر المعاد، يرجى التواصل مع فريق Gate Learn علىgatelearn@Gate.io.سيتعامل الفريق مع أي مخاوف على الفور وفقًا للإجراءات ذات الصلة.
  2. تنويه: الآراء المعبر عنها في هذه المقالة هي آراء المؤلف فقط ولا تشكل أي نصيحة استثمارية.
  3. تم ترجمة النسخ الأخرى من هذه المقالة من قبل فريق Gate Learn. دون الإشارة إلى ذلكجيت.اي.أو، قد لا يتم نسخ المقالات المترجمة أو توزيعها أو نسبها.

تفكيك حواجز بيانات الذكاء الاصطناعي: لماذا تكون البيانات داو مهمة الآن

متوسطJul 14, 2024
يفحص هذا المقال القيود الحالية لمصادر بيانات الذكاء الاصطناعي ويشير إلى أن Data DAOs يمكن أن توفر مجموعات بيانات جديدة عالية الجودة لتطوير نماذج الذكاء الاصطناعي. يمكن لـ Data DAOs تعزيز تدريب الذكاء الاصطناعي بالبيانات الواقعية وبيانات الصحة الشخصية وتغذية ردود الفعل البشرية، ولكنها تواجه أيضًا تحديات مثل تشويه الحوافز والتحقق من البيانات وتقييم الفوائد.
تفكيك حواجز بيانات الذكاء الاصطناعي: لماذا تكون البيانات داو مهمة الآن

تسليط الضوء مؤخرًا على صفقات الموافقة على البيانات الملحوظة ، مثل تلك بين OpenAI و News Corp و Reddit ، تؤكد على الحاجة إلى بيانات عالية الجودة في الذكاء الاصطناعي. تم تدريب نماذج الذكاء الاصطناعي الرائدة بالفعل على جزء كبير من الإنترنت. على سبيل المثال ، تم فهرسة Common Crawl حوالي 10٪ من صفحات الويب لتدريب نموذج اللغة الكبير ، والذي يشمل أكثر من 100 تريليون رمز.

لتحسين نماذج الذكاء الاصطناعي بشكل أكبر ، من الضروري توسيع وتعزيز البيانات المتاحة للتدريب. لقد كنا نناقش طرق تجميع البيانات ، خاصة من خلال الطرق المتمايزة. نحن مهتمون بشكل خاص بكيفية مساعدة النهج المتمايز في إنشاء مجموعات بيانات جديدة وتقديم حوافز اقتصادية للمساهمين والمبدعين.

في السنوات الأخيرة ، كانت واحدة من المواضيع الساخنة في عالم العملات المشفرة هي مفهوم الـ data daos ، والتي هي مجموعات من الأشخاص الذين يقومون بإنشاء وتنظيم وإدارة البيانات. في حين تمت مناقشة هذا الموضوع من قبل multicoin وآخرين ، فإن التقدم السريع للذكاء الاصطناعي يطرح سؤالا جديدا: "لماذا هذا هو الوقت المناسب الآن لـ data daos؟"

في هذا المقال، سنشارك رؤيتنا حول داوات البيانات للتعامل مع السؤال: كيف يمكن لداوات البيانات تسريع تطوير الذكاء الاصطناعي؟

1. الحالة الحالية للبيانات في الذكاء الاصطناعي

اليوم ، يتم تدريب نماذج الذكاء الاصطناعي في الغالب على البيانات العامة ، سواء من خلال شراكات مع شركات مثل نيوز كورب ورديت ، أو عن طريق جمع البيانات من الإنترنت المفتوح. على سبيل المثال ، تم تدريب لاما 3 التابعة لميتا باستخدام 15 تريليون رمز من المصادر العامة. على الرغم من أن هذه الطرق فعالة لجمع كميات كبيرة من البيانات بسرعة ، إلا أن لديها قيود فيما يتعلق بأنواع البيانات التي يتم جمعها وكيفية الحصول على هذه البيانات.

أولا، فيما يتعلق بالبيانات التي ينبغي جمعها: يعوق تطوير الذكاء الاصطناعي الاختناقات في جودة البيانات وكميتها. ناقش ليوبولد أشينبرينر "جدار البيانات" الذي يحد من المزيد من التحسينات في الخوارزمية: "قريبا ، قد يواجه النهج البسيط المتمثل في التدريب المسبق لنماذج لغوية أكبر على المزيد من البيانات المكشطة اختناقات كبيرة".

أحد الطرق لتجاوز جدار البيانات هو توفير مجموعات بيانات جديدة. على سبيل المثال ، لا يمكن لشركات النمذجة جمع البيانات المحمية بكلمة مرور دون انتهاك أحكام معظم مواقع الويب ، ولا يمكنهم الوصول إلى البيانات التي لم يتم جمعها. حاليًا ، هناك كمية ضخمة من البيانات الخاصة التي لا يمكن لتدريب الذكاء الاصطناعي الوصول إليها ، مثل البيانات من Google Drive وSlack وسجلات الصحة الشخصية ومعلومات أخرى خاصة.

ثانيا ، فيما يتعلق بكيفية جمع البيانات: في النموذج الحالي ، تستحوذ شركات جمع البيانات على معظم القيمة. يسلط ملف S-1 الخاص ب Reddit الضوء على ترخيص البيانات كمصدر رئيسي متوقع للإيرادات: "نتوقع أن تظل ميزة البيانات المتنامية والملكية الفكرية لدينا عناصر أساسية في تدريب LLM في المستقبل." ومع ذلك ، لا يحصل المستخدمون النهائيون الذين ينشئون المحتوى الفعلي على أي فوائد اقتصادية من اتفاقيات الترخيص هذه أو نماذج الذكاء الاصطناعي نفسها. قد يؤدي هذا الاختلال إلى تثبيط المشاركة - فهناك بالفعل حركات لمقاضاة شركات الذكاء الاصطناعي التوليدية أو إلغاء الاشتراك في مجموعات بيانات التدريب. بالإضافة إلى ذلك ، فإن تركيز الإيرادات في أيدي الشركات أو المنصات النموذجية دون مشاركتها مع المستخدمين النهائيين له آثار اجتماعية واقتصادية كبيرة.

2. تأثير داو البيانات

القضايا البيانية المذكورة سابقًا تتشارك في موضوع مشترك: إنها تستفيد من مساهمات كبيرة من عينات مستخدمين متنوعة وممثلة. بينما قد يكون لديها أي نقطة بيانات واحدة تأثيراً يمكن تجاهله على أداء النموذج، يمكن لمجموعة كبيرة من المستخدمين جمع مجموعات بيانات جديدة تكون قيمة للغاية لتدريب الذكاء الاصطناعي. هنا تأتي داوات البيانات (المنظمات المستقلة اللامركزية) إلى اللعب. مع داوات البيانات، يمكن لمساهمي البيانات كسب مكافآت اقتصادية مقابل تقديم البيانات ويمكنهم التحكم في كيفية استخدام بياناتهم وتحقيق الأرباح منها.

في أي مجالات يمكن لـ داوات البيانات أن تحقق تأثيراً كبيراً في الساحة البيانات الحالية؟ إليك بعض الأفكار - هذه ليست قائمة شاملة، وبالتأكيد لدى داوات البيانات فرص أخرى:

(1) البيانات الواقعية
في مجال البنية التحتية المادية المفتوحة (depin) ، تهدف الشبكات مثل hivemapper إلى جمع أحدث بيانات الخرائط العالمية عن طريق تحفيز مالكي كاميرات الرصد على مشاركة بياناتهم وتشجيع المستخدمين على تقديم البيانات من خلال تطبيقاتهم (على سبيل المثال ، معلومات حول إغلاق الطرق أو الإصلاحات). يمكن اعتبار depin كـ dao لبيانات العالم الحقيقي ، حيث يتم إنشاء مجموعات البيانات من الأجهزة الأساسية و / أو شبكات المستخدمين. هذه البيانات لها قيمة تجارية للعديد من الشركات ، ويتم مكافأة المساهمين بالرموز.

(2) بيانات الصحة الشخصية
التلاعب البيولوجي هو حركة اجتماعية حيث يعتمده الأفراد والمجتمعات نهجًا عمليًا لدراسة الأحياء، وغالباً ما يقومون بالتجارب على أنفسهم. على سبيل المثال، قد يستخدم شخص ما مختلف العقاقير الذكائية لتعزيز أداء الدماغ، أو يحاول مختلف العلاجات أو التغييرات البيئية لتحسين النوم، أو حتى حقن أنفسهم بمواد تجريبية.

يمكن لبيانات الداوس دعم هذه الجهود الحيوية من خلال تنظيم المشاركين حول التجارب المشتركة وجمع النتائج بشكل منهجي. يمكن إعادة الدخل الذي يتم توليده من خلال هذه الدوس الصحية الشخصية ، مثل من مختبرات البحوث أو الشركات الصيدلانية ، إلى المشاركين الذين ساهموا ببيانات صحتهم الشخصية.

(3) التعلم التعزيزي مع ردود فعل الإنسان
تعلم التعزيز مع تغذية ردود الفعل البشرية (RLHF) ينطوي على استخدام إدخال الإنسان لضبط نماذج الذكاء الاصطناعي وتحسين أدائها. عادةً ما يأتي الردود من الخبراء في مجالات محددة الذين يمكنهم تقييم إخراج النموذج بشكل فعال. على سبيل المثال، قد يبحث مختبر بحثي عن مساعدة من حاملي الدكتوراه في الرياضيات لتعزيز قدرات الذكاء الاصطناعي الخاص بهم في الرياضيات. يمكن أن تجذب المكافآت المميزة وتحفز الخبراء للمشاركة، مقدمة قيمة استثمارية ووصولًا عالميًا من خلال أنظمة الدفع الرقمية. شركات مثل سابين، فراكشن، وساهارا تعمل بنشاط في هذا المجال.

(4) بيانات خاصة
بما أن البيانات العامة المتاحة لتدريب الذكاء الاصطناعي تصبح أقل، فقد يتحول التركيز إلى مجموعات البيانات الخاصة، بما في ذلك بيانات المستخدم الخاصة. يوجد خلف حوائط تسجيل الدخول ثروة من البيانات عالية الجودة التي لا تزال غير متاحة، مثل الرسائل الخاصة والمستندات. يمكن أن تكون هذه البيانات فعالة للغاية في تدريب الذكاء الاصطناعي المخصص وتحتوي على معلومات قيمة لا يمكن العثور عليها على الإنترنت العام.

يمثل الوصول إلى هذه البيانات واستخدامها تحديات قانونية وأخلاقية كبيرة. يمكن أن تقدم DAOs للبيانات حلا من خلال السماح للمشاركين الراغبين بتحميل بياناتهم وتحقيق الدخل منها أثناء إدارة استخدامها. على سبيل المثال ، يمكن ل Reddit Data DAO تمكين المستخدمين من تحميل بيانات Reddit المصدرة ، بما في ذلك التعليقات والمشاركات وسجل التصويت ، والتي يمكن بيعها أو تأجيرها لشركات الذكاء الاصطناعي بطريقة تحمي الخصوصية. تسمح الحوافز الرمزية للمستخدمين بالكسب ليس فقط من معاملة لمرة واحدة ولكن أيضا من القيمة المستمرة الناتجة عن نماذج الذكاء الاصطناعي المدربة على بياناتهم.

3. المسائل المفتوحة والتحديات

بينما تقدم داوس البيانات فوائد محتملة كبيرة، هناك عدة اعتبارات وتحديات مهمة يجب معالجتها.

تشويه الحوافز
درس رئيسي من تاريخ استخدام حوافز الرمز في عالم العملات المشفرة هو أن المكافآت الخارجية يمكن أن تغير سلوك المستخدم. وهذا ينطوي على آثار مباشرة على استخدام حوافز الرمز لجمع البيانات: قد تشوه الحوافز مجموعة المشاركين وأنواع البيانات التي يساهمون بها.

تتيح إدخال حوافز الرموز أيضًا احتمال استغلال المشاركين للنظام ، على سبيل المثال عن طريق تقديم بيانات ذات جودة منخفضة أو مفبركة لتعظيم دخلهم. هذا أمر حرج لأن نجاح بيانات DAO يعتمد على جودة البيانات. إذا اختلفت المساهمات عن الهدف المرغوب فيه ، يمكن التضحية بقيمة مجموعة البيانات.

(2) قياس ومكافأة البيانات

الفكرة المركزية ل Data DAOs هي مكافأة المساهمين على عمليات إرسال البيانات الخاصة بهم باستخدام الرموز المميزة ، والتي ستولد إيرادات ل DAO على المدى الطويل. ومع ذلك ، نظرا للطبيعة الذاتية لقيمة البيانات ، فإن تحديد المكافأة المناسبة لمساهمات البيانات المختلفة يمثل تحديا كبيرا. على سبيل المثال ، في سيناريو الاختراق البيولوجي: هل بيانات بعض المستخدمين أكثر قيمة من غيرها؟ إذا كان الأمر كذلك ، فما هي العوامل التي تحدد ذلك؟ بالنسبة لبيانات الخريطة: هل المعلومات الواردة من مناطق معينة أكثر قيمة من غيرها؟ كيف ينبغي قياس هذه الاختلافات؟ (البحث في قياس قيمة البيانات في الذكاء الاصطناعي من خلال تقييم المساهمة الإضافية للبيانات في أداء النموذج مستمر ولكن يمكن أن يكون مكثفا من الناحية الحسابية.)

علاوة على ذلك، من الضروري إقامة آليات قوية للتحقق من أصالة ودقة البيانات. بدون هذه الإجراءات، يمكن أن يكون النظام عرضة لتقديمات بيانات مزورة (مثل إنشاء حسابات مزيفة) أو هجمات سايبيل. تتعامل شبكات ديبين مع هذه المسألة من خلال دمج التحقق على مستوى جهاز الأجهزة، ولكن أنواع أخرى من داوات البيانات التي تعتمد على مساهمات المستخدم قد تكون أكثر عرضة للتلاعب.

(3) القيمة التزايدية للبيانات الجديدة
تم استغلال معظم الشبكات المفتوحة بالفعل لأغراض التدريب ، لذا يجب على مشغلي بيانات DAO أن ينظروا في ما إذا كانت مجموعات البيانات التي تم جمعها بطريقة لامركزية تضيف قيمة تزايدية حقًا للبيانات الموجودة على الشبكات المفتوحة ، وما إذا كان الباحثون يمكنهم الوصول إلى هذه البيانات من خلال المنصة أو من خلال وسائل أخرى. تؤكد هذه الفكرة على أهمية جمع بيانات جديدة تمامًا تتجاوز ما هو متاح حاليًا ، مما يؤدي إلى الاعتبار التالي: مدى التأثير وفرص الإيرادات.

(4) تقييم فرص الحصول على الإيرادات
أساسًا ، تقوم منصات البيانات ببناء سوق ثنائي الجانب يربط بين المشترين والمساهمين في البيانات. وبالتالي ، يعتمد نجاح منصة البيانات على قدرتها على جذب قاعدة زبائن مستقرة ومتنوعة مستعدة لدفع ثمن البيانات.

تحتاج DAOs البيانات إلى تحديد وتأكيد الطلب على بياناتها والتأكد من أن فرص الإيرادات كبيرة بما يكفي (سواء في المجموع أو لكل مساهم) لتحفيز كمية ونوعية البيانات اللازمة. على سبيل المثال ، تمت مناقشة مفهوم إنشاء DAO لبيانات المستخدم لتجميع التفضيلات الشخصية وبيانات التصفح لأغراض الدعاية لسنوات ، ولكن قد تكون العوائد المحتملة للمستخدمين ضئيلة. (للسياق ، كان متوسط العائد لكل مستخدم (ARPU) العالمي ل Meta 13.12 دولارا في نهاية عام 2023.) مع تخطيط شركات الذكاء الاصطناعي لاستثمار تريليونات الدولارات في التدريب ، قد تكون الأرباح المحتملة من البيانات كافية لتحفيز المساهمات واسعة النطاق ، مما يثير سؤالا مثيرا للاهتمام ل Data DAOs: "لماذا الآن؟"

4. تحطيم حائط البيانات

تقدم أنظمة Data DAOs حلولًا واعدة لإنشاء مجموعات بيانات جديدة وعالية الجودة وتحطيم الحاجز البياني الذي يواجه الذكاء الاصطناعي. على الرغم من أن الطرق الدقيقة لتحقيق هذا الهدف لم يتم تحديدها بعد ، إلا أننا متحمسون لمشاهدة كيفية تطور هذا المجال.

تنويه:

  1. تمت إعادة طبع هذه المقالة من [ جينسي فاينانس، وحقوق الطبع والنشر تعود للكاتب الأصلي [li jin]. إذا كان لديك أي اعتراضات على هذا النشر المعاد، يرجى التواصل مع فريق Gate Learn علىgatelearn@Gate.io.سيتعامل الفريق مع أي مخاوف على الفور وفقًا للإجراءات ذات الصلة.
  2. تنويه: الآراء المعبر عنها في هذه المقالة هي آراء المؤلف فقط ولا تشكل أي نصيحة استثمارية.
  3. تم ترجمة النسخ الأخرى من هذه المقالة من قبل فريق Gate Learn. دون الإشارة إلى ذلكجيت.اي.أو، قد لا يتم نسخ المقالات المترجمة أو توزيعها أو نسبها.
ابدأ التداول الآن
اشترك وتداول لتحصل على جوائز ذهبية بقيمة
100 دولار أمريكي
و
5500 دولارًا أمريكيًا
لتجربة الإدارة المالية الذهبية!