Разбор барьеров данных ИИ: почему данные DAO сейчас критически важны

СреднийJul 14, 2024
Эта статья рассматривает текущие ограничения источников данных искусственного интеллекта и предполагает, что Data DAO могут предоставить новые, высококачественные наборы данных для развития моделей искусственного интеллекта. Data DAO могут улучшить обучение искусственного интеллекта реальными данными из реального мира, персональными данными о здоровье и обратной связью от людей, но они также сталкиваются с такими проблемами, как искажение стимулов, верификация данных и оценка выгод.
Разбор барьеров данных ИИ: почему данные DAO сейчас критически важны

Недавние значимые сделки по авторизации данных, такие как те, что были заключены между openai и news corp и reddit, подчеркивают необходимость качественных данных в области искусственного интеллекта. Ведущие модели искусственного интеллекта уже были обучены на значительной части интернета. Например, common crawl проиндексировал около 10% веб-страниц для обучения крупных языковых моделей, что включает более 100 триллионов токенов.

Для дальнейшего улучшения моделей искусственного интеллекта важно расширить и улучшить доступные для обучения данные. Мы обсуждали способы агрегации данных, особенно с использованием децентрализованных методов. Нас особенно интересует, как децентрализованные подходы могут помочь создавать новые наборы данных и предлагать экономические стимулы для участников и создателей.

В последние годы одной из горячих тем в мире криптовалют стал концепт данных DAO, которые представляют собой группы людей, создающие, организующие и управляющие данными. Хотя эту тему обсуждали Multicoin и другие, быстрое развитие искусственного интеллекта возникает новый вопрос: "почему сейчас подходящее время для данных DAO?"

В этой статье мы поделимся своими идеями о DAO данных, чтобы ответить на вопрос: как DAO данных могут ускорить развитие искусственного интеллекта?

1. текущее состояние данных в искусственном интеллекте

Сегодня модели искусственного интеллекта в основном обучаются на общедоступных данных, либо через партнерства с компаниями, такими как News Corp и Reddit, либо путем сбора данных из открытого интернета. Например, Llama 3 Meta обучалась на 15 триллионах токенов из общедоступных источников. Хотя эти методы эффективны для быстрого сбора больших объемов данных, у них есть ограничения в отношении того, какие типы данных собираются и как эти данные получаются.

первое, что касается того, какие данные следует собирать: развитие искусственного интеллекта затрудняется узкими местами в качестве и количестве данных. Леопольд Ашенбреннер обсуждал «стену данных», которая ограничивает дальнейшее улучшение алгоритмов: «скоро простой подход предварительного обучения более крупных языковых моделей на большем количестве скрапированных данных может столкнуться с серьезными узкими местами».

один из способов преодоления преграды данных - сделать новые наборы данных доступными. Например, компании-модели не могут собирать данные, защищенные входом, не нарушая условия обслуживания большинства веб-сайтов, и они не могут получить доступ к данным, которые еще не были собраны. В настоящее время существует огромное количество частных данных, к которым обучение ИИ не может получить доступ, таких как данные из Google Drive, Slack, записи о личном здоровье и другая личная информация.

Во-вторых, что касается сбора данных: в текущей модели большую часть стоимости получают компании, занимающиеся сбором данных. В документе S-1 reddit подчеркивает лицензирование данных как основной источник ожидаемого дохода: «Мы ожидаем, что наше растущее преимущество в области данных и интеллектуальная собственность останутся ключевыми элементами в будущем обучении с помощью llm». Однако конечные пользователи, создающие фактический контент, не получают экономических выгод от этих лицензионных соглашений или самих моделей искусственного интеллекта. Это несоответствие может от discourage участие - уже есть движения, направленные на подачу исков против компаний, занимающихся генерацией искусственного интеллекта, или отказ от обучающих наборов данных. Кроме того, концентрация доходов в руках компаний-моделей или платформ без их распределения с конечными пользователями имеет значительные социоэкономические последствия.

2. влияние DAO данных

проблемы, связанные с данными, упомянутые ранее, имеют общую тему: они получают существенные вклады от разнообразных и представительных выборок пользователей. хотя любая отдельная точка данных может иметь незначительное влияние на производительность модели, в целом большая группа пользователей может генерировать новые наборы данных, которые являются чрезвычайно ценными для обучения искусственного интеллекта. именно здесь на сцену выходят децентрализованные автономные организации данных (data daos). с помощью data daos поставщики данных могут получать экономические вознаграждения за предоставление данных и контролировать, как их данные используются и монетизируются.

В каких областях DAO данных могут оказать значительное влияние в текущем ландшафте данных? Вот несколько идей - это не исчерпывающий список, и у DAO данных определенно есть другие возможности:

(1) данные реального мира
в области децентрализованной физической инфраструктуры (ДПИ), сети, такие как Hivemapper, стремятся собирать последние глобальные картографические данные, поощряя владельцев видеорегистраторов делиться своими данными и побуждая пользователей предоставлять данные через их приложения (например, информацию о закрытии дорог или ремонте). ДПИ можно рассматривать как DAO реального мира, где наборы данных генерируются из аппаратных устройств и/или пользовательских сетей. Эти данные имеют коммерческую ценность для многих компаний, а участники получают вознаграждение в виде токенов.

(2) персональные данные о здоровье
Биохакинг - это социальное движение, в рамках которого отдельные люди и сообщества принимают подход "сделай сам" к изучению биологии, часто экспериментируя на себе. Например, кто-то может использовать различные ноотропные препараты для улучшения мозговой деятельности, пробовать различные методы лечения или изменения окружающей среды для улучшения сна, или даже вводить себе экспериментальные вещества.

Data daos can support these biohacking efforts by organizing participants around shared experiments and systematically collecting results. The income generated by these personal health daos, such as from research labs or pharmaceutical companies, can be returned to participants who contributed their personal health data.

(3) обучение с подкреплением с обратной связью от человека
Обучение с подкреплением с помощью обратной связи от человека (RLHF) предполагает использование ввода от человека для настройки моделей искусственного интеллекта и улучшения их производительности. Обычно обратная связь поступает от экспертов в конкретных областях, которые могут эффективно оценить результаты модели. Например, исследовательская лаборатория может обратиться за помощью к доктору наук по математике, чтобы улучшить математические возможности своего искусственного интеллекта. Награды в виде токенов могут привлечь и поощрить участие экспертов, предлагая спекулятивную ценность и глобальный доступ через платежные системы на основе криптовалюты. Компании, такие как Sapien, Fraction и Sahara, активно работают в этой области.

(4) частные данные
поскольку общедоступные данные для обучения искусственного интеллекта становятся все более редкими, фокус может переключиться на собственные наборы данных, включая личные пользовательские данные. За стенами авторизации скрывается масса качественных данных, которые остаются недоступными, такие как личные сообщения и документы. Эти данные могут быть очень эффективными для обучения персонализированного искусственного интеллекта и содержат ценную информацию, которую нельзя найти в публичном интернете.

Доступ и использование этими данными представляют значительные юридические и этические проблемы. Data DAO могут предложить решение, позволяя желающим участникам загружать и монетизировать свои данные, управляя их использованием. Например, Reddit Data DAO может позволить пользователям загружать свои экспортированные данные Reddit, включая комментарии, сообщения и историю голосования, которые могут быть проданы или арендованы компаниям AI в режиме защиты конфиденциальности. Бонусы за токены позволяют пользователям зарабатывать не только от одноразовой транзакции, но и от непрерывной стоимости, создаваемой моделями AI, обученными на их данных.

3. открытые вопросы и вызовы

хотя data daos предлагают значительные потенциальные преимущества, существуют несколько важных вопросов и проблем, которые необходимо решить.

(1) искажение стимулов
важный урок из истории использования токенов в криптовалюте заключается в том, что внешние поощрения могут изменить поведение пользователя. это непосредственно влияет на использование токенов для сбора данных: поощрения могут исказить участников и типы данных, которые они предоставляют.

Введение стимулов токенов также открывает возможность для участников эксплуатировать систему, например, путем представления низкокачественных или поддельных данных для максимизации своего дохода. Это критично, потому что успех данных DAO зависит от качества данных. Если вклады отклоняются от желаемой цели, то ценность набора данных может быть скомпрометирована.

(2) измерение и вознаграждение данных

Центральная идея данных DAO заключается в вознаграждении участников за их представление данных токенами, что в долгосрочной перспективе принесет доход DAO. Однако из-за субъективной природы ценности данных установление соответствующей награды за различные вклады данных представляет собой чрезвычайно сложную задачу. Например, в сценарии биохакинга: являются ли данные некоторых пользователей более ценными, чем у других? Если да, то какие факторы определяют это? Для картографических данных: является ли информация из определенных областей более ценной, чем из других? Как следует оценивать эти различия? (Исследование измерения ценности данных в искусственном интеллекте путем оценки прироста вклада данных в производительность модели продолжается, но может потреблять много вычислительных ресурсов.)

Кроме того, важно создать надежные механизмы для проверки подлинности и точности данных. Без таких мер система может быть уязвимой для мошеннических подач данных (например, создание фейковых аккаунтов) или сибил-атак. Сети Depin решают эту проблему, интегрируя проверку на уровне аппаратного устройства, но другие типы данных DAO, полагающиеся на вклады пользователей, могут быть более подвержены манипуляциям.

(3) инкрементальная стоимость новых данных
Большинство открытых сетей уже были использованы для обучения, поэтому операторам data dao необходимо рассмотреть, добавляют ли собранные в децентрализованном порядке наборы данных действительно инкрементальную ценность к существующим данным на открытых сетях, и могут ли исследователи получить доступ к этим данным с платформы или другими способами. Эта идея подчеркивает важность сбора совершенно новых данных, превосходящих то, что в настоящее время доступно, что приводит к следующему соображению: масштаб влияния и возможности по доходам.

(4) оценка возможностей по генерации дохода
Фундаментально, Data DAO создают двустороннюю площадку, связывающую покупателей данных с поставщиками данных. Поэтому успех Data DAO зависит от его способности привлечь стабильную и разнообразную клиентскую базу, готовую платить за данные.

DAO-организации по обработке данных должны определить и подтвердить спрос на свои данные, а также убедиться в том, что возможности для получения дохода достаточно значительны (в общей сложности или на каждого участника), чтобы стимулировать необходимое количество и качество данных. Например, концепция создания DAO-организации по данным пользователя для агрегации личных предпочтений и данных о просмотре в целях рекламы обсуждается уже много лет, но потенциальный доход для пользователей может быть минимальным. (Для справки, глобальный ARPU Meta составлял 13,12 долларов США к концу 2023 года). С учетом того, что компании по искусственному интеллекту планируют вложить триллионы долларов в обучение, потенциальная прибыль от данных может быть достаточной для стимулирования масштабных вкладов, что вызывает интересный вопрос для DAO-организаций по данным: "почему сейчас?"

4. прорыв через стену данных

Data DAOs предлагают многообещающее решение для создания новых качественных наборов данных и преодоления стенки данных, которая ставит под сомнение искусственный интеллект. Хотя точные методы достижения этой цели еще предстоит определить, мы с нетерпением ждем развития этой области.

отказ от ответственности:

  1. Эта статья перепечатана с [Финансы Jinse], и авторское право принадлежит оригинальному автору [ли цзинь]. Если у вас есть какие-либо возражения к этой перепечатке, пожалуйста, свяжитесь с командой Gate Learn по адресуgatelearn@Gate.io.команда незамедлительно рассмотрит все вопросы в соответствии с соответствующими процедурами.
  2. отказ от ответственности: мнения и взгляды, выраженные в этой статье, принадлежат только автору и не являются инвестиционными советами.
  3. другие языковые версии этой статьи были переведены командой Gate Learn без упоминанияGate.ioПереведенные статьи не могут быть скопированы, распространены или украдены.

Разбор барьеров данных ИИ: почему данные DAO сейчас критически важны

СреднийJul 14, 2024
Эта статья рассматривает текущие ограничения источников данных искусственного интеллекта и предполагает, что Data DAO могут предоставить новые, высококачественные наборы данных для развития моделей искусственного интеллекта. Data DAO могут улучшить обучение искусственного интеллекта реальными данными из реального мира, персональными данными о здоровье и обратной связью от людей, но они также сталкиваются с такими проблемами, как искажение стимулов, верификация данных и оценка выгод.
Разбор барьеров данных ИИ: почему данные DAO сейчас критически важны

Недавние значимые сделки по авторизации данных, такие как те, что были заключены между openai и news corp и reddit, подчеркивают необходимость качественных данных в области искусственного интеллекта. Ведущие модели искусственного интеллекта уже были обучены на значительной части интернета. Например, common crawl проиндексировал около 10% веб-страниц для обучения крупных языковых моделей, что включает более 100 триллионов токенов.

Для дальнейшего улучшения моделей искусственного интеллекта важно расширить и улучшить доступные для обучения данные. Мы обсуждали способы агрегации данных, особенно с использованием децентрализованных методов. Нас особенно интересует, как децентрализованные подходы могут помочь создавать новые наборы данных и предлагать экономические стимулы для участников и создателей.

В последние годы одной из горячих тем в мире криптовалют стал концепт данных DAO, которые представляют собой группы людей, создающие, организующие и управляющие данными. Хотя эту тему обсуждали Multicoin и другие, быстрое развитие искусственного интеллекта возникает новый вопрос: "почему сейчас подходящее время для данных DAO?"

В этой статье мы поделимся своими идеями о DAO данных, чтобы ответить на вопрос: как DAO данных могут ускорить развитие искусственного интеллекта?

1. текущее состояние данных в искусственном интеллекте

Сегодня модели искусственного интеллекта в основном обучаются на общедоступных данных, либо через партнерства с компаниями, такими как News Corp и Reddit, либо путем сбора данных из открытого интернета. Например, Llama 3 Meta обучалась на 15 триллионах токенов из общедоступных источников. Хотя эти методы эффективны для быстрого сбора больших объемов данных, у них есть ограничения в отношении того, какие типы данных собираются и как эти данные получаются.

первое, что касается того, какие данные следует собирать: развитие искусственного интеллекта затрудняется узкими местами в качестве и количестве данных. Леопольд Ашенбреннер обсуждал «стену данных», которая ограничивает дальнейшее улучшение алгоритмов: «скоро простой подход предварительного обучения более крупных языковых моделей на большем количестве скрапированных данных может столкнуться с серьезными узкими местами».

один из способов преодоления преграды данных - сделать новые наборы данных доступными. Например, компании-модели не могут собирать данные, защищенные входом, не нарушая условия обслуживания большинства веб-сайтов, и они не могут получить доступ к данным, которые еще не были собраны. В настоящее время существует огромное количество частных данных, к которым обучение ИИ не может получить доступ, таких как данные из Google Drive, Slack, записи о личном здоровье и другая личная информация.

Во-вторых, что касается сбора данных: в текущей модели большую часть стоимости получают компании, занимающиеся сбором данных. В документе S-1 reddit подчеркивает лицензирование данных как основной источник ожидаемого дохода: «Мы ожидаем, что наше растущее преимущество в области данных и интеллектуальная собственность останутся ключевыми элементами в будущем обучении с помощью llm». Однако конечные пользователи, создающие фактический контент, не получают экономических выгод от этих лицензионных соглашений или самих моделей искусственного интеллекта. Это несоответствие может от discourage участие - уже есть движения, направленные на подачу исков против компаний, занимающихся генерацией искусственного интеллекта, или отказ от обучающих наборов данных. Кроме того, концентрация доходов в руках компаний-моделей или платформ без их распределения с конечными пользователями имеет значительные социоэкономические последствия.

2. влияние DAO данных

проблемы, связанные с данными, упомянутые ранее, имеют общую тему: они получают существенные вклады от разнообразных и представительных выборок пользователей. хотя любая отдельная точка данных может иметь незначительное влияние на производительность модели, в целом большая группа пользователей может генерировать новые наборы данных, которые являются чрезвычайно ценными для обучения искусственного интеллекта. именно здесь на сцену выходят децентрализованные автономные организации данных (data daos). с помощью data daos поставщики данных могут получать экономические вознаграждения за предоставление данных и контролировать, как их данные используются и монетизируются.

В каких областях DAO данных могут оказать значительное влияние в текущем ландшафте данных? Вот несколько идей - это не исчерпывающий список, и у DAO данных определенно есть другие возможности:

(1) данные реального мира
в области децентрализованной физической инфраструктуры (ДПИ), сети, такие как Hivemapper, стремятся собирать последние глобальные картографические данные, поощряя владельцев видеорегистраторов делиться своими данными и побуждая пользователей предоставлять данные через их приложения (например, информацию о закрытии дорог или ремонте). ДПИ можно рассматривать как DAO реального мира, где наборы данных генерируются из аппаратных устройств и/или пользовательских сетей. Эти данные имеют коммерческую ценность для многих компаний, а участники получают вознаграждение в виде токенов.

(2) персональные данные о здоровье
Биохакинг - это социальное движение, в рамках которого отдельные люди и сообщества принимают подход "сделай сам" к изучению биологии, часто экспериментируя на себе. Например, кто-то может использовать различные ноотропные препараты для улучшения мозговой деятельности, пробовать различные методы лечения или изменения окружающей среды для улучшения сна, или даже вводить себе экспериментальные вещества.

Data daos can support these biohacking efforts by organizing participants around shared experiments and systematically collecting results. The income generated by these personal health daos, such as from research labs or pharmaceutical companies, can be returned to participants who contributed their personal health data.

(3) обучение с подкреплением с обратной связью от человека
Обучение с подкреплением с помощью обратной связи от человека (RLHF) предполагает использование ввода от человека для настройки моделей искусственного интеллекта и улучшения их производительности. Обычно обратная связь поступает от экспертов в конкретных областях, которые могут эффективно оценить результаты модели. Например, исследовательская лаборатория может обратиться за помощью к доктору наук по математике, чтобы улучшить математические возможности своего искусственного интеллекта. Награды в виде токенов могут привлечь и поощрить участие экспертов, предлагая спекулятивную ценность и глобальный доступ через платежные системы на основе криптовалюты. Компании, такие как Sapien, Fraction и Sahara, активно работают в этой области.

(4) частные данные
поскольку общедоступные данные для обучения искусственного интеллекта становятся все более редкими, фокус может переключиться на собственные наборы данных, включая личные пользовательские данные. За стенами авторизации скрывается масса качественных данных, которые остаются недоступными, такие как личные сообщения и документы. Эти данные могут быть очень эффективными для обучения персонализированного искусственного интеллекта и содержат ценную информацию, которую нельзя найти в публичном интернете.

Доступ и использование этими данными представляют значительные юридические и этические проблемы. Data DAO могут предложить решение, позволяя желающим участникам загружать и монетизировать свои данные, управляя их использованием. Например, Reddit Data DAO может позволить пользователям загружать свои экспортированные данные Reddit, включая комментарии, сообщения и историю голосования, которые могут быть проданы или арендованы компаниям AI в режиме защиты конфиденциальности. Бонусы за токены позволяют пользователям зарабатывать не только от одноразовой транзакции, но и от непрерывной стоимости, создаваемой моделями AI, обученными на их данных.

3. открытые вопросы и вызовы

хотя data daos предлагают значительные потенциальные преимущества, существуют несколько важных вопросов и проблем, которые необходимо решить.

(1) искажение стимулов
важный урок из истории использования токенов в криптовалюте заключается в том, что внешние поощрения могут изменить поведение пользователя. это непосредственно влияет на использование токенов для сбора данных: поощрения могут исказить участников и типы данных, которые они предоставляют.

Введение стимулов токенов также открывает возможность для участников эксплуатировать систему, например, путем представления низкокачественных или поддельных данных для максимизации своего дохода. Это критично, потому что успех данных DAO зависит от качества данных. Если вклады отклоняются от желаемой цели, то ценность набора данных может быть скомпрометирована.

(2) измерение и вознаграждение данных

Центральная идея данных DAO заключается в вознаграждении участников за их представление данных токенами, что в долгосрочной перспективе принесет доход DAO. Однако из-за субъективной природы ценности данных установление соответствующей награды за различные вклады данных представляет собой чрезвычайно сложную задачу. Например, в сценарии биохакинга: являются ли данные некоторых пользователей более ценными, чем у других? Если да, то какие факторы определяют это? Для картографических данных: является ли информация из определенных областей более ценной, чем из других? Как следует оценивать эти различия? (Исследование измерения ценности данных в искусственном интеллекте путем оценки прироста вклада данных в производительность модели продолжается, но может потреблять много вычислительных ресурсов.)

Кроме того, важно создать надежные механизмы для проверки подлинности и точности данных. Без таких мер система может быть уязвимой для мошеннических подач данных (например, создание фейковых аккаунтов) или сибил-атак. Сети Depin решают эту проблему, интегрируя проверку на уровне аппаратного устройства, но другие типы данных DAO, полагающиеся на вклады пользователей, могут быть более подвержены манипуляциям.

(3) инкрементальная стоимость новых данных
Большинство открытых сетей уже были использованы для обучения, поэтому операторам data dao необходимо рассмотреть, добавляют ли собранные в децентрализованном порядке наборы данных действительно инкрементальную ценность к существующим данным на открытых сетях, и могут ли исследователи получить доступ к этим данным с платформы или другими способами. Эта идея подчеркивает важность сбора совершенно новых данных, превосходящих то, что в настоящее время доступно, что приводит к следующему соображению: масштаб влияния и возможности по доходам.

(4) оценка возможностей по генерации дохода
Фундаментально, Data DAO создают двустороннюю площадку, связывающую покупателей данных с поставщиками данных. Поэтому успех Data DAO зависит от его способности привлечь стабильную и разнообразную клиентскую базу, готовую платить за данные.

DAO-организации по обработке данных должны определить и подтвердить спрос на свои данные, а также убедиться в том, что возможности для получения дохода достаточно значительны (в общей сложности или на каждого участника), чтобы стимулировать необходимое количество и качество данных. Например, концепция создания DAO-организации по данным пользователя для агрегации личных предпочтений и данных о просмотре в целях рекламы обсуждается уже много лет, но потенциальный доход для пользователей может быть минимальным. (Для справки, глобальный ARPU Meta составлял 13,12 долларов США к концу 2023 года). С учетом того, что компании по искусственному интеллекту планируют вложить триллионы долларов в обучение, потенциальная прибыль от данных может быть достаточной для стимулирования масштабных вкладов, что вызывает интересный вопрос для DAO-организаций по данным: "почему сейчас?"

4. прорыв через стену данных

Data DAOs предлагают многообещающее решение для создания новых качественных наборов данных и преодоления стенки данных, которая ставит под сомнение искусственный интеллект. Хотя точные методы достижения этой цели еще предстоит определить, мы с нетерпением ждем развития этой области.

отказ от ответственности:

  1. Эта статья перепечатана с [Финансы Jinse], и авторское право принадлежит оригинальному автору [ли цзинь]. Если у вас есть какие-либо возражения к этой перепечатке, пожалуйста, свяжитесь с командой Gate Learn по адресуgatelearn@Gate.io.команда незамедлительно рассмотрит все вопросы в соответствии с соответствующими процедурами.
  2. отказ от ответственности: мнения и взгляды, выраженные в этой статье, принадлежат только автору и не являются инвестиционными советами.
  3. другие языковые версии этой статьи были переведены командой Gate Learn без упоминанияGate.ioПереведенные статьи не могут быть скопированы, распространены или украдены.
Начните торговать сейчас
Зарегистрируйтесь сейчас и получите ваучер на
$100
!