Несмотря на прогнозы масштабного роста, инновации в области ИИ не будут актуальны, если они будут продолжать использовать модели обучения, основанные на некачественных данных.
Помимо улучшения стандартов обработки данных, модели ИИ требуют вмешательства человека для понимания контекста и критического мышления, чтобы обеспечить этичную разработку ИИ и формирование правильных выходных данных.
У ИИ есть проблема с «плохими данными»
Люди обладают тонким пониманием нюансов. Они опираются на свой опыт, чтобы делать выводы и принимать логические решения. Однако модели ИИ хороши ровно настолько, насколько хороши обучающие их данные.
Точность модели ИИ зависит не от технической сложности базовых алгоритмов или объема обрабатываемых данных, а от достоверных и высококачественных данных, которые получены в ходе обучения и аналитических тестов производительности.
Неверные данные имеют множество последствий для обучения моделей ИИ: они генерируют предвзятые результаты и галлюцинации из-за ошибочной логики, что приводит к потере времени на переподготовку моделей ИИ, чтобы отучить их от вредных привычек, тем самым увеличивая затраты компании.
Предвзятые и статистически слабые данные непропорционально усиливают недостатки и искажают результаты в системах искусственного интеллекта, особенно в сфере здравоохранения и наблюдения за безопасностью.
Например, в отчете проекта Innocence Project перечислены многочисленные случаи ошибочной идентификации, а бывший начальник полиции Детройта признал, что использование исключительно искусственного интеллекта для распознавания лиц привело бы к ошибочной идентификации в 96% случаев. Более того, согласно отчету Гарвардской медицинской школы, модель искусственного интеллекта, используемая в системах здравоохранения США, отдавала предпочтение более здоровым белым пациентам, а не более больным чернокожим.
Модели ИИ основаны на концепции «Мусор на входе, мусор на выходе» (GIGO), поскольку некорректные и предвзятые входные данные, или «мусор», генерируют некачественные выходные данные. Некорректные входные данные создают операционную неэффективность, поскольку проектные команды сталкиваются с более высокими затратами и задержками на очистку наборов данных перед возобновлением обучения модели.
Помимо своего операционного эффекта, модели искусственного интеллекта, обученные на некачественных данных, подрывают доверие компаний к их внедрению, нанося непоправимый репутационный ущерб. Согласно исследованию, частота галлюцинаций в GPT-3.5 составила 39,6%, что подчеркивает необходимость дополнительной проверки исследователями.
Такой репутационный ущерб имеет далеко идущие последствия, поскольку становится трудно привлекать инвестиции и влияет на позиционирование модели на рынке. На саммите сети IT-директоров 21% ведущих IT-руководителей Америки заявили, что отсутствие надежности является самой насущной причиной отказа от использования искусственного интеллекта.
Недостаточные данные для обучения моделей ИИ обесценивают проекты и приводят к огромным экономическим потерям для компаний. В среднем неполные и некачественные данные для обучения ИИ приводят к неправильному принятию решений, что обходится компаниям в 6% их годового дохода.
Некачественные обучающие данные влияют на инновации ИИ и обучение моделей, поэтому необходим поиск альтернативных решений.
Проблема с некачественными данными вынудила компании, занимающиеся ИИ, перенаправить ученых на подготовку данных. Почти 67% специалистов по обработке данных тратят свое время на подготовку правильных наборов данных, чтобы предотвратить распространение дезинформации с помощью моделей ИИ.
Модели ИИ с трудом могут соответствовать требованиям, предъявляемым к результатам, если над их доработкой не будут работать специалисты - реальные люди с надлежащей квалификацией. Это демонстрирует необходимость того, чтобы эксперты руководили разработкой ИИ, обеспечивая высококачественные данные для обучения моделей ИИ.
Данные о человеческих возможностях являются ключевыми
Илон Маск недавно сказал:
«Совокупный объем человеческих знаний был исчерпан при обучении ИИ».
Ничто не может быть дальше от истины, поскольку данные о человеческих возможностях являются ключом к созданию более сильных, надежных и объективных моделей ИИ.
Отказ Маска от человеческих знаний - это призыв использовать искусственно созданные синтетические данные для точной настройки модели обучения ИИ. Однако, синтетическим данным не хватает опыта работы в реальном мире, и исторически они не позволяли выносить этические суждения.
Опыт людей обеспечивает тщательный анализ и валидацию данных для поддержания согласованности, точности и надежности модели искусственного интеллекта. Люди оценивают и интерпретируют выходные данные модели, чтобы выявить предубеждения или ошибки и убедиться в том, что они соответствуют общественным ценностям и этическим стандартам.
Более того, человеческий интеллект открывает уникальные возможности при подготовке данных, привнося контекстуальные ссылки, здравый смысл и логические рассуждения в интерпретацию данных. Это помогает устранять неоднозначные результаты, понимать нюансы и решать задачи для обучения моделей искусственного интеллекта высокой сложности.
Симбиотические отношения между искусственным и человеческим интеллектом имеют решающее значение для использования потенциала ИИ как преобразующей технологии, не причиняя вреда обществу. Совместный подход человека и машины помогает раскрыть человеческую интуицию и творческий потенциал для создания новых алгоритмов и архитектур ИИ на благо общества.
Децентрализованные сети могли бы стать недостающим звеном для окончательного укрепления этих отношений в глобальном масштабе.
Компании теряют время и ресурсы, когда у них слабые модели искусственного интеллекта, которые требуют постоянной доработки со стороны специалистов по обработке данных и инженеров. Используя децентрализованное вмешательство человека, компании могут сократить расходы и повысить эффективность, распределив процесс оценки по глобальной сети инструкторов и участников по обработке данных.
Децентрализованное обучение с подкреплением на основе обратной связи с людьми (RLHF) превращает обучение моделям искусственного интеллекта в совместное предприятие. Обычные пользователи и специалисты в предметной области могут участвовать в обучении и получать финансовые стимулы за точную аннотацию, маркировку, классификацию и сегментацию по категориям.
Децентрализованный механизм, основанный на блокчейне, автоматизирует выплату вознаграждения, поскольку участники получают вознаграждение, основанное на количественных улучшениях модели искусственного интеллекта, а не на жестких квотах или контрольных показателях. Кроме того, децентрализованный RLHF демократизирует данные и обучение моделям, привлекая людей из разных слоев общества, уменьшая структурные перекосы и повышая общий интеллект.
Согласно опросу Gartner, к 2026 году компании откажутся от более чем 60% проектов в области искусственного интеллекта из-за отсутствия данных, готовых к использованию искусственного интеллекта. Таким образом, способности и компетентность людей имеют решающее значение для подготовки данных для обучения ИИ, если к 2030 году отрасль планирует внести в мировую экономику 15,7 трлн долларов.
Инфраструктура данных для обучения моделям ИИ требует постоянного совершенствования на основе новых данных и вариантов использования. Люди могут обеспечить, чтобы организации поддерживали базу данных, готовую к использованию искусственного интеллекта, благодаря постоянному управлению метаданными, наблюдаемости и управляемости.
Без контроля со стороны человека предприятия не справятся с огромным объемом данных, которые хранятся в облачных и оффшорных хранилищах данных. Компании должны использовать подход «человек в курсе» для точной настройки наборов данных для создания высококачественных, эффективных и актуальных моделей искусственного интеллекта.
Об авторе
Роуэн Стоун - генеральный директор Sapien. Роуэн Стоун был одним из создателей Base, сети Coinbase уровня 2, главным операционным директором Totle (приобретенной Coinbase) и соучредителем Horizon Labs и Launch Code Capital.
Эта статья предназначена для общего ознакомления и не должна восприниматься как юридическая консультация или инвестиционный совет. Взгляды, мысли и суждения, выраженные в этой статье, принадлежат только автору.