Насколько безумна ваша любимая модель искусственного интеллекта?

При всей преобразующей и разрушительной силе, приписываемой развитию искусственного интеллекта, ахиллесовой пятой генеративного ИИ остается его склонность все выдумывать.

Тенденция Больших языковых моделей (LLM) к "галлюцинациям" сопряжена со всевозможными подводными камнями, сеющими семена дезинформации. Сфера обработки естественного языка (НЛП) может быть опасной, особенно когда люди не могут отличить то, что создано человеком, от того, что создано искусственным интеллектом.

“Эта инициатива направлена на то, чтобы помочь исследователям и инженерам в определении наиболее надежных моделей и потенциально способствовать развитию LLM в направлении более точной и достоверной генерации языков”, - пояснили разработчики таблицы лидеров.

Спектр галлюцинаций в LLM делится на две отдельные категории: достоверность. Фактические галлюцинации - это когда содержание противоречит проверяемым фактам реального мира. Примером такого несоответствия может быть модель, неточно заявляющая, что в Биткойне 100 миллионов токенов вместо всего лишь 23 миллионов. Достоверные галлюцинации, с другой стороны, возникают, когда сгенерированный контент отклоняется от явных инструкций пользователя или установленного контекста, что приводит к потенциальным неточностям в критических областях, таких как обобщение новостей или исторический анализ. На этом фронте модель генерирует фальшивую информацию, потому что кажется, что это наиболее логичный путь в соответствии с ее подсказкой.

Таблица лидеров использует инструмент оценки языковой модели EleutherAI для проведения тщательной оценки языковой модели с нулевым результатом и с небольшим количеством результатов в различных задачах. Эти задания предназначены для проверки того, насколько хорошо ведет себя модель. В общих чертах, каждый тест дает оценку, основанную на производительности LLM, затем эти результаты усредняются, так что каждая модель конкурирует на основе своей общей производительности во всех тестах.

Итак, какая архитектура LLM наименее безумна из всех?

Основываясь на предварительных результатах таблицы лидеров Hallucinations, модели, которые демонстрируют меньше галлюцинаций — и, следовательно, входят в число лучших, — включают Meow (на основе Solar), Stable Beluga от Stable AI и LlaMA-2 от Meta*. Однако некоторые модели, являющиеся частью общей базы (например, модели, основанные на Mistral LLMs), как правило, превосходят своих конкурентов в конкретных тестах, что необходимо учитывать в зависимости от характера вкуса, который может иметь в виду каждый пользователь.

В таблице лидеров Hallucinations более высокий средний балл модели указывает на меньшую склонность модели к галлюцинациям. Это означает, что модель более точна и надежна в создании контента, который соответствует фактической информации и соответствует вводимым пользователем данным или заданному контексту.

Однако важно отметить, что модели, которые отлично справляются с одними задачами, могут не вызывать восторга в других, поэтому рейтинг основан на среднем значении между всеми тестами, которые тестировали различные области, такие как обобщение, проверка фактов, понимание прочитанного и самосогласованность среди других.

Стоит отметить, что, хотя таблица лидеров Hallucinations предлагает всестороннюю оценку моделей с открытым исходным кодом, модели с закрытым исходным кодом еще не прошли такого тщательного тестирования. Однако, учитывая протокол тестирования и собственные ограничения коммерческих моделей, попадание в таблицу лидеров Hallucinations кажется маловероятным.

*Meta признана экстремисткой организацией в России

Вы здесь

Насколько безумна ваша любимая модель искусственного интеллекта?

Итак, какая архитектура LLM наименее безумна из всех?