ChatGPT хороший врач, но плохой программист

В гонке за развитием продвинутого искусственного интеллекта не все большие языковые модели созданы равными. Два новых исследования выявили поразительные различия в возможностях популярных систем, таких как ChatGPT, при тестировании в сложных реальных задачах.

По словам исследователей из Университета Пердью, ChatGPT борется даже с базовыми проблемами кодирования. Команда оценила ответы ChatGPT на более чем 500 вопросов в Stack Overflow, онлайн-сообществе разработчиков и программистов, по таким темам, как отладка и использование API.

"Наш анализ показывает, что 52% ответов, сгенерированных ChatGPT, неверны, а 77% - подробны", - написали исследователи. "Тем не менее, ответы ChatGPT по-прежнему предпочтительнее в 39,34% случаев из-за их полноты и хорошо сформулированного языкового стиля".

Исследование, проведенное Калифорнийским университетом в Лос-Анджелесе и Университетом Пеппердайн в Малибу, напротив, демонстрирует мастерство ChatGPT в ответе на сложные вопросы медицинского осмотра. Отвечая на более чем 850 вопросов с несколькими вариантами ответов по нефрологии, продвинутой специальности в области внутренних болезней, ChatGPT набрал 73% баллов — аналогично показателю прохождения среди ординаторов-медиков.

Как объяснили исследователи UCLA, "Не отрицая важности вычислительной мощности конкретных LLM, отсутствие свободного доступа к учебным материалам, которые в настоящее время не являются общественным достоянием, вероятно, останется одним из препятствий для достижения дальнейшего повышения производительности в обозримом будущем".

Проблемы ChatGPT с кодированием согласуются с другими оценками. Как ранее сообщал Decrypt, исследователи из Стэнфорда и Калифорнийского университета в Беркли обнаружили, что математические навыки ChatGPT и визуальное мышление резко снизились в период с марта по июнь 2022 года. Хотя изначально он разбирался в простых числах и головоломках, к лету он набрал всего 2% по ключевым показателям.

Итак, хотя ChatGPT может играть в доктора, ему еще многому предстоит научиться, прежде чем стать первоклассным программистом. Но это недалеко от реальности, в конце концов, сколько вы знаете врачей, которые также являются опытными хакерами?

"Продемонстрированная в настоящее время превосходная способность GPT-4 точно отвечать на вопросы с несколькими вариантами ответов в нефрологии указывает на полезность аналогичных и более мощных моделей искусственного интеллекта в будущих медицинских приложениях", - заключила команда UCLA.

Клод Ай из Anthropic стал вторым лучшим магистром права с 54,4% правильных ответов. Команда оценила другие LLM с открытым исходным кодом, но они оказались далеки от приемлемых, лучший результат - 25,5%, достигнутый Vicuna.

Так почему ChatGPT преуспевает в медицине, но терпит неудачу в программировании? Модели машинного обучения имеют разные сильные стороны, отмечает ученый-компьютерщик MIT Лекс Фридман. Клод, модель, лежащая в основе медицинских знаний ChatGPT, получила дополнительные запатентованные учебные данные от своего производителя Anthropic. ChatGPT OpenAI опирался только на общедоступные данные. Модели искусственного интеллекта при правильном обучении работе с огромными объемами данных достигают больших результатов, даже лучше, чем большинство других моделей.

Однако искусственный интеллект не сможет действовать должным образом вне параметров, на которых он был обучен, поэтому он будет пытаться создавать контент без предварительного знания о нем, что приводит к тому, что известно как галлюцинации. Если набор данных модели искусственного интеллекта не включает определенный контент, он не сможет дать хороших результатов в этой области.

Вы здесь

ChatGPT хороший врач, но плохой программист