Компания представила HealthBench —открытый набор данных и оценочный инструмент, созданный для тестирования LLM на их способность обрабатывать медицинские диалоги. Он включает 5000 реалистичных медицинских разговоров, которые охватывают 26 медицинских специальностей, таких как нейрохирургия и офтальмология, и поддерживает 49 языков, включая ахмарский и непальский.
Эти разговоры моделируют реальные сценарии взаимодействия между пациентами и врачами, что делает бенчмарк уникальным в своей реалистичности и масштабе. Основная цель HealthBench — оценить, насколько точно и безопасно ИИ-модели могут отвечать на запросы, связанные со здоровьем. Каждый ответ модели оценивается по специально разработанным рубрикам, созданным врачами, которые учитывают клиническую точность, полноту и соответствие медицинским стандартам. Рубрики содержат 48 562 уникальных критерия, что позволяет проводить глубокую и детализированную оценку.
Запуск HealthBench вызвал интерес не только в медицинской и ИИ-сферах, но и в криптовалютном секторе. Некоторые аналитики предполагают, что стандартизация оценки медицинских ИИ-моделей может стимулировать спрос на блокчейн-решения в здравоохранении, особенно для управления медицинскими данными и обеспечения прозрачности. Несмотря на новаторский характер HealthBench, эксперты подчеркивают, что бенчмарк не является исчерпывающим. Реальная клиническая практика сложнее, чем смоделированные диалоги, и требует дополнительного тестирования в реальных условиях.
Некоторые эксперты выражают скептицизм относительно заявлений, что ИИ в 4 раза превосходит врачей, указывая на необходимость критической оценки таких утверждений.