BTC 102992$
ETH 3361.12$
Tether (USDT) 1$
Toncoin (TON) 1.93$
telegram vk
telegram vk Х
Russian English
Высокодоходный майнинг бизнес
"

Команда Джеффа Дина,Google, создала ИИ,который сам учится определять ценность данных для обучения LLM

Дата публикации:05.11.2025, 15:16
83
83
Поделись с друзьями!

Исследователи Google DeepMind представили DataRater — первую практическую систему автоматической фильтрации данных для обучения языковых моделей, основанную на мета-обучении. В отличие от традиционных подходов, где данные отбираются по заранее заданным правилам или вручную, DataRater оценивает ценность каждого фрагмента данных, используя мета-обучение для оптимизации эффективности обучения.

Система работает по принципу «мета-градиентов»: она обучается на том, какие данные действительно полезны для достижения лучших результатов на контрольных наборах. Вместо того чтобы полагаться на ручные эвристики или фильтры, DataRater автоматически определяет, какие фрагменты текста стоит оставить, а какие — отбросить. Это позволяет значительно повысить качество обучающих данных и сократить вычислительные затраты на обучение моделей.

В ходе масштабных экспериментов DataRater продемонстрировала высокую эффективность на реальных датасетах, включая The Pile, C4 и C4/noclean. Фильтрация с помощью DataRater позволила сократить количество необходимых вычислений на 46,6% для моделей с низкокачественными данными, при этом сохраняя или даже улучшая итоговую производительность. Важно, что система показала устойчивость к разным масштабам моделей — от 50 миллионов до 1 миллиарда параметров.

Особую перспективу DataRater открывает для работы с синтетическими данными, которые могут генерироваться в неограниченных объёмах, но часто страдают от низкого качества, избыточности и смещений. В таких условиях автоматическая оценка ценности данных становится критически важной. DataRater позволяет эффективно отбирать наиболее полезные фрагменты, адаптируясь к изменяющимся условиям и требованиям.

Разработчики отмечают, что DataRater — это первый успешный пример применения мета-обучения для курации данных на масштабах современных LLM. Это открывает путь к более гибким и эффективным системам обучения, способным адаптироваться к новым вызовам и типам данных. В будущем подобные подходы могут стать стандартом для подготовки обучающих наборов, особенно в условиях роста синтетических данных и усложнения задач машинного обучения.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24