BTC 104965$
ETH 2536.31$
Tether (USDT) 1$
Toncoin (TON) 2.92$
telegram vk
telegram vk Х
Russian English
"

Essential AI создали крупнейший размеченный датасет для обучения ИИ

Дата публикации:19.06.2025, 06:14
106
106
Поделись с друзьями!

Впервые все доступные веб-тексты размечены по единой системе.

У всех, кто обучает ИИ, одна проблема - найти качественные данные в интернете.Причина — хаотичность веба: научные статьи перемешаны со спамом, код программ с рецептами, учебники с форумными срачами.

Стартап Essential AI, созданный экс-Google представил ESSENTIAL-WEB V1.0 - датасет, где каждый из 23.6 млрд документов размечен по 12 категориям: тема, тип, качество, сложность.

Essential AI решает проблему на системном уровне - вместо создания отдельных фильтров для каждой задачи, они создали универсальную систему координат для всего интернета.

Результат:

1. 24 трлн токенов с метаданными (крупнейший открытый датасет)
2. Поиск специализированных данных за минуты вместо месяцев
3. Качество на уровне или выше специализированных датасетов.

Всё в открытом доступе.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24