Впервые все доступные веб-тексты размечены по единой системе.
У всех, кто обучает ИИ, одна проблема - найти качественные данные в интернете.Причина — хаотичность веба: научные статьи перемешаны со спамом, код программ с рецептами, учебники с форумными срачами.
Стартап Essential AI, созданный экс-Google представил ESSENTIAL-WEB V1.0 - датасет, где каждый из 23.6 млрд документов размечен по 12 категориям: тема, тип, качество, сложность.
Essential AI решает проблему на системном уровне - вместо создания отдельных фильтров для каждой задачи, они создали универсальную систему координат для всего интернета.
Результат:
1. 24 трлн токенов с метаданными (крупнейший открытый датасет)
2. Поиск специализированных данных за минуты вместо месяцев
3. Качество на уровне или выше специализированных датасетов.
Всё в открытом доступе.