Вчера федеральный судья США постановил, что Anthropic может обучать Claude на купленных книгах без разрешения авторов.
Anthropic скачала более 7 млн пиратских копий книг с нелегальных сайтов (Books3, LibGen, PiLiMi), включая произведения истцов.
Позже компания также купила миллионы печатных книг, отсканировала каждую страницу и создала цифровые копии. Для этого она даже наняла бывшего сотрудника Google, который специализируется на этой работе.
Судья решил:
1. Использование книг для обучения языковых моделей подпадает под добросовестное использование.
2. Нет карт-бланша на пиратство под предлогом ИИ-разработки.
3. Признал обучение LLM чрезвычайно трансформативным использованием, сравнив его с тем, как люди учатся читать и писать. Это создает сильный прецедент для будущих дел.
Почему Anthropic выиграла? Авторы не смогли доказать, что Claude копирует их тексты в выходных данных. Истцы выступили с исками только в отношении процесса обучения, что оказалось недостаточно.
Какие последствия этого решения?
1. Для Anthropic и других:
- Могут продолжать обучение на купленном контенте
- Должны удалить пиратские копии или заплатить штрафы
- Вероятно, увеличат закупки легального контента.
2. Для стартапов в ИИ:
- Повышается барьер входа (нужны деньги на контент)
- Но четкие правила игры лучше неопределенности.
3. Для крупных ИТ-гигантов:
- Их преимущество в капитале становится важнее
- Могут позволить себе массовые закупки контента
Это решение может привести к:
1. Развитию новых бизнес-моделей для лицензирования контента
2. Созданию специализированных датасетов для обучения ИИ
3. Возможному законодательному вмешательству для уточнения правил.
Слабые места решения:
Неясность границ: Что если компания купит книги, обучит модель и вернет их?
Международный аспект: Как это работает с контентом из других юрисдикций?
Будущие технологии: Применимо ли это к другим типам ИИ?