Вы здесь

DeepSeek выпустили новую модель

Дата публикации:21.10.2025, 06:41

1358

Поделись с друзьями!

DeepSeek-OCR — это ИИ-модель, которая извлекает текст из документов, изображений и PDF-файлов. Главное отличие от привычных OCR-систем: модель не просто "читает" текст, а понимает структуру документа и может работать с разными форматами вывода.

Интересный концепт в статье — имитация человеческой памяти. Модель может сжимать старые части документа сильнее, чем новые, подобно тому, как мы помним недавние события детально, а далёкие — размыто.

Ключевые возможности:

1. Модель предлагает 6 режимов работы — от экономичного Tiny (64 визуальных токена) до мощного Gundam-M (1853 токена).

2. Обучена на 30 млн страниц документов на 100+ языках. Основной фокус — китайский и английский (25млн страниц), но работает и с другими языками.

Модель состоит из DeepEncoder и DeepSeek-3B-MoE декодер.

Инфраструктура:
- Python 3.12.9, CUDA 11.8, PyTorch 2.6.0
- Поддержка vLLM для высокопроизводительной обработки (~2500 токенов/сек на A100-40G для PDF)
- Доступна через Hugging Face Transformers.

Практические сценарии использования:

1. Обработка архивов

2. Автоматизация документооборота

3. Мультиязычная поддержка

4. Научные исследования — распознавание формул, таблиц, диаграмм из публикаций