DeepSeek-OCR — это ИИ-модель, которая извлекает текст из документов, изображений и PDF-файлов. Главное отличие от привычных OCR-систем: модель не просто "читает" текст, а понимает структуру документа и может работать с разными форматами вывода.
Интересный концепт в статье — имитация человеческой памяти. Модель может сжимать старые части документа сильнее, чем новые, подобно тому, как мы помним недавние события детально, а далёкие — размыто.
Ключевые возможности:
1. Модель предлагает 6 режимов работы — от экономичного Tiny (64 визуальных токена) до мощного Gundam-M (1853 токена).
2. Обучена на 30 млн страниц документов на 100+ языках. Основной фокус — китайский и английский (25млн страниц), но работает и с другими языками.
Модель состоит из DeepEncoder и DeepSeek-3B-MoE декодер.
Инфраструктура:
- Python 3.12.9, CUDA 11.8, PyTorch 2.6.0
- Поддержка vLLM для высокопроизводительной обработки (~2500 токенов/сек на A100-40G для PDF)
- Доступна через Hugging Face Transformers.
Практические сценарии использования:
1. Обработка архивов
2. Автоматизация документооборота
3. Мультиязычная поддержка
4. Научные исследования — распознавание формул, таблиц, диаграмм из публикаций