Раньше в диффузионных моделях типа Stable Diffusion, Flux и тд. считалось, что масштабирование токенизатора почти не влияет на качество генерации, все вычисления лучше тратить на сам генератор.
Команда MiniMax это опровергла. Они представили VTP — масштабируемый подход, который сочетает:
- Обучение представлениям как в CLIP и DINO
- Контрастивное и самообучение
- Реконструкцию, как в VAE.
Впервые показана кривая масштабирования токенизатора, где больше данных/вычислений на предобучение → заметно лучше генерация на втором этапе, без дополнительных затрат на генератор.






" 











