Snap: Упадок и Надежды

Причины столь печального положения весьма очевидны. Компания, словно юноша, стремящийся произвести впечатление, но не обладающий достаточным состоянием, испытывает трудности с поддержанием устойчивого роста доходов и достижением существенной прибыли. Конкуренция со стороны более состоятельных соперников, таких как Meta Platforms, представляется весьма серьезной. Впрочем, иные полагают, что чрезмерное стремление к новизне и постоянная перемена стратегий – не лучшее из решений.

![Обучение с использованием TPO приводит к самозатуханию градиента, что выражается в снижении норм L2 градиентов в процессе тренировки, тогда как в GRPO градиент сохраняет свою силу (H=8H{=}8, V=2V{=}2, K=32K{=}32), при этом успешные кандидаты в TPO демонстрируют меньшую целевую массу [latex]q_i[/latex], в то время как в GRPO - меньшую норму весов [latex]|A_i||A|_i[/latex].](https://arxiv.org/html/2604.06159v1/x10.png)
