Компания Google представила инструмент TRACE для оптимизации работы нейросетей, выявив перерасход токенов в режиме длинных рассуждений. Исследование показало, что модели выполняют до 20 раз больше шагов, чем необходимо, незначительно улучшая точность, но затрачивая больше ресурсов.
Основные факты
- Google Research представила TRACE для анализа цепочек рассуждений 2023-10-01.
- Средняя производительность улучшалась лишь на 2–3% при увеличении операций на 500–2000%.
- Простые стоп-сигналы сократили длину ответов на 40–60%.
- Экономия токенов ускоряет ответы и снижает затраты API.
- Исследования проводились на моделях Qwen3 и DeepSeek R1.
Контекст и значение
TRACЕ выявил два основных шаблона: «исследователь», когда модель продолжает генерировать альтернативы после нахождения правильного ответа, и «поздняя посадка», где идёт избыточная самопроверка. Благодаря адаптивному подходу Google и возможности изменения глубины рассуждений, модели становятся более эффективными и прозрачными, снимая нагрузку с серверов и уменьшая углеродный след.
Влияние и перспектива
Сокращение избыточного reasoning-процесса позволяет снизить затраты на вычисления и сделать модели более доступными в использовании. Параллели можно провести и с нововведениями таких компаний, как OpenAI, которые дают пользователям возможность выбирать режим рассуждений в ChatGPT.