Tokenmaxxing: почему компании сжигают бюджеты на AI — и что с этим делать
Uber потратил весь годовой бюджет на AI за четыре месяца. COO компании Эндрю Макдональд признал публично: он не может провести связь между ростом расходов на Claude Code и реальными улучшениями для клиентов. «Этой связи пока нет».
Это не уникальная история. Это следствие явления, которое теперь называют tokenmaxxing.
Что такое tokenmaxxing
Токен — единица, которой AI-модели измеряют объём текста. Примерно 750 слов — это 1 000 токенов. Каждый запрос к модели тратит токены: чем длиннее контекст, чем сложнее задача, тем больше расход.
Tokenmaxxing — это когда компания использует AI без ограничений на расход токенов, превращая само потребление в метрику прогресса. Логика простая: «чем больше токенов тратит команда, тем активнее она работает с AI».
Результат: счета растут быстрее, чем ценность от AI.
Явление дошло до абсурда: глава Nvidia Дженсен Хуанг заявил, что «всерьёз обеспокоится», если инженер с окладом $500 000 тратит на токены меньше $250 000 в год. В Meta 85 000 сотрудников соревновались в объёме потреблённых AI-токенов — за 30 дней набежало 60 триллионов токенов.
Как это выглядит на практике
Uber (Fortune, TechCrunch) поощрял инженеров активно использовать Claude Code и Cursor, даже вёл внутренние рейтинги по расходу токенов. Итог: годовой бюджет на AI сгорел за четыре месяца. Теперь лимит — $1 500 в месяц на сотрудника, всё сверх — отдельное согласование.
Lindy — AI-стартап на 25 человек — перевёл 100% трафика с Claude на DeepSeek и сэкономил миллионы долларов в год. Компания до сих пор тратит на AI больше, чем на зарплаты — но теперь цифры управляемые.
Неназванная компания (Anti-Malware.ru) случайно потратила $500 млн на Claude из-за отсутствия лимитов на AI-агентов.
По данным аналитиков (CNBC), ~95% корпоративного AI-трафика до сих пор идёт через флагманские модели — даже для задач, которые спокойно решаются моделями в 10–20 раз дешевле.
Почему это происходит
Три причины.
Первая: нет видимости расходов. AI-инструменты встроены в рабочий процесс, токены списываются в фоне. Разработчик не видит, сколько стоит каждый запрос. Менеджер не видит, сколько тратит команда. Финансовый директор узнаёт в конце квартала.
Вторая: нет культуры экономии. Когда за AI платит компания, у пользователя нет стимула оптимизировать. Зачем думать, какую модель использовать, если всё равно не из своего кармана?
Третья: «больше = лучше» по умолчанию. GPT-5.6 Sol умнее GPT-5.6 Luna примерно в пять раз — но стоит в 30 раз дороже. Для большинства задач разница в качестве незаметна, а разница в цене — существенная. Но никто не сравнивает, потому что «ну и ладно, зато надёжно».
Куда движется рынок
После публичных историй об Uber рынок начал переходить к другой логике. Её называют model routing: большинство задач идёт на дешёвую модель, только те, где она не справляется, эскалируются на дорогую. Экономия — 70–90% при сопоставимом качестве результата.
OpenAI структурно закрепил этот подход: GPT-5.6 вышел в трёх версиях — Sol (флагман), Terra (вдвое дешевле), Luna (в пять раз дешевле). Официальная рекомендация: используйте Sol только тогда, когда Terra не справляется.
Microsoft пошёл дальше — обязал разработчиков Windows, Teams и Outlook перейти с Claude на собственный Copilot. Duolingo откатил систему оценки сотрудников по расходу AI-токенов после жалоб: люди «втискивали AI туда, где без него было бы быстрее».
Как это касается чат-ботов для бизнеса
Если вы подключаете AI-чат-бот к клиентскому сервису — tokenmaxxing бьёт по вам особенно сильно.
Когда у модели нет нужной информации, она начинает «додумывать». Это стоит больше токенов (длинные рассуждения) и даёт неверные ответы. Сотрудник потом исправляет — это ещё токены. Клиент переспрашивает — снова токены.
Сценарий без базы знаний:
- Клиент спрашивает про условия доставки
- Модель не знает точных условий → генерирует длинный ответ с предположениями → ошибается
- Сотрудник пишет уточнение → ещё один запрос
- Итог: 3–4 токеновых обмена вместо одного
Сценарий с базой знаний:
- Клиент спрашивает про условия доставки
- Модель находит точный ответ в базе → отвечает коротко и правильно
- Итог: 1 токеновый обмен, 0 ошибок
Разница в расходе токенов — в 3–5 раз на один вопрос. На масштабе тысяч обращений в месяц это существенные деньги.
Что делать прямо сейчас
Введите лимиты. Даже небольшой команде нужен бюджет на AI и мониторинг расхода. Видимость уже меняет поведение.
Разделите задачи по сложности. Перевод, суммаризация, стандартные ответы — задачи для дешёвых моделей. Сложный анализ, генерация контента с нюансами — для флагманских.
Дайте AI контекст заранее, а не в каждом запросе. База знаний, подключённые документы, настроенные инструкции — разовая инвестиция, которая сокращает расход токенов на каждый последующий запрос.
Считайте стоимость результата, а не токенов. Метрика — не «сколько токенов потрачено», а «сколько стоит один правильный ответ клиенту». Хорошо настроенный бот с базой знаний отвечает правильно с первого раза — это всегда дешевле нескольких итераций без контекста.
Tokenmaxxing — закономерный первый этап внедрения AI: сначала все пробуют, потом считают деньги. Рынок переходит ко второму этапу. Компании, которые поймут это раньше, получат преимущество не только в экономии — но и в качестве результатов.
AI работает лучше, когда у него есть нужная информация. И стоит дешевле по той же причине.
Источники: Fortune · TechCrunch · CNBC · PwC AI Performance Study 2026


