Содержание

Tokenmaxxing: почему компании сжигают бюджеты на AI — и что с этим делать

Uber потратил весь годовой бюджет на AI за четыре месяца. COO компании Эндрю Макдональд признал публично: он не может провести связь между ростом расходов на Claude Code и реальными улучшениями для клиентов. «Этой связи пока нет».

Это не уникальная история. Это следствие явления, которое теперь называют tokenmaxxing.

Что такое tokenmaxxing

Токен — единица, которой AI-модели измеряют объём текста. Примерно 750 слов — это 1 000 токенов. Каждый запрос к модели тратит токены: чем длиннее контекст, чем сложнее задача, тем больше расход.

Tokenmaxxing — это когда компания использует AI без ограничений на расход токенов, превращая само потребление в метрику прогресса. Логика простая: «чем больше токенов тратит команда, тем активнее она работает с AI».

Результат: счета растут быстрее, чем ценность от AI.

Явление дошло до абсурда: глава Nvidia Дженсен Хуанг заявил, что «всерьёз обеспокоится», если инженер с окладом $500 000 тратит на токены меньше $250 000 в год. В Meta 85 000 сотрудников соревновались в объёме потреблённых AI-токенов — за 30 дней набежало 60 триллионов токенов.

Как это выглядит на практике

Uber (Fortune, TechCrunch) поощрял инженеров активно использовать Claude Code и Cursor, даже вёл внутренние рейтинги по расходу токенов. Итог: годовой бюджет на AI сгорел за четыре месяца. Теперь лимит — $1 500 в месяц на сотрудника, всё сверх — отдельное согласование.

Lindy — AI-стартап на 25 человек — перевёл 100% трафика с Claude на DeepSeek и сэкономил миллионы долларов в год. Компания до сих пор тратит на AI больше, чем на зарплаты — но теперь цифры управляемые.

Неназванная компания (Anti-Malware.ru) случайно потратила $500 млн на Claude из-за отсутствия лимитов на AI-агентов.

По данным аналитиков (CNBC), ~95% корпоративного AI-трафика до сих пор идёт через флагманские модели — даже для задач, которые спокойно решаются моделями в 10–20 раз дешевле.

Почему это происходит

Три причины.

Первая: нет видимости расходов. AI-инструменты встроены в рабочий процесс, токены списываются в фоне. Разработчик не видит, сколько стоит каждый запрос. Менеджер не видит, сколько тратит команда. Финансовый директор узнаёт в конце квартала.

Вторая: нет культуры экономии. Когда за AI платит компания, у пользователя нет стимула оптимизировать. Зачем думать, какую модель использовать, если всё равно не из своего кармана?

Третья: «больше = лучше» по умолчанию. GPT-5.6 Sol умнее GPT-5.6 Luna примерно в пять раз — но стоит в 30 раз дороже. Для большинства задач разница в качестве незаметна, а разница в цене — существенная. Но никто не сравнивает, потому что «ну и ладно, зато надёжно».

Куда движется рынок

После публичных историй об Uber рынок начал переходить к другой логике. Её называют model routing: большинство задач идёт на дешёвую модель, только те, где она не справляется, эскалируются на дорогую. Экономия — 70–90% при сопоставимом качестве результата.

OpenAI структурно закрепил этот подход: GPT-5.6 вышел в трёх версиях — Sol (флагман), Terra (вдвое дешевле), Luna (в пять раз дешевле). Официальная рекомендация: используйте Sol только тогда, когда Terra не справляется.

Microsoft пошёл дальше — обязал разработчиков Windows, Teams и Outlook перейти с Claude на собственный Copilot. Duolingo откатил систему оценки сотрудников по расходу AI-токенов после жалоб: люди «втискивали AI туда, где без него было бы быстрее».

Как это касается чат-ботов для бизнеса

Если вы подключаете AI-чат-бот к клиентскому сервису — tokenmaxxing бьёт по вам особенно сильно.

Когда у модели нет нужной информации, она начинает «додумывать». Это стоит больше токенов (длинные рассуждения) и даёт неверные ответы. Сотрудник потом исправляет — это ещё токены. Клиент переспрашивает — снова токены.

Сценарий без базы знаний:

Клиент спрашивает про условия доставки
Модель не знает точных условий → генерирует длинный ответ с предположениями → ошибается
Сотрудник пишет уточнение → ещё один запрос
Итог: 3–4 токеновых обмена вместо одного

Сценарий с базой знаний:

Клиент спрашивает про условия доставки
Модель находит точный ответ в базе → отвечает коротко и правильно
Итог: 1 токеновый обмен, 0 ошибок

Разница в расходе токенов — в 3–5 раз на один вопрос. На масштабе тысяч обращений в месяц это существенные деньги.

Что делать прямо сейчас

Введите лимиты. Даже небольшой команде нужен бюджет на AI и мониторинг расхода. Видимость уже меняет поведение.

Разделите задачи по сложности. Перевод, суммаризация, стандартные ответы — задачи для дешёвых моделей. Сложный анализ, генерация контента с нюансами — для флагманских.

Дайте AI контекст заранее, а не в каждом запросе. База знаний, подключённые документы, настроенные инструкции — разовая инвестиция, которая сокращает расход токенов на каждый последующий запрос.

Считайте стоимость результата, а не токенов. Метрика — не «сколько токенов потрачено», а «сколько стоит один правильный ответ клиенту». Хорошо настроенный бот с базой знаний отвечает правильно с первого раза — это всегда дешевле нескольких итераций без контекста.

Tokenmaxxing — закономерный первый этап внедрения AI: сначала все пробуют, потом считают деньги. Рынок переходит ко второму этапу. Компании, которые поймут это раньше, получат преимущество не только в экономии — но и в качестве результатов.

AI работает лучше, когда у него есть нужная информация. И стоит дешевле по той же причине.

Источники: Fortune · TechCrunch · CNBC · PwC AI Performance Study 2026

Tokenmaxxing: почему компании сжигают бюджеты на AI — и что с этим делать

Содержание

Tokenmaxxing: почему компании сжигают бюджеты на AI — и что с этим делать

Что такое tokenmaxxing

Как это выглядит на практике

Почему это происходит

Куда движется рынок

Как это касается чат-ботов для бизнеса

Что делать прямо сейчас

Похожие статьи

Сколько стоит чат-бот для бизнеса: честный разбор цен в 2026 году

Почему нельзя доверять ответам AI без проверки: риски для бизнеса

Почему AI не экономит время сотрудников: данные исследования 6 000 работников