Anthropic ввёл новые лимиты – и сломал жизнь тысячам разработчиков
Что произошло 19 февраля, почему ваш AI-агент внезапно перестал работать, и как с этим жить дальше
Представьте: вы платите $200 в месяц за подписку Claude Max. Вы запускаете AI-агента, который помогает вам писать код, управлять проектами, анализировать данные. Всё работает. И вдруг, в один прекрасный день, ваш агент не может отправить даже одно сообщение. "Rate limit reached." На свежей сессии. С полной квотой. Что произошло?
Именно это случилось с тысячами разработчиков 19 февраля 2026 года. И чтобы понять почему, нужно разобраться в том, как на самом деле устроены лимиты Anthropic – потому что это не то, что вы думаете.
Что случилось 19 февраля
Утром 19 февраля сообщество разработчиков обнаружило, что Anthropic тихо обновил свою юридическую документацию. Новая формулировка была прямолинейной:
«Использование OAuth-токенов, полученных через подписки Claude Free, Pro или Max, в любом стороннем продукте, инструменте или сервисе – включая Agent SDK – запрещено»
– Anthropic, Legal and Compliance DocumentationЭто означало одно: если вы используете свою подписку Claude в OpenClaw, NanoClaw, Zed или любом другом стороннем инструменте – формально вы нарушаете условия использования. И Anthropic оставлял за собой право заблокировать ваш аккаунт без предупреждения.
Паника была мгновенной. На Reddit тред набрал 230 апвоутов и сотню комментариев за несколько часов. Hacker News загорелся дискуссиями. Разработчики по всему миру обнаружили, что их AI-агенты перестали работать.
К вечеру сотрудник Anthropic вышел в Twitter и попытался успокоить ситуацию: мол, это был «кривой апдейт документации», а не реальная смена политики. На следующий день The New Stack опубликовал статью с заголовком «Anthropic: You can still use your Claude accounts to run OpenClaw». Формально – можно. Но документация до сих пор говорит обратное.
Настоящая проблема: два типа лимитов
Но вот в чём штука: даже если Anthropic не банит за использование подписок в сторонних инструментах, массовые проблемы с rate limits – реальны. И они связаны не с политикой, а с технической архитектурой лимитов.
У Anthropic есть два совершенно разных типа ограничений, и большинство пользователей путают их:
⚡ Per-Minute лимит (ITPM)
Сколько входных токенов вы можете отправить за минуту. На практике это обычно реализовано через token bucket/скользящее окно. Это то, что убивает агентов мгновенно.
📊 Недельная квота
Общий объём использования за неделю. Max 20x = двадцатикратный от Pro. Это «долгосрочный бюджет», и он обычно не проблема.
Когда вы покупаете Max 20x за $200 – вы получаете двадцатикратную квоту. Но per-minute лимит может быть таким же, как у Pro за $20. И вот почему это важно.
Как ведро с дыркой объясняет ваши проблемы
Anthropic использует так называемый Token Bucket Algorithm. Звучит сложно, но аналогия простая:
Важные нюансы:
- Восстановление непрерывное. Это не «ровно в XX:00 лимит сбрасывается». Лимит восстанавливается каждую секунду, понемногу.
- Burst capacity. Если вы не отправляли запросы минуту – «ведро» пустое и может принять больше воды.
- Каждая модель – отдельное ведро. Лимит для Opus и для Sonnet – раздельные.
А теперь представьте, как работает AI-агент. Он не отправляет короткие сообщения, как человек в чате. Он отправляет весь контекст с каждым запросом. Ваш проект, файлы, историю разговора – всё.
Вот почему человек на Max 20x ($200/мес) может получить rate limit на первом сообщении в свежей сессии. Его недельная квота может быть большой. Но per-minute лимит часто не рассчитан на то, что агент отправляет 60K+ токенов за раз.
Один юзер сжёг 5-часовой лимит за 2 минуты
На Reddit есть потрясающий пост: человек на Max 20x запустил Opus 4.6 с большим контекстом и буквально за две минуты исчерпал 5-часовой лимит. Как?
«Burned through Claude Max 20x's '5-hour limit' in under 2 minutes.» – r/Anthropic
Opus 4.6 поддерживает контекст до 1 миллиона токенов. Если ваш контекст – 500K, то каждое сообщение пересылает 500K входных токенов. Пять сообщений = 2.5 миллиона токенов. При per-minute лимите в 120K – это двадцать минут непрерывного восстановления. Но агент не ждёт – он шлёт запросы один за другим.
Баги, которые маскируют реальность
Ситуацию усугубляют несколько багов, которые делают диагностику почти невозможной:
Фейковый rate limit = safety filter
Это, пожалуй, самый коварный баг. Когда контент в вашем запросе триггерит safety-фильтр Anthropic (например, код с захардкоженными паролями, security-related запросы), Claude Code показывает... «Rate limit reached». Не «Content policy violation». Не «Safety filter triggered». Просто – rate limit.
Вы начинаете думать, что проблема в лимитах. Меняете план. Ждёте. Пробуете снова. А дело – в содержимом контекста.
Concurrency = 1 для сторонних инструментов
Если вы используете подписку через OpenClaw или аналогичный инструмент, Anthropic ограничивает параллельность до одного запроса. Запустили два субагента одновременно? Второй мгновенно получает rate limit.
«Claude Max + OpenClaw: one-lane mode / concurrency=1 is killing momentum. The 2nd task/session gets throttled/blocked.» – r/ClaudeCode
Cooldown заражает весь провайдер
В OpenClaw есть известный баг: когда одна модель (например, Sonnet) попадает в rate limit, система ставит в cooldown всего провайдера – включая Opus, который имеет отдельный лимит. Anthropic разделяет лимиты по моделям, но OpenClaw – нет.
Что с этим делать
Ситуация непростая, но не безнадёжная. Вот стратегии, которые реально работают:
1. Контролируйте размер контекста
Каждый лишний токен в контексте – это +1 к вашему per-minute расходу. Агрессивная компактификация контекста – самый эффективный способ уменьшить нагрузку на ITPM. Если ваш агент отправляет 100K контекст, но реально нужно 30K – это три с лишним раза экономии на per-minute лимите.
2. Разделяйте модели по задачам
У каждой модели – отдельный лимит. Используйте Opus только для стратегических решений (1-2 запроса в минуту). Для рутинных задач – Sonnet (свой bucket). Для субагентов – вообще другого провайдера (Codex, Gemini), у которого свои лимиты.
3. Паузы между запросами
При лимите 40K ITPM восстановление идёт со скоростью ~667 токенов в секунду. Пауза в 10 секунд между запросами = +6,700 токенов в bucket. Это может быть разницей между rate limit и успешным запросом.
4. API-ключ как страховка
Pay-per-use API-ключ стоит от $5 депозита (Tier 1). Никаких weekly quotas, никакого риска бана за third-party использование. Лимиты чётко документированы. Это ваш fallback на случай проблем с подпиской.
5. Мониторьте rate limit headers
Каждый ответ Anthropic API содержит заголовки anthropic-ratelimit-* с точной информацией: сколько осталось запросов и токенов в текущем окне. Логируйте их – и вы будете знать, когда замедляться, прежде чем получите 429.
Что будет дальше
Похоже, Anthropic движется к разделению: подписки – для работы в их интерфейсах (Claude.ai, Claude Code), API – для продакшн-интеграций. История с «кривым апдейтом документации» это показала. Формулировки могут меняться, но риск ужесточения правил остаётся.
Если вы строите серьёзные AI-системы на Claude, практичный вывод такой: не завязывайтесь на одного провайдера. Мультимодельная архитектура – не украшение, а рабочая страховка. Opus для сложных решений, Sonnet для потока, Codex/Gemini как резерв. У каждого провайдера свои лимиты, свои правила и свои риски.
Мультимодельная архитектура – это не оптимизация. Это страховка от того, что один провайдер решит изменить правила в 6 утра пятницы.
А пока – контролируйте контекст, разделяйте модели, ставьте паузы и логируйте headers. Это не идеальное решение. Но это то, что работает прямо сейчас.