Один GPU вместо облака: Cohere выпускает открытую модель, конкурирующую с GPT-5.5 и Claude Opus 4.7

ИИ уровня ChatGPT и Claude, который можно установить на собственный сервер, не платить за подписку и не отправлять данные сторонним компаниям. Cohere выпустила такую модель — и отдает ее бесплатно.
Канадская ИИ-лаборатория Cohere, сооснователь которой, Айдан Гомез, является соавтором научной работы «Attention Is All You Need» (ставшей фундаментом для всех современных языковых моделей), представила Command A+ — модель на 218 миллиардов параметров, спроектированную для сложных рассуждений, обработки документов и автономных рабочих процессов.
Главное в этой новости — не характеристики модели, а условия доступа. Command A+ выпущена под лицензией Apache 2.0 — одной из самых свободных в мире разработки: она разрешает использовать, изменять и продавать продукт без ограничений. Это означает, что кто угодно — от независимого разработчика до корпорации или государственной структуры — может скачать модель, адаптировать под свои нужды, запустить на собственном оборудовании и использовать коммерчески без лицензионных отчислений. Для Cohere это первый случай выпуска модели на таких открытых условиях: предыдущие версии (Command R, Command R+) можно было скачать и изучить, но использовать в коммерческих целях — только за отдельную плату. Теперь этого ограничения нет.
Cohere называет это ставкой на «суверенный ИИ» — идею о том, что организации должны иметь возможность запускать ИИ передового уровня (frontier) внутри собственного защищенного контура, не жертвуя качеством и не передавая данные третьим сторонам.
Технически это стало возможным благодаря архитектуре Sparse Mixture-of-Experts (MoE): модель содержит 218 миллиардов параметров, но при каждом запросе активируются только 25 миллиардов — те «эксперты», которые лучше всего подходят для решения конкретной задачи. Это значительно снижает требования к вычислительным ресурсам по сравнению с «монолитными» моделями вроде GPT-5.5 и Claude Opus 4.7, размер которых, по оценкам сторонних наблюдателей, исчисляется триллионами параметров.
Ключевое техническое достижение — квантизация (сжатие модели за счет снижения точности параметров) формата W4A4. Обычно сжатие ведет к заметной потере качества, особенно в задачах на рассуждение. Cohere решила эту проблему, сжав до 4 бит только «экспертные» блоки, а критически важные слои внимания сохранив без сжатия. Результат — модель помещается на один GPU NVIDIA Blackwell B200 или на два NVIDIA H100, практически не теряя в качестве. Скорость генерации выросла на 63% (375 токенов в секунду), а задержка до первого ответа сократилась на 17% (113 миллисекунд) — по сравнению с предыдущей моделью Command A Reasoning.
Еще одна заметная особенность — нативные цитаты. Когда модель обращается к внешнему источнику (базе данных, документу, API), она не просто формулирует ответ, а размечает каждое утверждение ссылкой на конкретный источник. Для регулируемых отраслей — финансов, медицины, юриспруденции — именно это делает модель пригодной для реального внедрения: каждое утверждение можно проверить по источнику, а галлюцинацию — сразу выявить.
Command A+ мультимодальна: она обрабатывает и текст, и изображения в рамках одного контекстного окна на 128 000 токенов — это позволяет анализировать сканы документов, графики и технические чертежи без внешних инструментов.
По бенчмаркам Command A+ конкурирует с моделями значительно большего размера: 90% на AIME 25 (математика), скачок с 37% до 85% на τ²-Bench Telecom (сложные рассуждения) и с 3% до 25% на Тerminal-Bench Hard (агентное кодирование). В чистой математике модель соперничает с DeepSeek V4 Pro, хотя в агентном кодировании пока уступает китайским конкурентам — DeepSeek, Z.ai (GLM) и MiniMax. Впрочем, прямое сравнение игнорирует ключевое преимущество Cohere: всё это работает на одном GPU, а не на кластере из сотен.
Модель также поддерживает 48 языков и значительно эффективнее обрабатывает нелатинские алфавиты: для арабского требуется на 20% меньше токенов по сравнению с предыдущей версией, для японского — на 18%, для корейского — на 16%. Поскольку стоимость работы ИИ зависит от числа токенов, это напрямую снижает расходы для международных компаний, ведь эксплуатация даже бесплатной модели стоит денег: GPU потребляют электричество, а API тарифицируется потокенно. Меньше токенов на тот же текст — ниже расходы по обоим сценариям.
Недавно Cohere объявила о слиянии с немецким ИИ-стартапом Aleph Alpha, усиливая позиции в Европе. Выпуск Command A+ под Apache 2.0 — логичный следующий шаг: компания делает ставку не на подписки, а на то, чтобы стать стандартом для организаций, которым важна независимость от внешних провайдеров и гарантия того, что их данные не покидают собственный контур безопасности. Бизнес-модель при этом не благотворительность: Cohere зарабатывает на корпоративной платформе — хостинге, поддержке, тонкой настройке моделей и API для тех, кто не хочет разворачивать всё самостоятельно. Открытая модель — воронка: она привлекает разработчиков, которые затем приходят за платными услугами.
Долгое время ИИ передового уровня существовал только в облаке: на серверах разработчика и по его правилам. Command A+ показывает, что модель такого класса может работать в серверной заказчика — быстрее, чем многие ожидают. Облако никуда не денется. Но монополии на мощный ИИ у него больше нет.
А физическое лицо может себе это установить и использовать по бытовым нуждам?