Alibaba выпустила открытые модели Qwen3.5-Medium. По производительности они не уступают Sonnet 4.5 и при этом запускаются локально

Команда Qwen AI от Alibaba, которая уже успела заявить о себе, снова проявила себя: чуть больше суток назад они представили серию Qwen3.5 Medium — четыре новые большие языковые модели, умеющие самостоятельно выбирать и вызывать внешние инструменты по ходу решения задачи. Три из них доступны для коммерческого использования компаниями и независимыми разработчиками под открытой лицензией Apache 2.0:

Qwen3.5-35B-A3B;
Qwen3.5-122B-A10B;
Qwen3.5-27B.

Скачать их можно уже сейчас — на Hugging Face и ModelScope. Четвертая модель, Qwen3.5-Flash, судя по всему, остается закрытой: её файлы не опубликованы, а доступ есть только через Alibaba Cloud Model Studio API. Зато по стоимости она заметно выгоднее западных аналогов (см. таблицу сравнения цен ниже).

Но самое интересное — открытые модели серии. На бенчмарках (независимых тестах) эти открытые модели показывают результаты на уровне сопоставимых закрытых моделей от OpenAI и Anthropic, а кое-где и обходят OpenAI GPT-5-mini и Anthropic Claude Sonnet 4.5 (которая вышла всего пять месяцев назад).

Кроме того, команда Qwen утверждает, что модели специально спроектированы так, чтобы сохранять высокую точность даже после квантования — процедуры сжатия, при которой параметры модели записываются с меньшей точностью, а сама модель становится компактнее и может работать на менее мощном оборудовании.

Но принципиально важно другое: этот релиз впервые приносит контекстное окно передового уровня на обычный настольный компьютер. Флагманская модель Qwen3.5-35B-A3B способна обрабатывать контекст длиной свыше миллиона токенов на пользовательской видеокарте с 32 ГБ памяти. Такая видеокарта есть не у каждого, но ресурсов для этого нужно заметно меньше, чем для запуска сопоставимых по качеству альтернатив.

Этот рывок стал возможен благодаря агрессивному сжатию модели — квантованию весов (числовых параметров, из которых модель и состоит) до 4 бит и сжатию промежуточного кэша вычислений — практически без потери точности. В результате разработчики могут обрабатывать огромные массивы данных без серверного оборудования.

Технология: Delta force

В основе производительности Qwen 3.5 — сложная гибридная архитектура. Большинство современных моделей строятся на стандартных блоках трансформера — базовой архитектуры нейросетей, на которой работают ChatGPT, Claude, Gemini и другие, — а Qwen 3.5 сочетает два дополнительных подхода. Первый — Delta Networks с механизмом «ворот», которые гибко регулируют, какая информация проходит дальше по сети, а какая отсеивается. Второй — разреженная система Mixture-of-Experts (MoE): модель содержит множество специализированных подсетей-экспертов, но для обработки каждого фрагмента текста задействует лишь часть из них — это экономит вычислительные ресурсы. Технические характеристики флагманской Qwen3.5-35B-A3B показывают, насколько эффективен такой дизайн:

Эффективность параметров. Хотя модель в сумме содержит 35 млрд параметров, для обработки каждого фрагмента текста она активирует только 3 млрд — остальные «спят», что резко снижает нагрузку на оборудование.
Разнообразие экспертов. Слой «смеси экспертов» содержит 256 специалистов. Для каждого фрагмента текста система-маршрутизатор выбирает 8 наиболее подходящих, а ещё 1 эксперт — общий — участвует в обработке всегда. Такая схема помогает сохранять качество ответов при сокращении времени генерации.
Сжатие почти без потерь. Модели серии сохраняют высокую точность даже при квантовании весов (числовых параметров модели) до 4 бит, что существенно снижает требования к памяти для запуска на локальном оборудовании.
Выпуск базовой модели. Для поддержки исследовательского сообщества Alibaba также выложила в открытый доступ базовую модель Qwen3.5-35B-A3B-Base — вместе с версиями, донастроенными на выполнение инструкций.

Продукт: интеллект, который сначала «думает»

В Qwen 3.5 режим «размышления» включен по умолчанию. Прежде чем дать окончательный ответ, модель выстраивает внутреннюю цепочку рассуждений, чтобы проработать сложную логику. Этот процесс скрыт от пользователя и отделен специальными тегами. Линейка моделей адаптирована под разные аппаратные условия:

Qwen3.5-27B — оптимизирована под высокую эффективность; поддерживает контекст длиной свыше 800 тысяч токенов.
Qwen3.5-Flash — закрытая модель для промышленного использования; контекст по умолчанию — 1 млн токенов, плюс встроенный набор официальных инструментов.
Qwen3.5-122B-A10B — рассчитана на серверные видеокарты (80 ГБ памяти); поддерживает контекст свыше миллиона токенов и вплотную приближается к самым мощным моделям в мире.

Результаты независимых тестов подтверждают этот архитектурный прогресс. Модель 35B-A3B заметно превосходит гораздо более крупные предшествующие модели — в том числе собственную Qwen3-235B, — а также закрытые GPT-5 mini и Sonnet 4.5 в таких категориях, как общие знания (MMMLU) и визуальное мышление (MMMU-Pro).

Цены и доступ через API

Для тех, кто не запускает модель на собственном оборудовании, Alibaba Cloud Model Studio предоставляет доступ к Qwen3.5-Flash через API по конкурентным ценам:

Input (входные токены: текст, который вы отправляете модели): $0,1 за 1 млн токенов.
Output (выходные токены: текст, который модель генерирует в ответ): $0,4 за 1 млн токенов.
Cache Creation (создание кэша: сохранение ранее обработанного контекста для повторного использования): $0,125 за 1 млн токенов.
Cache Read (чтение кэша: обращение к ранее сохраненному контексту): $0,01 за 1 млн токенов.

Отдельно тарифицируется использование встроенных инструментов: поиск в интернете — $10 за 1 000 вызовов, а интерпретатор кода пока предлагается бесплатно (акция ограничена по времени).

Всё это делает Qwen3.5-Flash одной из самых дешевых в использовании через API среди крупных языковых моделей. Ниже таблица для наглядного сравнения цен:

Таблица сравнения цен

Модель	Input	Output	Общая стоимость	Разработчик
Qwen 3 Turbo	$0.05	$0.20	$0.25	Alibaba Cloud
Qwen3.5-Flash	$0.10	$0.40	$0.50	Alibaba Cloud
Deepseek-chat (V3.2-Exp)	$0.28	$0.42	$0.70	DeepSeek
Deepseek-reasoner (V3.2-Exp)	$0.28	$0.42	$0.70	DeepSeek
Grok 4.1 Fast (reasoning)	$0.20	$0.50	$0.70	xAI
Grok 4.1 Fast (non-reasoning)	$0.20	$0.50	$0.70	xAI
MiniMax M2.5	$0.15	$1.20	$1.35	MiniMax
MiniMax M2.5-Lightning	$0.30	$2.40	$2.70	MiniMax
Gemini 3 Flash Preview	$0.50	$3.00	$3.50	Google
Kimi-k2.5	$0.60	$3.00	$3.60	Moonshot
GLM-5	$1.00	$3.20	$4.20	Z.ai
ERNIE 5.0	$0.85	$3.40	$4.25	Baidu
Claude Haiku 4.5	$1.00	$5.00	$6.00	Anthropic
Qwen3-Max (2026-01-23)	$1.20	$6.00	$7.20	Alibaba Cloud
Gemini 3 Pro (≤200K)	$2.00	$12.00	$14.00	Google
GPT-5.2	$1.75	$14.00	$15.75	OpenAI
Claude Sonnet 4.5	$3.00	$15.00	$18.00	Anthropic
Gemini 3 Pro (>200K)	$4.00	$18.00	$22.00	Google
Claude Opus 4.6	$5.00	$25.00	$30.00	Anthropic
GPT-5.2 Pro	$21.00	$168.00	$189.00	OpenAI

Что это значит для бизнеса

С выходом серии Qwen3.5 Medium быстрая итерация и тонкая настройка моделей, которые раньше были по силам только хорошо финансируемым лабораториям, становятся доступны компаниям, работающим на собственной инфраструктуре. По сути, продвинутый ИИ теперь можно внедрять без огромных финансовых вложений.

На уровне организации такая архитектура меняет подход к обработке и защите данных. Возможность локально загружать в модель большие архивы документов или многочасовое видео позволяет проводить глубокий внутренний анализ, не передавая конфиденциальную информацию через сторонние сервисы.

Запуская эти модели внутри собственного защищенного контура — то есть на своих серверах, без передачи данных наружу, — организации сохраняют полный контроль над информацией и при этом получают доступ к встроенному режиму «размышления» и вызову инструментов, а значит, могут строить более надежных автономных агентов.

Первые пользователи на Hugging Face отдельно отмечают, как модель проявляет себя в агентных сценариях: задачах, где система сама планирует шаги и вызывает нужные инструменты. Раньше с такими задачами справлялись только крупнейшие закрытые модели.

Qwen 3.5 показывает, что будущее ИИ — не за гигантскими моделями, а за умной архитектурой. Для бизнеса это прямая выгода: ниже затраты, выше безопасность, быстрее адаптация.