Microsoft на пути к технологической независимости от OpenAI: компания представила три собственные ИИ-модели

Новые модели Microsoft работают с текстом, голосом и изображениями. Компания обещает цены ниже, чем у Google и OpenAI.
В четверг, 2 апреля, подразделение Microsoft AI представило сразу три базовые ИИ-модели, охватывающие распознавание речи, синтез голоса и создание изображений. Для команды, сформированной менее полугода назад, это первый крупный продуктовый запуск — и одновременно заявка на независимость: Microsoft готова выстраивать собственную линейку мультимодальных моделей и соперничать с ведущими ИИ-лабораториями, не разрывая при этом партнерства с OpenAI.
MAI-Transcribe-1 переводит устную речь в текст на 25 языках и, по данным компании, делает это в 2,5 раза быстрее, чем текущий сервис транскрибации Microsoft Azure Fast. MAI-Voice-1 работает в обратном направлении: превращает текст в голос. За одну секунду модель выдает минуту готового аудио и позволяет создать голос на основе образца. Третья модель, MAI-Image-2, генерирует изображения по текстовому описанию.
MAI-Image-2 появилась первой — еще 19 марта на платформе MAI Playground, площадке для тестирования ИИ-моделей. Теперь все три модели доступны через Microsoft Foundry, а транскрибация и голос также работают в MAI Playground.
За разработкой стоит команда MAI Superintelligence — исследовательская группа внутри Microsoft, сформированная в ноябре 2025 года. Руководит ею Мустафа Сулейман — глава Microsoft AI, сооснователь Google DeepMind и создатель стартапа Inflection AI.
«В Microsoft AI мы развиваем концепцию Humanist AI — ИИ, для которого помощь человеку важнее технологических рекордов. Наш подход к созданию моделей отличается от конкурентов: мы ориентируемся на то, как люди реально общаются, и обучаем модели для решения практических задач, — написал Сулейман в блоге компании. — Скоро вы увидите новые модели от нас — в Foundry и непосредственно в продуктах Microsoft».
В условиях растущей конкуренции на рынке ИИ Microsoft рассчитывает привлечь клиентов ценой. Компания утверждает, что все три модели обойдутся дешевле аналогов от Google и OpenAI. MAI-Transcribe-1 стоит от $0,36 в час. MAI-Voice-1 — от $22 за миллион символов. MAI-Image-2 — от $5 за обработку запроса и $33 за генерацию изображения (в пересчете на миллион токенов).
При этом Сулейман дал понять в интервью VentureBeat, что о разрыве с OpenAI речи не идет. Однако, как он пояснил The Verge, именно недавний пересмотр условий партнерства развязал Microsoft руки для самостоятельных исследований в области сверхинтеллекта.
Инвестиции Microsoft в OpenAI превышают $13 миллиардов. Модели OpenAI по-прежнему встроены в продукты компании в рамках многолетнего контракта. Но параллельно Microsoft наращивает собственные мощности — по тому же принципу, по которому она работает с чипами: одновременно производит свои и закупает у сторонних поставщиков.
По сути, выпуск собственных базовых моделей — это стратегическая страховка. Пока партнерство с OpenAI остается прочным, Microsoft выигрывает в любом случае. Но если отношения осложнятся, у компании уже будет собственный технологический фундамент, на который можно опереться.
Пока нет комментариев. Будьте первым!