У нейросетей обнаружен IQ: проект AI IQ оценил полсотни моделей по шкале, придуманной для людей

12 тестов, четыре категории мышления и одна спорная цифра на выходе. Проект уже хвалят за наглядность — и ругают за упрощение.

Проект AI IQ протестировал более 50 языковых моделей и оценил их по стандартной шкале IQ. В рейтинге представлены модели 14 провайдеров из США, Китая и Европы: от OpenAI и Anthropic до DeepSeek и MiniMax. Результаты распределились в форме колокола — по кривой нормального распределения: основная масса моделей группируется в центре, а лидеры и аутсайдеры — по краям. За неделю визуализации разлетелись по соцсетям, вызвав и восторг, и резкую критику.

Автор проекта — Райан Ши, инженер, предприниматель и инвестор, известный как сооснователь блокчейн-платформы Stacks. Методология построена на 12 бенчмарках (тестах для оценки способностей ИИ), сгруппированных по четырем категориям: абстрактное мышление, математика, программирование и академические знания. Абстрактное мышление оценивается по тестам ARC-AGI-1 и ARC-AGI-2 — задачам на распознавание паттернов, разработанным для проверки когнитивной гибкости. Математические способности — по FrontierMath, AIME и ProofBench (от арифметики до доказательства теорем). Программирование — по Terminal-Bench 2.0, SWE-Bench Verified и SciCode (от написания кода до решения научных задач). Академические знания — по Humanity's Last Exam, CritPt и GPQA Diamond (вопросы экспертного уровня из разных дисциплин). Итоговый балл IQ — среднее арифметическое четырех оценок. Для более простых тестов потолок баллов изначально занижен, чтобы итоговый балл точнее отражал реальные способности модели. Если модель не прошла часть тестов, система намеренно снижает оценку — модель не сможет выглядеть умнее, чем она есть.

По состоянию на середину мая 2026 года лидирует GPT-5.5 от OpenAI с IQ около 136. За ним плотной группой идут Opus 4.7 от Anthropic (~132), GPT-5.4 (~131) и Gemini 3.1 Pro от Google (~131). Разница между лидерами настолько мала, что скорее говорит о сближении моделей на вершине, чем о чьем-то явном превосходстве.

Похожую картину показывает и другой рейтинг: Visual Capitalist на основе данных TrackingAI опубликовал оценки моделей по адаптированному тесту Mensa. Там лидируют Grok-4.20 Expert Mode и GPT-5.4 Pro (по 145 баллов), а Gemini 3.1 Pro набрал 141. Методики разные, но вывод один: топовые модели сгруппировались в узком коридоре, и явного лидера среди них выделить всё сложнее.

Ниже — насыщенная «середина»: модели китайских лабораторий (Kimi K2.6, GLM-5, DeepSeek-V3.2, Qwen3.6, MiniMax-M2.7) набирают от 112 до 118 баллов и всё острее конкурируют по соотношению цены и качества.

Необычная особенность проекта — оценка эмоционального интеллекта (EQ). Здесь лидерство у Opus 4.7 от Anthropic (~132), тогда как GPT-5.5 и GPT-5.4 при высоком IQ немного уступают по EQ. Авторы признают потенциальный конфликт интересов: один из тестов EQ оценивается не людьми, а другой моделью Claude от той же Anthropic, что создает риск предвзятости. Для компенсации на все модели Anthropic превентивно накладывается штраф в 200 баллов Elo — редкий для индустрии акт самокоррекции.

Пожалуй, самый практичный раздел сайта — график «IQ vs. стоимость». При использовании через API (программный интерфейс для разработчиков) стоимость одной сложной задачи у лучших моделей (GPT-5.5, Opus 4.7) достигает $30–50, тогда как модели среднего эшелона (GPT-5.4-mini, DeepSeek-V3.2, MiniMax-M2.7) обходятся в $1–5 при IQ 112–120. На другом конце шкалы — открытая модель GPT-oss-20b: IQ около 107 при стоимости ~$0.20 за задачу. Вывод для бизнеса прозрачен: разрыв в интеллекте между дорогими и дешевыми моделями сократился настолько, что для большинства задач дорогая модель избыточна — выгоднее использовать дешевую для рутины и подключать мощную только для сложных случаев.

Критики, впрочем, настроены скептически. Исследователи указывают на неравномерный характер способностей ИИ: модель может блестяще решать задачи на уровне аспиранта-физика и одновременно проваливать то, с чем справится ребенок. Усредненный балл эту неравномерность скрывает. Другие упрекают проект в непрозрачности: список тестов опубликован, но исходные данные и формулы калибровки — нет.

Модели развиваются так быстро, что тесты едва успевают за ними: лучшие нейросети уже приближаются к потолку самых сложных бенчмарков. Меньше чем за три года — с октября 2023-го по май 2026-го — оценка лидеров выросла с ~75 до ~136 баллов: примерно на 60 баллов, то есть почти вдвое.

AI IQ несовершенен. Однако объективной и общепризнанной альтернативы пока нет: каждый провайдер измеряет возможности своих моделей по-своему. В таких условиях способность сориентироваться в полусотне моделей и выбрать оптимальную под свою задачу за разумную цену — тоже показатель интеллекта. Только измерять его пока никто не взялся.

Источник:VentureBeat

Lada20 дней назад

Получается, Claude сам себя оценил и сам оштрафовал?))

Ответить

Ксения20 дней назад

есть большие вопросы к оценке эмоционального интеллекта, конечно

Ответить

maria19 дней назад

"модель может блестяще решать задачи на уровне аспиранта-физика и одновременно проваливать то, с чем справится ребенок" - так оно и у людей бывает аналогично. Дай аспиранту-физику задачку за пятый класс, он вполне может забуксовать, потому что привык уже к зубодробильным вычислениям через тройные интегралы, а ему "из пункта А в пункт Б одновременно выехали...")) Вообще, раз уж оценивался эмоциональный интеллект, интересно было бы копнуть глубже в вопрос психологии и узнать, какие расстройства личности поставят себе ии))

Ответить

Комментарии (3)

Войдите или зарегистрируйтесь, чтобы оставить комментарий

Lada20 дней назад

Получается, Claude сам себя оценил и сам оштрафовал?))

Ксения20 дней назад

есть большие вопросы к оценке эмоционального интеллекта, конечно

maria19 дней назад

Lada20 дней назад

Получается, Claude сам себя оценил и сам оштрафовал?))

Ответить

Ксения20 дней назад

есть большие вопросы к оценке эмоционального интеллекта, конечно

Ответить

maria19 дней назад

Ответить