Старые тесты AI больше не работают — и это официальная позиция, потому что Google DeepMind представила новую систему оценки интеллекта нейросетей, которая должна заменить устаревшие подходы вроде теста Тьюринга и стандартных бенчмарков.

Проблема в том, что современные модели уже переросли классические тесты: они показывают высокие результаты, но это не значит, что они действительно понимают или мыслят на уровне человека. Поэтому рынок AI сейчас находится в странной ситуации — модели становятся мощнее, но объективно измерить их интеллект становится все сложнее.

Разберем, что предложил DeepMind и почему это может стать новой основой для оценки искусственного интеллекта.

Почему старые тесты больше не работают

Ключевая проблема — современные нейросети научились обходить тесты, показывая высокие результаты без реального понимания, и это ломает саму идею оценки.

Тест Тьюринга

Раньше считался стандартом.

Сейчас:

  • слишком простой
  • легко обойти

Бенчмарки

Проблема:

  • модели обучаются на тех же данных
  • результаты завышены
AI научился проходить тесты — но это не значит, что он стал умнее.

Новая система оценки от DeepMind

Еще больше полезного в Telegram канале

Разбираю связки, кейсы и инструменты без воды

Перейти в Telegram

DeepMind предлагает оценивать AI не по одному показателю, а по целому набору когнитивных способностей — фактически, как человека.

10 ключевых параметров

Система включает:

  • восприятие
  • генерацию
  • внимание
  • обучение
  • память
  • логическое мышление
  • метапознание
  • исполнительные функции
  • решение задач
  • социальный интеллект

Это уже не тест — это профиль интеллекта.

AI начинают оценивать как систему мышления, а не как инструмент.

Как это будут измерять

DeepMind предлагает трехэтапную систему оценки, которая должна дать более объективную картину возможностей AI.

Шаг 1 — тестирование

Проверка каждой способности отдельно.

Шаг 2 — сравнение с человеком

Формируется человеческий уровень.

Шаг 3 — профиль интеллекта

Показывает:

  • сильные стороны
  • слабые стороны
Теперь важно не «умный ли AI», а в чем он сильнее или слабее человека.

Что это меняет

Главное изменение — переход от оценки в целом к детальному анализу, потому что AI уже невозможно описать одной метрикой.

Для разработчиков

  • понятно, где улучшать модель

Для бизнеса

  • понятно, где использовать AI

Для рынка

  • появляется новый стандарт
Оценка AI становится такой же сложной, как и сам AI.

Почему это важно для будущего AI

Это шаг к AGI, потому что если система сможет обгонять человека по всем параметрам, это будет означать качественный скачок, а не просто улучшение отдельных навыков.

Новый уровень

AI оценивается как:

  • интеллект
  • а не инструмент

Новая гонка

Компании будут соревноваться:

  • по когнитивным возможностям
Кто первым обгонит человека по всем параметрам — тот создаст AGI.

Главный вывод

DeepMind фактически меняет подход к AI, потому что теперь важно не просто сделать модель лучше, а понять, насколько она действительно приближается к человеческому интеллекту.

И это делает гонку AI более прозрачной — и более жесткой.

Следующий этап AI — это не рост, а измерение.

FAQ

Почему старые тесты не работают?

Потому что модели научились их обходить.

Что предлагает DeepMind?

Оценку по 10 параметрам интеллекта.

Это приближает AGI?

Да, потому что дает критерии оценки.