GDPval - Как AI может помочь с работой

Что такое GDPval

Традиционные бенчмарки в области ИИ (например, тесты на знание, логические задачи, вопросы из школьной программы, кодинг-задачи) дают нам ориентиры по «интеллекту» моделей, но часто далеки от реальной рабочей практики. OpenAI ставит задачу заполнить этот разрыв: показать не просто, насколько модель умна, а насколько она полезна в задачах, которые люди выполняют в профессии, и которые имеют экономическую значимость.
Бенчмарк GDPval (от англ. Gross Domestic Product valuation, т.е. «оценка по вкладу в ВВП») нацелен на измерение того, как хорошо модели ИИ могут выполнять задачи из настоящей работы, особенно в «умственной» сфере.
Название «GDPval» отражает идею: взять отрасли, значимые для ВВП, и оценивать модели по тем задачам, которые реально приносят экономическую ценность.
Протестируй Vibe прямо сейчас
Бесплатный AI-агент для VSCode

Что измеряет GDPval: задачи, профессии, отрасли

Профессии и отрасли
В первой версии GDPval охвачены 44 профессии , выбранные из 9 отраслей, которые в совокупности вносят значительный вклад в ВВП США (по данным Федерального Резерва и статистики занятости)
  • Отрасли выбирались так, чтобы превышать порог ~5 % вклада в ВВП США.
  • Затем внутри этих отраслей выбирались профессии с высоким уровнем компенсации и которые преимущественно относятся к «умственной» работе (т.е. задачи, не физические). Для определения «умственной» работы использовалась база O*NET, где задачи классифицировались как физические или не физические. Чтобы профессия отнеслась к «knowledge work», не менее 60 % её задач должны относиться к не‑физическим.
  • Среди включённых профессий: разработчики ПО, юристы, бухгалтера, инженеры, медсёстры, аналитики, продюсеры/редакторы, менеджеры закупок, инспекторы соответствия и др.
Таким образом, GDPval охватывает широкий спектр «умственной» работы, не ограничиваясь ИТ или наукой.

Задачи
  • Всего в GDPval включено 1 320 специализированных задач (для полного набора), из которых 220 задач составляют «gold set».
  • В среднем на каждую профессию приходится ~30 задач.
  • Задачи разрабатываются экспертами с большим опытом (в среднем 14 лет) и проходят несколько этапов проверки, чтобы гарантировать, что они адекватно отражают реальную работу, её контекст и требования.
  • Особенность GDPval: задачи не просто текстовые подсказки — они поставляются с контекстом, прикреплёнными файлами, схемами, техническими спецификациями, и ожидания результатов разнообразны: это могут быть документы, таблицы, диаграммы, презентации, чертежи и т.д.
Например, одна задача может быть: «Вы — инженер на сборочном участке, вам нужно предложить приспособление, чтобы один человек мог выполнить тест кабельной катушки, создать концепт‑модель, оформить краткую презентацию» (с приложением спецификаций).

Метод оценки (градация) и ранжирование
Задачи оцениваются по принципу слепого сравнения: эксперты не знают, чей ответ — от модели, чей — от человека, и сравнивают два решения. Они отмечают, какой ответ лучше, или считаются равными.
  • Итоговая метрика часто выражается через долю случаев, где модель «побеждает» человека, либо «равна» ему
  • Для ускорения оценки был разработан автомаштабатор / автогрейдер (autograder), который пытается предсказать, как люди оценят результаты. Но он используется вспомогательно, поскольку его согласованность с экспертами (≈ 66 %) меньше, чем между самими экспертами (~71 %).
  • Поскольку задачи даются как «one-shot» (т.е. без итерации, правок, обратной связи), оценка не учитывает сценарии, когда модель должна дорабатывать, уточнять контекст или отвечать на запросы клиента в процессе.

Результаты первых испытаний: как модели справляются

Результаты первого запуска GDPval показали, что современные флагманские модели вплотную приблизились к уровню экспертов во многих задачах.

  • Приближение к уровню эксперта: На золотом наборе из 220 задач лучшие модели в примерно половине случаев были оценены экспертами как выполняющие работу на уровне человека или лучше. Лидером по общим показателям стала модель Claude Opus 4.1.
  • Эффективность: Модели демонстрируют значительное преимущество в скорости и стоимости. С учетом времени инференса и стоимости API они завершали задачи примерно в 100 раз быстрее и в 100 раз дешевле, чем человек.

Сводные результаты моделей в GDPval
Из публично доступных источников и обзоров можно выделить следующие ключевые результаты:

Результаты лидеров
  • Одной из лучших моделей по показателям стала Claude Opus 4.1 — в ряде задач её результаты оценивались как «равны или лучше человека» почти в половине случаев.
  • GPT‑5 (High) также показала высокие результаты, но обычно немного уступает лидеру по сумме wins + ties.
  • Модели, выпущенные ранее (GPT‑4o, o4-mini и др.), показали значительно более низкие результаты, что говорит о быстром прогрессе.
Ускорение и экономия
  • OpenAI подчёркивает, что при «чистой» оценке (то есть время вывода результата + стоимость API) модели могут выполнять задачи приблизительно в 100 раз быстрее и в 100 раз дешевле, чем эксперты.
  • Однако важно понимать: в реальной практике требуется надзор, проверка, исправления, интеграция — эти затраты не учтены в этой «100×» оценке.
Разница по отраслям и задачам
  • В зависимости от отрасли и типа задачи модели показывают разные сильные стороны: например, Claude Opus 4.1 часто выигрывает по эстетике, форматированию, аккуратному оформлению (например, презентации, слайды), в то время как GPT‑5 может быть сильнее в точности содержания, глубоком знании предмета.
  • В некоторых отраслях, таких как государственный сектор и розничная торговля, Claude показывает особенно хорошие результаты, иногда превышая 50 % в доле wins + ties.
  • В «информационной» отрасли (например, журналистика, редактирование, продюсеры) модели сталкиваются с дилеммами форматирования против точности: иногда «красивый» документ, но с фактическими ошибками, может быть оценён хуже.
Потенциал роста и прогресс
  • Отмечается, что производительность моделей на задачах GDPval от GPT‑4o к GPT‑5 более чем удвоилась, что свидетельствует о динамичном развитии способности моделей справляться с реальными задачами.
  • Опыт показывает, что оптимизация подсказок (prompt engineering) и увеличение «мышления» модели (reasoning budget) может улучшить её результаты.

Преимущества, ограничения и перспективы

Преимущества подхода
Более реалистичная оценка
GDPval приближает тесты к тому, что реально важно в работе, переходя от академических задач к продуктивным.

Экономическая ориентированность
Поскольку задачи взяты из отраслей, важных для ВВП, показатели моделей имеют более прямую связь с экономической ценностью.

Прозрачность и воспроизводимость
Открыта золотая часть задач (220 задач) и публичный грейдер, что позволяет исследователям воспроизводить эксперименты и участвовать в развитии.

Сдвиг парадигмы оценки
GDPval изменяет вопрос с «какая модель более интеллектуальна» на «насколько она полезна в деле».

Ограничения и предостережения
One‑shot оценка
Текущая версия не поддерживает итерации, правки, уточнения контекста, что существенно ограничивает оценку работы, где нужны циклы обратной связи.

Несоответствие задач и профессий целиком
Задачи — это фрагменты работы, но не вся профессия (встречи, коммуникации, адаптация). Даже если модель хорошо решает задачи, это не значит, что она способна выполнять всю профессиональную роль.

Влияние стиля и форматирования
Эксперты могут быть склонны оценивать визуальную форму, структуру документа, дизайн — что может давать преимущество моделям, сильным в эстетике, даже если содержательная часть слабее.

Неучтённые затраты на интеграцию и надзор
Затраты на человеческий контроль, исправления, адаптацию, интеграцию в рабочий процесс — всё это не включено в «100× скорость / экономия».

Выборка задач и отраслей ограничена
44 профессии и 1 320 задач — значительный объём, но далеко не весь спектр знаний и контекстов. Некоторые отрасли, сложные с точки зрения неоднозначности задач, могут оставаться вне оценки. OpenAI+1

Риск переобучения на тип задачи
Модели могут адаптироваться к стилю и формату GDPval‑задач, что даёт преимущество на этих тестах, но не означает универсальность.

Перспективы развития
OpenAI уже заявляет, что в будущих версиях GDPval планируется:
Включение интерактивных задач, где модель сможет вести диалог, уточнять требования, делать правки.
Увеличение числа отраслей, профессий и типов задач, включая те, где неопределённость и амбигуитет выше (например, стратегические задачи).
Углублённая оценка не одного шага, а процесса работы над проектом (слияние контекста, обратная связь).
Развитие общественного участия: эксперты, компании и исследователи могут вносить задачи, участвовать в оценке и расширении набора.

Что это значит для рынка труда, экономики и ИИ

Автоматизация рутинных задач
Сильные стороны моделей уже сегодня — задачи с чёткими требованиями, шаблонностью, форматированием, анализом — где они могут взять на себя часть работы, освобождая человека для стратегических, творческих или межличностных функций.

Интеграция человека + ИИ
Более реалистичное использование: не «ИИ заменяет человека», а «ИИ сначала выполняет задачу, человек проверяет и дорабатывает». Это может сократить время и стоимость при сохранении качества.

Изменение требований к навыкам
Возможно, ключевые навыки будут смещаться: меньше выполнение рутинных задач вручную, больше управление ИИ, проверка, корректировка, креативность.

Экономический рост и продуктивность
Если ИИ сможет взять на себя значительный объём «умственной работы», это может стимулировать рост общей продуктивности экономики.

Риски и справедливость
Неравномерность: некоторые профессии быстрее «автоматизируются», другие останутся трудными. Нужно следить за тем, чтобы выгоды от ИИ распределялись справедливо.

Оценка ИИ на практическом уровне
GDPval может стать стандартом, по которому будут измерять «риэл ворк» способности ИИ — для компаний, инвесторов и регулирующих органов.

Ознакомиться с оригинальной работой можно тут

GDPval представляет собой важный шаг в эволюции оценки ИИ — от чисто академических задач к задачам, которые реально имеют ценность в профессиональной жизни. Он задаёт новую планку: не просто «уметь думать», а «уметь работать». Первые результаты впечатляют — модели уже достигают частичной паритетности с экспертами по ряду задач. Но ещё впереди долгий путь: расширение задач, интерактивность, интеграция в реальную рабочую жизнь.
Made on
Tilda