Преимущества подходаБолее реалистичная оценкаGDPval приближает тесты к тому, что реально важно в работе, переходя от академических задач к продуктивным.
Экономическая ориентированностьПоскольку задачи взяты из отраслей, важных для ВВП, показатели моделей имеют более прямую связь с экономической ценностью.
Прозрачность и воспроизводимостьОткрыта золотая часть задач (220 задач) и публичный грейдер, что позволяет исследователям воспроизводить эксперименты и участвовать в развитии.
Сдвиг парадигмы оценкиGDPval изменяет вопрос с «какая модель более интеллектуальна» на «насколько она полезна в деле».
Ограничения и предостереженияOne‑shot оценкаТекущая версия не поддерживает итерации, правки, уточнения контекста, что существенно ограничивает оценку работы, где нужны циклы обратной связи.
Несоответствие задач и профессий целикомЗадачи — это фрагменты работы, но не вся профессия (встречи, коммуникации, адаптация). Даже если модель хорошо решает задачи, это не значит, что она способна выполнять всю профессиональную роль.
Влияние стиля и форматированияЭксперты могут быть склонны оценивать визуальную форму, структуру документа, дизайн — что может давать преимущество моделям, сильным в эстетике, даже если содержательная часть слабее.
Неучтённые затраты на интеграцию и надзорЗатраты на человеческий контроль, исправления, адаптацию, интеграцию в рабочий процесс — всё это не включено в «100× скорость / экономия».
Выборка задач и отраслей ограничена44 профессии и 1 320 задач — значительный объём, но далеко не весь спектр знаний и контекстов. Некоторые отрасли, сложные с точки зрения неоднозначности задач, могут оставаться вне оценки.
OpenAI+1Риск переобучения на тип задачиМодели могут адаптироваться к стилю и формату GDPval‑задач, что даёт преимущество на этих тестах, но не означает универсальность.
Перспективы развитияOpenAI уже заявляет, что в будущих версиях GDPval планируется:
Включение интерактивных задач, где модель сможет вести диалог, уточнять требования, делать правки.
Увеличение числа отраслей, профессий и типов задач, включая те, где неопределённость и амбигуитет выше (например, стратегические задачи).
Углублённая оценка не одного шага, а процесса работы над проектом (слияние контекста, обратная связь).
Развитие общественного участия: эксперты, компании и исследователи могут вносить задачи, участвовать в оценке и расширении набора.