Исследование прошло успешно и выявило неожиданную проблему искусственного интеллекта

Международная группа ученых провела необычную проверку возможностей современных языковых моделей, используя классический психологический тест Струпа, предназначенный для оценки концентрации внимания. Результаты исследования показали, что по мере усложнения задачи и увеличения объема информации искусственный интеллект начинает допускать все больше ошибок. Работа опубликована в научном журнале PNAS Nexus.

Читайте: Россиянам готовят новые запреты: что изменится уже в ближайшее время

Тест Струпа широко применяется в психологии для изучения особенностей внимания и когнитивного контроля. Его суть заключается в том, что человеку показывают названия цветов, написанные чернилами другого цвета. Например, слово «красный» может быть напечатано синим цветом, и испытуемый должен назвать именно цвет текста, а не прочитать написанное слово. Для выполнения задания требуется подавлять автоматическую привычку чтения и удерживать внимание на инструкции.

Авторы исследования под руководством Сукету Пателя решили проверить, насколько эффективно с подобной задачей справляются современные языковые модели. В эксперименте участвовали GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 и Gemini 2.5. На коротких последовательностях, состоящих из пяти слов, все системы продемонстрировали высокую точность и успешно выполняли поставленную задачу.

Однако по мере увеличения длины списков результаты начали заметно ухудшаться. Особенно ярко это проявилось у GPT-4o. Если при работе с пятью словами модель давала 91 процент правильных ответов, то при десяти словах показатель снизился до 57 процентов. Когда количество элементов увеличили до сорока, точность упала до 15 процентов.

Схожая картина наблюдалась и у других участников эксперимента. Claude 3.5 Sonnet сохранял относительно высокие показатели до списков из двадцати слов, однако после этого качество ответов резко снизилось. На самых длинных последовательностях его результат составил лишь 24 процента правильных ответов.

Исследователи полагают, что причина заключается в особенностях работы языковых моделей. По их мнению, при увеличении объема задания системы постепенно теряют фокус на первоначальной инструкции и возвращаются к наиболее привычному для них способу обработки информации — чтению слов вместо выполнения дополнительного условия задачи.

Авторы подчеркивают, что такое поведение принципиально отличается от работы человеческого мозга. Люди способны длительное время удерживать произвольное внимание и подавлять автоматические реакции даже при выполнении длинных однотипных заданий. Полученные результаты, по мнению ученых, демонстрируют существующие ограничения современных языковых моделей в задачах, требующих устойчивого контроля внимания и следования инструкции на протяжении длительного времени.

Читайте также:

Читать нас в Дзен Новостях
Новости Рязанской области, России и мира!