Ученые выяснили, каким образом нейросети распознают и объясняют каламбуры

Международная исследовательская группа с участием ученых факультета компьютерных наук НИУ ВШЭ представила корпус KoWit-24, предназначенный для изучения того, как системы искусственного интеллекта распознают игру слов в новостных заголовках. Проект включает 2700 заголовков одного из русскоязычных СМИ, в которых используется каламбур, и позволяет оценить не только способность ИИ замечать языковую игру, но и объяснять ее смысл.

Результаты работы были представлены на конференции RANLP, статья опубликована в репозитории Arxiv.org, а сам датасет и код экспериментов выложены на GitHub. Исследователи отмечают, что для читателя подобные заголовки обычно не требуют пояснений, тогда как для языковых моделей они остаются сложной задачей. Даже современные системы, включая ChatGPT и GigaChat Max, часто ошибаются, особенно при попытке объяснить, на чем именно построена шутка.

Корпус KoWit-24 охватывает материалы за период с января 2021 по декабрь 2023 года и снабжен контекстом: к каждому заголовку добавлены подводка к статье, рубрика и краткое описание сюжета. Для примеров с игрой слов вручную указаны тип приема, ключевые «якоря» смыслового сдвига и исходные выражения, а также даны ссылки на материалы «Википедии», где это возможно. В работе использовалось определение лингвиста Алана Скотта Партингтона, согласно которому игра слов возникает при как минимум двойном прочтении фразы.

После разметки корпус протестировали на пяти больших языковых моделях: GPT-4o, YandexGPT4, GigaChat Lite, GigaChat Max и Mistral NeMo. Эксперименты показали, что расширенные инструкции помогают моделям лучше распознавать каламбур, однако интерпретация источника шутки остается более сложной задачей. Наилучшую точность в распознавании продемонстрировала GPT-4o.

Как отметил доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский, KoWit-24 создает единый стандарт оценки и превращает набор заголовков в полноценный инструмент для сравнения языковых моделей. По его словам, это позволит не только точнее оценивать текущие системы, но и в будущем работать над улучшением их понимания живого языка и генерации юмора.

Читайте также:

Читать нас в Дзен Новостях
Новости Рязанской области, России и мира!