Международная исследовательская группа с участием ученых факультета компьютерных наук НИУ ВШЭ представила корпус KoWit-24, предназначенный для изучения того, как системы искусственного интеллекта распознают игру слов в новостных заголовках. Проект включает 2700 заголовков одного из русскоязычных СМИ, в которых используется каламбур, и позволяет оценить не только способность ИИ замечать языковую игру, но и объяснять ее смысл.
Результаты работы были представлены на конференции RANLP, статья опубликована в репозитории Arxiv.org, а сам датасет и код экспериментов выложены на GitHub. Исследователи отмечают, что для читателя подобные заголовки обычно не требуют пояснений, тогда как для языковых моделей они остаются сложной задачей. Даже современные системы, включая ChatGPT и GigaChat Max, часто ошибаются, особенно при попытке объяснить, на чем именно построена шутка.
Корпус KoWit-24 охватывает материалы за период с января 2021 по декабрь 2023 года и снабжен контекстом: к каждому заголовку добавлены подводка к статье, рубрика и краткое описание сюжета. Для примеров с игрой слов вручную указаны тип приема, ключевые «якоря» смыслового сдвига и исходные выражения, а также даны ссылки на материалы «Википедии», где это возможно. В работе использовалось определение лингвиста Алана Скотта Партингтона, согласно которому игра слов возникает при как минимум двойном прочтении фразы.
После разметки корпус протестировали на пяти больших языковых моделях: GPT-4o, YandexGPT4, GigaChat Lite, GigaChat Max и Mistral NeMo. Эксперименты показали, что расширенные инструкции помогают моделям лучше распознавать каламбур, однако интерпретация источника шутки остается более сложной задачей. Наилучшую точность в распознавании продемонстрировала GPT-4o.
Как отметил доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский, KoWit-24 создает единый стандарт оценки и превращает набор заголовков в полноценный инструмент для сравнения языковых моделей. По его словам, это позволит не только точнее оценивать текущие системы, но и в будущем работать над улучшением их понимания живого языка и генерации юмора.
Читайте также:
- На видео сняли, как робот EngineAI T800 отправил своего гендиректора в нокдаун
- К Рождеству на небе появится «Вифлеемская звезда» — редкое явление
- Экс-глава NASA: Программа Artemis грозит США поражением в новой «лунной гонке»
- Астроном рассказал, что планете грозит синхронизация с Луной и сутки по 1000 часов
- Российские ученые спорят о воздействии магнитных бурь: самовнушение или опасность
