Генераторы изображений от крупнейших ИИ-компаний Google и OpenAI оказались уязвимыми к обходу встроенных систем модерации. Об этом сообщили журналисты издания Wired, ссылаясь на удалённые обсуждения на Reddit, где пользователи делились так называемыми «джейлбрейками» — специальными способами обмана алгоритмов фильтрации.
Суть уязвимости заключается в том, что при определённой текстовой формулировке запросов нейросети способны создавать контент, формально запрещённый правилами платформ. В частности, речь идёт об изображениях сексуального характера и дипфейках, созданных без согласия людей, чьи фотографии использовались в качестве основы.
По данным Wired, обход фильтров особенно проявился в новых версиях генераторов изображений от Google и OpenAI. Пользователи находили лазейки, позволяющие обходить защиту и получать изображения, нарушающие политику безопасности сервисов. Отдельные случаи затрагивали даже чувствительные темы, что вызвало беспокойство как в профессиональном, так и в пользовательском сообществе.
Проблема не ограничивается двумя компаниями. Ранее подобные случаи уже фиксировались у других ИИ-платформ, включая чат-бот Grok от компании xAI и генератор изображений Flux. Последний, после запуска, быстро стал площадкой для создания дипфейков, так как разработчики изначально не внедрили жёстких фильтров.
Google и OpenAI подтвердили журналистам Wired, что знают о существующих уязвимостях и работают над их устранением. Представители компаний заверили, что системы безопасности регулярно обновляются, а все выявленные обходные сценарии блокируются по мере обнаружения. В обеих компаниях подчёркивают, что борьба с нарушениями — один из приоритетов их работы.
