Неудачный дебют: как спам и порно проникли в новую GPT-4o

Неудачный дебют: как спам и порно проникли в новую GPT-4o

OpenAI 13 мая представила
свою новейшую модель искусственного интеллекта GPT-4o (Omni). Однако спустя несколько дней после выпуска модели китайские пользователи заметили, что в новой версии что-то пошло не так: токены, используемые для разбора текста, содержали множество спамных и порнографических фраз.

14 мая Тяньле Цай, аспирант Принстонского университета, изучающий эффективность вывода в крупных языковых моделях, получил доступ к публичной библиотеке токенов и составил список из 100 самых длинных токенов на китайском языке, используемых моделью для обработки китайских запросов.

Оказалось, что только 3 из них были достаточно распространены, чтобы использоваться в повседневных разговорах; остальные представляли собой слова и выражения, связанные с азартными играми и порнографией. Самый длинный токен длился 10,5 китайских иероглифов и буквально означал «бесплатное японское порнографическое видео для просмотра».

Неудачный дебют: как спам и порно проникли в новую GPT-4o

Мы в VK: https://vk.com/darkwebex

Неудачный дебют: как спам и порно проникли в новую GPT-4o

Комментарии