OpenAI 13 мая представила
свою новейшую модель искусственного интеллекта GPT-4o (Omni). Однако спустя несколько дней после выпуска модели китайские пользователи заметили, что в новой версии что-то пошло не так: токены, используемые для разбора текста, содержали множество спамных и порнографических фраз.
14 мая Тяньле Цай, аспирант Принстонского университета, изучающий эффективность вывода в крупных языковых моделях, получил доступ к публичной библиотеке токенов и составил список из 100 самых длинных токенов на китайском языке, используемых моделью для обработки китайских запросов.
Оказалось, что только 3 из них были достаточно распространены, чтобы использоваться в повседневных разговорах; остальные представляли собой слова и выражения, связанные с азартными играми и порнографией. Самый длинный токен длился 10,5 китайских иероглифов и буквально означал «бесплатное японское порнографическое видео для просмотра».
Мы в VK: https://vk.com/darkwebex
