Самый сложный тест для ИИ, самые неожиданные результаты.

Если вы помните книгу про Электроника, то также можете помнить оттуда тест Тьюринга, переименованный ради художественных допущений. И того, как там машина была слишком очевидна по сравнению с человеком, пусть и шутящим про то, сколько выстрелов в кино он сосчитал.

Сейчас почти все ИИ смогут пройти тест Тьюринга и это проблема - учёные заметили, что для ИИ, по сути своей, уже нет такого же разрывательно сложного теста, как Юкари на фантазме (возвращение в 2024ый год и ассоциации с Тохо?). Поэтому [https://vk.com/wall-148981725_16607|Техасские] исследователи придумали новый тест.

Тысяча исследователей (судя по упомянутому списку, действительно, сколько Редактор раньше не видел - прим. Редактора) со всего мира, разработала новый тип теста, сильнее чем MMLU - Massive Multitask Language Understanding (в современном мире почему-то IT-определения не переводятся, ни эталон производительности (бенчмарк), ни данный тест Большой Языковой Модели).

HLE - Humanity's Last Exam (aka "Последний Экзамен Человечества") стал результатом. Тест из 2500 вопросов, охватывающий математику, гуманитарные науки, естественные науки, древние языки и широкий спектр узкоспециализированных академических областей.

Завершён (по списку вопросов) он был ещё в начале апреля 2025го и после активно проверялся на нейросетях. Вопросы также были составлены таким образом, чтобы иметь один чёткий и проверяемый ответ (список вопросов редактор не нашёл, но при этом был вопрос про перевод древних пальмирских надписей, понимание произношения библейского [https://vk.com/wall-148981725_16023|иврита] или знания анатомии птиц в мельчайших подробностях).

Ну и вопросы так звучали, чтобы ответ нельзя было ни загуглить, ни спросить у Акю. Причём, если на тестах модели отвечали правильно на вопрос, он... исключался из итогового экзамена.

- Когда системы ИИ начинают показывать чрезвычайно хорошие результаты на тестах, проводимых людьми, есть соблазн подумать, что они приближаются к уровню понимания человека, - сказал Тунг Нгуен, тот, кто доработал многие вопросы (73 штуки) для экзамена. - Но HLE напоминает нам, что интеллект - это не только распознавание образов, но и глубина, и контекст, и специализированные знания.

Суть теста была для того, чтобы понять, где ИИ ещё отстаёт от понимания человека. Первые проверки подтвердили эффективность HLE. Даже мощные модели ИИ испытывали трудности с этим экзаменом. GPT-4o показал результат в 2,7%, а Claude 3.5 Sonnet - 4,1%. Модель o1 от OpenAI - 8%. Самые мощные системы на данный момент, включая Gemini 3.1 Pro и Claude Opus 4.6, достигли точности от 40% до 50%. Один раз, летом 2025го, затесался на вершине даже Грок.

Нгуен отмечает, что точные инструменты изучения ИИ в первую очередь нужны для разработчиков, чтобы понять границы знаний и возможностей языковых моделей. По мнению исследовательской группы, высокие баллы ИИ в тестах, созданных для людей, не обязательно указывают на настоящий интеллект. Эти показатели измеряют, лишь насколько хорошо ИИ может задачи, придуманные для обучения людей, но не отражает более глубокое их понимание.

Последний Экзамен Человечества создан как эталон для будущих систем ИИ. Для достижения этой цели исследователи опубликовали лишь некоторые вопросы публично, оставив большинство скрытым, чтобы модели ИИ не могли просто запомнить ответы (достаточно очевидно, но всё равно печально).

#Cirno #Science #IT@cirno_nb

Самый сложный тест для <a wiki-id=ИИ, самые неожиданные результаты." src="https://sun9-52.userapi.com/s/v1/ig2/tyom4mMDHN-eJFK-hIJtluJQrA2MhULcfg01RbCiijo7vBg_8OCAQJaugjXzBRg_-DFHVlkJwdM34b2PPNsc1RFN.jpg?quality=95&as=32x43,48x64,72x96,108x144,160x213,240x320,360x480,480x640,540x720,640x853,720x960,1080x1440,1280x1707,1440x1920,1536x2048&from=bu">
Мы в VK: https://vk.com/cirno_nb