Исследование показывает, что даже лучшие модели искусственного интеллекта видят галлюцинации

Все генеративные модели искусственного интеллекта видят галлюцинации, от Gemini от Google до Claude от Anthropic и последней скрытой версии GPT-4o от OpenAI. С другими словами, модели являются ненадежными повествователями - иногда с комическим эффектом, иногда проблематично.

Но не все модели выдумывают одинаково. И вид вранья, который они говорят, зависит от источников информации, с которыми они были столкнуты.

Недавнее исследование от исследователей из Университета Корнелла, университетов Вашингтона и Ватерлоо и некоммерческого исследовательского института AI2 стремилось провести оценку галлюцинаций, проверяя модели типа GPT-4o на факты в сравнении с авторитетными источниками по темам, включая право, здравоохранение, историю и географию. Они обнаружили, что ни одна модель не показала исключительные результаты по всем темам и что модели, которые меньше всего галлюцинировали, делали это отчасти потому, что отказывались отвечать на вопросы, на которые они бы ошибались.

«Самый важный вывод из нашей работы заключается в том, что мы пока не можем полностью доверять результатам генерации модели», - сказала ТечКранчу Вэнтинг Чжао, аспирант Корнелла и соавтор исследования. - «На данный момент даже лучшие модели могут генерировать текст без галлюцинаций всего около 35% времени».

Были и другие академические попытки исследования «фактичности» моделей, включая одну от отдельной команды, связанной с AI2. Но Чжао отмечает, что эти более ранние тесты задавали моделям вопросы с ответами, которые легко можно найти на Википедии - не именно самый сложный запрос, учитывая что большинство моделей обучены на данных из Википедии.

Чтобы сделать свой бенчмарк более сложным и более точно отразить типы вопросов, которые люди задают моделям, исследователи установили темы по сети, которых нет в Википедии. Более половины вопросов в их тесте нельзя было ответить с использованием Википедии (они включили некоторые вопросы с википедийным источником на всякий случай) и касались тем, включая культуру, географию, астрономию, поп-культуру, финансы, медицину, информатику и знаменитостей.

Для своего исследования исследователи оценили более дюжины популярных моделей, многие из которых были выпущены в прошлом году. Помимо GPT-4o, они тестировали «открытые» модели, такие как Llama 3 70B от Meta, Mixtral 8x22B от Mistral и Command R+ от Cohere, а также модели, спрятанные за API, такие как Sonar-Large от Perplexity (основанный на Llama), Gemini 1.5 Pro от Google и Claude 3 Opus от Anthropic.