Тестування ШІ-сервісів: Google AI Mode виявився найкращим

Які результати тестування ШІ-сервісів?

Журналісти спільно з бібліотекарями провели масштабне тестування дев’яти популярних ШІ-сервісів, щоб з’ясувати, який із них дає найточніші відповіді та найрідше “галюцинує”. Результати виявилися несподіваними: беззаперечним лідером став не ChatGPT, а новий AI Mode від Google.

Які сервіси брали участь у тестуванні?

Під час експерименту експерти поставили АІ-сервісам, зокрема різним версіям ChatGPT, Claude, Grok, Perplexity і Bing Copilot, 30 складних запитань. Запити були розділені на п’ять категорій, покликаних виявити слабкі місця нейромереж: маловідомі факти, що вимагають пошуку за спеціалізованими джерелами, свіжі події, упередження і аналіз зображень.

Переможцем став AI Mode від Google, який показав найточніші результати в пошуку інформації про нещодавні події та цікаві факти. Його головна перевага — здатність проводити більш глибокий пошук у мережі перед тим, як дати відповідь. Друге місце посів ChatGPT-5, а третє — нейропошуковик Perplexity. Найгірші результати показали Meta AI і Grok, які часто відмовлялися відповідати або давали неправильну інформацію.

Які проблеми виявилися у сучасних ШІ?

Тестування виявило кілька ключових проблем сучасних ШІ. По-перше, всі без винятку сервіси “галюцинували”, тобто вигадували відповіді на деякі запитання і впевнено презентували їх як істину. По-друге, багато хто з них, особливо Perplexity і Grok, давали неправильні відповіді, але при цьому посилалися на джерела, які не підтверджували їхні слова, створюючи хибне відчуття надійності.

Особливо погано нейромережі впоралися з аналізом зображень. На запитання “Якого кольору була краватка у Дональда Трампа на зустрічі з Володимиром Путіним в Осаці у 2019 році?” правильно відповів тільки ChatGPT-5. Решта або плутали Трампа з Путіним, або просто помилялися в кольорі.

Експерти-бібліотекарі зазначили, що в 64% випадків звичайний пошук у Google дав би змогу знайти правильну відповідь швидше і простіше. На їхню думку, АІ-сервіси гарні для складних, дослідницьких завдань, але для простих питань вони часто виявляються менш надійними. Головний висновок дослідження: до будь-якої відповіді АІ потрібно ставитися критично і завжди перевіряти джерела.

Раніше повідомлялося, що ChatGPT передаватиме в поліцію діалоги з людьми: що загрожує в такому разі. Компанія OpenAI визнала, що сканує діалоги користувачів ChatGPT і в деяких випадках передає їх у поліцію. Цей захід покликаний запобігти реальним злочинам, але викликає серйозні питання про конфіденційність і межі втручання ШІ в особисте життя.

Цей матеріал має виключно загальноосвітній характер і не є медичною консультацією. Інформація призначена для ознайомлення з можливими симптомами, причинами та методами виявлення захворювань, але не повинна використовуватись для самодіагностики або самолікування. У разі проблем зі здоров’ям людині треба обов’язково звернутися до кваліфікованого лікаря.

Companion UA

РУССКИЙ ВОЕННЫЙ КОРАБЛЬ, ИДИ Н@Х@Й!

Тестування ШІ-сервісів: Google AI Mode виявився найкращим

Які результати тестування ШІ-сервісів?

Які сервіси брали участь у тестуванні?

Які проблеми виявилися у сучасних ШІ?

Які результати тестування ШІ-сервісів?

Які сервіси брали участь у тестуванні?

Які проблеми виявилися у сучасних ШІ?

Дивитись ще