Колико је ChatGPT поуздан? - Истраживање показало забрињавајући ниво нетачних информација

ChatGPT и слични АI модели често се доживљавају као изузетно интелигентни, али истовремено непоуздани извори информација.

Недавно истраживање које је спровео OpenAI, а о коме је писао The New York Times, осветљава ову контрадикторност. Наиме, OpenAI је открио да њихови најновији модели, укључујући GPT-о3 и о4-mini, имају повећану склоност ка генерисању “халуцинација” – нетачних или потпуно измишљених информација.

Најновији водећи модели OpenAI, GPT-о3 и о4‑мини, дизајнирани су да опонашају људску логику. За разлику од својих претходника, који су се углавном фокусирали на генерисање течног текста, GPT-о3 и о4‑mini би требало да “размишљају корак по корак”. OpenAI се хвалио да о3 може да парира или надмаши резултате доктора наука из области хемије, биологије и математике. Али извештај OpenAI-ја открива застрашујуће податке за свакога ко одговоре на ChatGPT узима као номиналну вредност.

Удео халуцинација је до 79%

OpenAI је открио да је GPT о3 халуцинирао у трећини задатака на бенчмарк тесту о јавним личностима — дупло више од прошлогодишњег о1 модела. Компактнији о4‑мини био је још гори, са халуцинацијама у 48% сличних задатака.

Када су модели тестирани са општим питањима из SimpleKA теста, удео халуцинација је скочио на 51% у о3 и 79% у о4‑mini. Ово није само мала грешка у систему, то је права криза идентитета. Помислили бисте да би систем који се рекламира као “разуман” барем двапут проверио пре него што било шта измисли, али то једноставно није случај.

“Можда су само детаљнији у својим одговорима”

Једна теорија која кружи у заједници вештачке интелигенције каже да што више модел “мисли”, то има више могућности за грешке. За разлику од једноставнијих модела који се држе веома поузданих предвиђања, рационални модели улазе у област где морају да размотре више путева, повезују удаљене чињенице и у суштини импровизују – а импровизација са чињеницама често значи измишљање.

OpenAI је за Тајмс рекао да повећан број халуцинација можда не потиче од грешке у моделима интелигенције. Уместо тога, могли би једноставно бити експанзивнији и “слободнији” у својим одговорима.

Модели треба да буду корисни, а не опасни

Будући да нови модели не понављају само предвидљиве чињенице већ спекулишу о могућностима, граница између теорије и измишљених чињеница за AI постаје замагљена. Нажалост, неке од ових “могућности” су потпуно одвојене од стварности.

Међутим, више халуцинација је супротно од онога што OpenAI или конкуренти као што су Google и Anthropic желе. Називање AI chatbot-ова “помоћницима” или “копилотима” имплицира да су корисни, а не опасни. Адвокати су већ имали проблема јер су користили ChatGPT и нису приметили измишљене судске преседане. Ко зна колико је оваквих грешака изазвало тешкоће у мање ризичним ситуацијама?

Што се више користи, мање је простора за грешке

Могућности да халуцинације изазову проблем брзо се шире како AI улази у учионице, канцеларије, болнице и државне службе. Напредна вештачка интелигенција може помоћи у писању пријава за посао, решавању проблема са наплатом или анализи табела, али парадокс је да што је AI кориснија, то има мање простора за грешке.

Не можете тврдити да некоме штедите време и труд ако мора да проведе исто толико времена проверавајући све што кажете. Не зато што ови модели нису импресивни – GPT о3 је показао невероватне способности кодирања и логике и у неким стварима надмашује многе људе. Проблем настаје оног тренутка када одлучи да је Abraham Linkoln водио подкаст или да вода кључа на 27°C; тада се распршује илузија о поузданости.

Док се ови проблеми не реше, гледајте сваки одговор AI модела са огромном дозом скептицизма. Понекад ChatGPT помало личи на особу која је пуна самопоуздања док прича глупости, закључује се у извештају.

Нутритивне вредности кикирикија и његовог путера

Преузмите андроид апликацију.

ОзнакеChatGPT вештачка интелигенција

ChatGPT и слични АI модели често се доживљавају као изузетно интелигентни, али истовремено непоуздани извори информација.

Удео халуцинација је до 79%

“Можда су само детаљнији у својим одговорима”

Модели треба да буду корисни, а не опасни

Што се више користи, мање је простора за грешке

Погледајте још