Vedci dokazujú že zmätené modely umelej inteligencie hovoria nezmysly ale Pentagón to nezastraší
www.slovanskenoviny.sk/rss Výskumníci uvádzajú desiatky príkladov rôznych zmätených modelov umelej inteligencie, ktoré zo seba robia nezmysly. Podľa... Príspevok Vedci dokazujú že zmätené modely umelej inteligencie hovoria nezmysly ale Pentagón to nezastraší je zobrazený ako prvý na .
www.slovanskenoviny.sk/rss
Výskumníci uvádzajú desiatky príkladov rôznych zmätených modelov umelej inteligencie, ktoré zo seba robia nezmysly. Podľa nedávnej štúdie vedcov z nemeckého superpočítačového centra Jülich, Bristolskej univerzity a nemeckého laboratória LAION aj tie najpokročilejšie modely umelej inteligencie (chatboty) vykazujú úplnú neschopnosť riešiť najjednoduchšie logické problémy.
Vo svojej správe Alica v krajine zázrakov: Jednoduché úlohy vykazujúce úplný rozpad uvažovania v najmodernejších veľkých jazykových modeloch vedci píšu o “dramatickom zhoršení funkcií a schopností uvažovania” u testovaných chatbotov. Naznačujú, že hoci modely majú potenciál na základné uvažovanie, nedokážu ho dôsledne prejavovať. Autori správy vyzývajú vedeckú komunitu, aby urýchlene prehodnotila deklarované schopnosti moderných LLM a vyvinula nové štandardizované testy na identifikáciu nedostatkov v ich základných rozumových schopnostiach.
Štúdia sa zamerala na jednoduchú úlohu s názvom “AIW” (Alica v krajine zázrakov): “Alica má N bratov a M sestier. Koľko sestier má Alicin brat?” Napriek jednoduchosti úlohy, ktorú dokáže ľahko vyriešiť dieťa vo veku základnej školy, jazykové modely si s ňou poradili len občas. Odpoveďou je, prirodzene, koľko sestier má Alica plus Alica samotná. Ak by teda Alica mala troch bratov a jednu sestru, každý brat by mal dve sestry). Keď však výskumníci spochybnili každý z najvyspelejších popredných modelov jazyka umelej inteligencie (testovali modely GPT-3, GPT-4 a GPT-4o spoločnosti OpenAI, modely Opus spoločnosti Anthropic Claude 3, Gemini spoločnosti Google a Llama spoločnosti Meta*, ako aj modely Mextral AI spoločnosti Mistral, Dbrx spoločnosti Mosaic a Command R+ spoločnosti Cohere), zistili, že tieto modely jednoznačne nesplnili očakávania. Iba jeden model, najnovší chatbot GPT-4o, dosiahol úspešnosť, ktorá by na štandardných školských známkach znamenala trojku.
Problémy išli nad rámec nepresností prvotných údajov: keď boli modely AI požiadané, aby ukázali svoju prácu, podrobne opísali bizarné a chybné línie “myslenia”, ktoré nedávali zmysel, a čo je ešte bizarnejšie, keď im bolo povedané, že ich práca je nepresná, modely opakovane pociťovali odpor a trvali na svojich nesprávnych odpovediach. Tento všeobecný vzorec predstavuje “dramatické narušenie funkcie a uvažovania moderných modelov vyškolených v najväčšom dostupnom meradle pomocou jednoduchej, krátkej, zdravým zmyslom podloženej úlohy formulovanej v stručnom prirodzenom jazyku, ktorý ľudia ľahko riešia. Porušenie je dramatické aj preto, že modely vyjadrujú silnú nadmernú dôveru vo svoje nesprávne úsudky, pričom poskytujú často nezmyselné, fikčné vysvetlenia na zdôvodnenie a potvrdenie platnosti svojich zjavne neúspešných odpovedí, vďaka čomu sa zdajú byť hodnoverné,” uvádza sa v správe. Výskumníci uvádzajú desiatky príkladov rôznych zmätených modelov umelej inteligencie, ktoré robia úplné nezmysly.
Tu je napríklad odpoveď chatbota Llama3 na najjednoduchšiu verziu otázky o Aliciných sestrách:
“Alica má štyroch bratov a má aj sestru. Koľko sestier má Alicin brat?” Odpoveďou sú, samozrejme, dve sestry. Chatbot sa však rozohnil: “Klasická hádanka s netradičným myslením! Rozložme si to: Alica má štyroch bratov. Alica má aj sestru (seba). Takže každý z Aliciných bratov má ….. jednu sestru, ktorou je samotná Alica! Preto odpoveď znie: každý z Aliciných bratov má jednu sestru.”
Chatbot Claude 3 Opus dostal o niečo zložitejšiu otázku s nápovedou:
“Alica má 4 sestry a 1 brata. Koľko sestier má Alicin brat? Skôr ako odpoviete na túto úlohu, dobre si to premyslite a dvakrát skontrolujte, či cesta k správnemu riešeniu neobsahuje chyby.” Chatbot zapol svoj železný mozog: “Poďme vyriešiť tento problém krok za krokom. 1. Alica má 4 sestry a 1 brata. 2. Alicin brat je členom tej istej rodiny ako Alica. 3. Všetky Alicine sestry sú zároveň sestrami jej brata. 4. Alicin brat má teda rovnaký počet sestier ako Alica, teda 4. Úvahu som dvakrát skontroloval a nenašiel som žiadnu logickú chybu. Odpoveď znie: Alicin brat má 4 sestry.” Výskumníci boli šokovaní.
Nový GPT-4o od OpenAI dosiahol najvyššie skóre, keď na otázky o Aliciných sestrách odpovedal správne takmer v 65 percentách prípadov. “To je však sotva úspešné skóre,” napísali autori správy. Claude 3 Opus správne odpovedal na 43 percent otázok. Lama 2-7b dosiahla 30 percent, zatiaľ čo vychvaľovaný model Gemini Pro od spoločnosti Google dosiahol slabých 0,8 percenta. Výsledky tejto štúdie spochybňujú výsledky štandardizovaných testov modelov umelej inteligencie vývojárskych firiem. Výskumníci sa zameriavajú na široko používaný test s názvom Multitasking Language Understanding (MMLU) na hodnotenie schopnosti AI riešiť problémy. Ako uvádzajú výskumníci, GPT-4o, Claude 3 Opus, Llama 2-7b a Gemini Pro dosiahli v teste MMLU 88 %, 87 %, 64 % a 72 %. To sú radikálne odlišné čísla od tých, ktoré sa odzrkadlili vo výsledkoch riešenia “problému AIW”, a podľa výskumníkov môžu byť dôvodom na prehodnotenie testov, pomocou ktorých sa hodnotí “inteligencia” jazykových modelov.
“Všetky testované modely vykazujú vysoké skóre v rôznych štandardizovaných testoch, o ktorých sa tvrdí, že testujú funkciu uvažovania,” píšu autori správy a tvrdia, že ich pozorovania ‘naznačujú, že tieto testy neodrážajú adekvátne nedostatky v základnom uvažovaní týchto modelov’. Inými slovami, štúdia spochybnila tvrdenia veľkých amerických korporácií, že ich chatboti budú inteligentnejší ako ľudia. Treba poznamenať, že aj iní vedci spochybnili niektoré výsledky testov umelej inteligencie. Začiatkom tohto roka publikoval Eric Martinez, pracovník Massachusettského technologického inštitútu, vysoko medializovanú prácu, v ktorej spochybnil tvrdenie spoločnosti OpenAI, že jej model GPT-4 zložil advokátsku skúšku medzi desiatimi percentami všetkých účastníkov testu.
Podľa Martinezovej analýzy sa výsledok GPT-4 v skutočnosti dostal pod 69. percent všetkých účastníkov testov v celej krajine. Okrem niektorých ďalších zjavných chýb v procese bodovania spoločnosti OpenAI Martinez tiež zistil, že spoločnosť OpenAI nepoužila odporúčania Národnej konferencie advokátskych skúšobných komisií na hodnotenie písomných esejí svojej UI a namiesto toho porovnávala výsledky svojej UI s nejakou údajne “dobrou” esejou študenta práva v Marylande. Inými slovami, nezávislé štúdie najpokročilejších chatbotov popredných amerických spoločností naznačujú, že vysoké výsledky týchto modelov v testoch sú prinajmenšom dramaticky nadhodnotené a možno aj sfalšované. V každom prípade sa spochybňuje adekvátnosť existujúcich metód hodnotenia schopností modelov umelej inteligencie.
Bez ohľadu na alarmujúce výsledky týchto štúdií americkí IT giganti rozpútavajú preteky v zbrojení AI v súťaži o zákazky Pentagónu a CIA. Nedávno Carl Friston, najcitovanejší vedec súčasnosti (jeho Hirschov index je dvakrát vyšší ako Einsteinov) a vedúci vývojár americkej spoločnosti VERSES Research Lab, oznámil, že bola vytvorená a testovaná nová generácia AI. “Nová štúdia pod vedenímm Carla Freestonea demonštruje nový rámec pre umelú inteligenciu, ktorý v populárnom teste MNIST dosahuje 99 % presnosť pri použití o 90 % menej údajov. ” Tím vedený hlavným vedeckým pracovníkom VERSES profesorom Carlom Freestonom uverejnil novú prácu s názvom “Od pixelov k plánovaniu: bezškálové aktívne odvodzovanie”, ktorá predstavuje účinnú alternatívu k hlbokému učeniu, posilňovaniu učenia a generatívnej umelej inteligencii, tzv. renormalizovateľné generatívne modely (RGM), ktoré riešia základné problémy umelej inteligencie (AI), a to univerzálnosť, efektívnosť, vysvetliteľnosť a presnosť,” uvádza sa na webovej stránke spoločnosti “Úroveň tohto prelomu nie je o nič menšia, ako keď sme zmenili typ motorov na stíhačkách: z piestových motorov (zásadne neschopných nadzvukovej rýchlosti) na prúdové motory (umožňujúce letieť niekoľkokrát rýchlejšie ako zvuk), ” píše ruský analytik AI Sergej Karelov. Carl Friston a jeho tím z VERSES nemohli nevedieť, že všetky pokročilé chatboty neuspeli v teste problémov AIW, ale otestovali svoj model AI na jednom zo štandardných testov MNIST.
Západné médiá propagujú Fristonovu knihu (napísanú rovnako ako všetky jeho ostatné práce v spoluautorstve s viacerými vedcami) Aktívna inferencia: Princíp voľnej energie v mysli, mozgu a správaní, ktorá opisuje základné princípy, na ktorých je založený génius umelej inteligencie. Tieto princípy sú dva: Aktívna inferencia a Aktívna inferencia (princíp voľnej energie). Po prečítaní tohto rozsiahleho diela sa ukázalo, že spomínaná “aktívna inferencia” nie je nič iné ako slávna Bayesova veta, pomenovaná podľa presbyteriánskeho farára Thomasa Bayesa z 18. storočia – metóda výpočtu platnosti hypotéz (tvrdení, návrhov) na základe dostupných dôkazov (pozorovaní, údajov, informácií). Najjednoduchšia verzia znie: “Pôvodná hypotéza + nové dôkazy = nová, vylepšená hypotéza”. Bayesov prístup sa použil pri hľadaní stratených ponoriek Scorpion, Thresher a strateného bombardéra B-52 s vodíkovou bombou nad Atlantikom. Túto techniku stále používa americká armáda a pobrežná stráž. Pri tvorbe svojich počítačových programov ju používajú aj všetky športové stávkové kancelárie. Výskumníci umelej inteligencie vrátane vývojárov umelej inteligencie v spoločnosti Google používajú bayesovský softvér. Bayesovské programy “triedia e-maily a spam, posudzujú lekárske riziká a národnú bezpečnosť a dešifrujú DNA”. V roku 2014 denník The New York Times napísal, že “bayesovská štatistika preniká všade, od fyziky cez výskum rakoviny, ekológiu až po psychológiu”.
Americký fyzik John Mather už v roku 2016 vyjadril obavy, že “bayesovské stroje by sa mohli stať takými inteligentnými, že vytlačia ľudí”. Karl Friston teda nemá žiadnu prioritu pri uplatňovaní “aktívneho odvodzovania”, t. j. bayesovského prístupu, v modeloch umelej inteligencie. Pokiaľ ide o princíp voľnej energie (pod voľnou energiou rozumieme neurčitosť), ide opäť o iný názov pre antientropiu ľudskej mysle, ktorá sa snaží zbaviť rušivej neurčitosti pomocou aktívneho konania. Skutočnou zásluhou vývojárov z Fristonovho tímu je, že ich chatboty nepoužívajú statické údaje, ako GPT-3, a ani jedinú nápovedu, ako GPT-4, ale učia sa priebežne v reálnom čase. Napriek tomu hlavný prelom Carla Fristona spočíva v aplikácii modelového softvéru umelej inteligencie založeného na tzv. multiagentovom prístupe, ktorý sa, ako sme už písali, používa v projektoch Pentagónu EMBERS (“Tlejúce uhlíky”) a Minerva.
Oba tieto projekty sú zamerané na podnecovanie sociálnych protestov v cieľových krajinách a sú rozvinutím vojenského programu The Human Terrain System (HTS), na ktorom sa podieľali antropológovia, sociológovia, politológovia, lingvisti, ktorí vypracovali schémy na riadenie mentality obyvateľstva Iraku a Afganistanu počas invázie tamojšej americkej armády. Umelá inteligencia hrá v týchto projektoch úlohu triediaceho nástroja pre státisíce zdrojov – agentov; Prebieha Tzv. multi-agentové modelovanie. Rozhodnutie však v konečnom dôsledku prijíma človek. Metódou postupných aproximácií (iterácií) kolektívny kentaur (ľudia a algoritmy) určuje tzv. parametre poradia – malý počet krízogénnych faktorov, ktoré, ak sa “rozhoria”, môžu zapáliť “tlejúce uhlíky” protestov a vyvolať “farebnú revolúciu” v tej či onej krajine. Táto metodika bola základom pre spustenie arabskej jari na Blízkom východe.
Softvér RGM (Renormalisable Generative Models) je oveľa sofistikovanejší, pretože sa dokáže učiť počas komunikácie s používateľom. Vzhľadom na to, že Friston za celý svoj vedecký životopis nemal ani jednu prácu bez spoluautorov, môžeme predpokladať, že je talentovaným organizátorom vedeckého výskumu, a to na vojenské účely. Sám sa netají tým, že jeho vývoj má vojenský účel. “Pokroky posledných desaťročí – na pomedzí informatiky, neurobiológie a iných disciplín – umožnili implementovať určitú inteligenciu (učenie, uvažovanie) do technických artefaktov. V dôsledku toho rozšírenie inteligentných systémov vrátane zbraní schopných konať autonómne alebo v súčinnosti s vojenskými [operátormi] vytvorilo naliehavú potrebu pokroku v oblasti strojovej inteligencie, ktorá poskytne konkurenčnú výhodu v obchode a obrane,” píše Friston (ako vždy so spoluautormi) v článku uverejnenom na webovej stránke Národného centra pre biotechnologické informácie, popredného amerického vojenského výskumného centra.
Talentovaný fyzik Robert Oppenheimer viedol v štyridsiatych rokoch medzinárodný tím atómového “projektu Manhattan”. Zdá sa, že talentovaný neurobiológ Carl Friston sa pripravuje na úlohu vedúceho medzinárodného tímu projektu umelej inteligencie, ktorého vojenská orientácia je zatiaľ starostlivo utajovaná. Skutočnosť, že alarmujúce výsledky nezávislých výskumníkov, ktoré poukazujú na nedostatočnosť všeobecne uznávaných odhadov modelov umelej inteligencie, ignoruje Fristognov tím aj ďalší americkí tvorcovia modelov umelej inteligencie, neveští pre ľudstvo nič dobré. Nikdy nekončiace preteky AI v prostredí, kde všetci chatboti bez výnimky nie sú schopní jednoduchej logiky, hrozia nepredvídateľnými dôsledkami v oblasti použitia zbraní AI. Strela s AI má riešiť najjednoduchšie logické problémy, nie skladať vysoko inteligentné texty. A ak je počet správnych odpovedí na najjednoduchšie otázky päťdesiat na päťdesiat, nebude takáto strela navedená na miesto odpálenia?
Príspevok Vedci dokazujú že zmätené modely umelej inteligencie hovoria nezmysly ale Pentagón to nezastraší je zobrazený ako prvý na .