Powtórka z historii
Nie powinniśmy się spodziewać, że dożyjemy myślących maszyn, porównywalnych z człowiekiem. Sztuczna inteligencja, mimo głośnych sukcesów, wciąż musi pokonać kilka poważnych barier.
Powiem wprost, choć będzie to może dla niektórych szokiem, że są już na świecie maszyny, które myślą, uczą się i tworzą (…) W ciągu dwudziestu lat maszyny będą w stanie wykonać każdą czynność, którą dziś wykonuje człowiek” – zdania te wypowiedział Herbert Simon, jeden z ojców-założycieli sztucznej inteligencji. Był rok 1965.
50 lat później, Shane Legg, współzałożyciel DeepMind, mówi: „Sztuczna inteligencja na poziomie człowieka zostanie zbudowana w połowie lat 20. XXI wieku”.
Nad sztuczną inteligencją wisi klątwa hurraoptymizmu. Jeśli eksperci snują takie prognozy, to nic dziwnego, że podchwytują je media (o „pierwszej osobie elektronicznej”, robocie o imieniu Shakey, magazyn „Life” pisał już w 1970 r.), a poważni ludzie debatują nad tym, jak zabezpieczyć się na wypadek opanowania świata przez roboty. Obłąkani futuryści przygotowują się na singularity, scalenie człowieka i maszyny, a tym samym powszechną nieśmiertelność. Aż wreszcie, po kilku latach przychodzi moment otrzeźwienia i wielkie rozczarowanie, bo okazuje się, że zostało nam z tego tylko kilka nowych gadżetów. Sztuczna inteligencja przechodziła ten cykl już dwukrotnie. Lata 60. przyniosły kilka spektakularnych – jak na owe czasy – sukcesów, takich jak Logic Theorist dowodzący twierdzeń logiki czy program do gry w warcaby. Ale już pod koniec tejże dekady pojawiły się pierwsze problemy, które dobrze obrazuje jedna z popularnych anegdot pochodząca z tamtych czasów. Trwała zimna wojna, a armia amerykańska hojnie finansowała badania nad automatycznym tłumaczeniem z rosyjskiego. Pewnego dnia maszyna miała przełożyć ewangeliczne słowa „duch wprawdzie ochoczy, ale ciało słabe”. Zamiast poprawnego „the spirit is willing but the flesh is weak” generałowie mieli zobaczyć przekład „the vodka is good but the meat is rotten” (wódka jest dobra, ale mięso zgniłe) – i wtedy skończyły się pieniądze na badania. W latach 80. sztuczna inteligencja wróciła do łask, jednak tym razem to przemysł robił ekstrawaganckie obietnice. Po niecałej dekadzie złudzeń nadeszła dla sztucznej inteligencji kolejna zima.
Problem klasyfikacji
Wiosna przyszła nieoczekiwanie w 2012 r. Środowisko badaczy wizji komputerowej co roku organizuje konkurs rozpoznawania przedmiotów na ogromnym zbiorze fotografii. W 2010 r. zwycięski program rozpoznał 72 proc. z nich, w 2011 r. 74 proc., by w 2012 r. osiągnąć nagle 85 proc. Już sam ten skok był niezwykły, ale jeszcze bardziej zaskoczyła obserwatorów metoda deep learning, jakiej użyli badacze. Deep learning to statystyczna technika stosowana do klasyfikacji danych przy użyciu wielowarstwowych sieci neuronowych. Sieci neuronowe nie są nową techniką w sztucznej inteligencji – wymyślono je jeszcze w latach 50. Niestety, szybko popadły wówczas w niełaskę, ponieważ dla ich efektywnego funkcjonowania (uczenia się) potrzeba dużej mocy komputerowej i dużej ilości danych. Przez kolejne 50 lat zajmowało się nimi kilku dziwaków, m.in. Geoff Hinton (szef zwycięskiego zespołu z 2012 r.) i jego uczeń Yann LeCun, którzy systematycznie usprawniali stosowane tam algorytmy. W 2012 r. dziwacy stali się gwiazdami: Hinton i LeCun są dziś szefami badań nad deep learning w Google i Facebooku.
W ciągu ostatnich kilku lat pokazano, że bardzo wiele problemów sztucznej inteligencji można sformułować jako problemy klasyfikacji, a tym samym rozwiązywać je przy użyciu sieci neuronowych. I tak, przy rozpoznawaniu obrazów system uczy się przyporządkowywania nazw przedmiotów grupom pikseli, w rozpoznawaniu mowy słowa czy fonemy przypisywane są dźwiękom, pozycje bądź ruchy na szachownicy dostają odpowiednią wartość. Wszystkie z głośnych ostatnio komercyjnych zastosowań sztucznej inteligencji korzystają w mniejszym czy większym zakresie z tej właśnie techniki: Google Translate, wirtualni asystenci: Siri (Apple) i Alexa (Amazon), IBM’s Watson, AlphaGo, autonomiczne samochody. Jest to w sztucznej inteligencji niewątpliwa zmiana jakościowa. Od początku istnienia tej dyscypliny dominującą techniką rozwiązywania problemów była logika, albo co najmniej jakiś formalizm o logikę oparty, który pozwalał explicite reprezentować fakty (ten styl uprawiania sztucznej inteligencji nazywany jest lekceważąco good old fashioned AI – w skrócie GOFAI – czyli „starą dobrą sztuczną inteligencją”). Jeszcze architektura Deep Blue (wygrał w szachy z Kasparowem w 1997 r.) zaprojektowana była w tym stylu; AlphaGo, o którym głośno zrobiło się dwie dekady później, korzysta już z sieci neuronowych.
Czy ta zmiana paradygmatu przyniesie zatem przełom w sztucznej inteligencji? Czy możemy się spodziewać w perspektywie naszego życia pojawienia się maszyn myślących porównywalnych z człowiekiem? Otóż kolejny raz wydaje się, że entuzjazm jest przedwczesny. Oto kilka przykładów barier, jakie sztuczna inteligencja musi jeszcze pokonać.
Nadstabilność i generalizacje
Choć systemy sztucznej inteligencji używają technik deep learning (ang. głębokiego uczenia), to pojęciowo nic „głębokiego” w nich nie ma. Tak naprawdę, te systemy nie rozumieją bowiem nic z danych, które analizują. Głośny system SQuAD stworzony na Uniwersytecie Stanforda potrafi odpowiadać na pytania korzystając z informacji w Wikipedii. Robi to z fenomenalną precyzją, bo potrafi odpowiedzieć poprawnie na 84,7 proc. pytań wobec 91,2 proc. osiąganych przez ludzi. Ale wystarczy lekko „wytrącić go z równowagi”, by jego skuteczność spadła do 7 proc. Np. na pytanie, gdzie Nikola Tesla przeprowadził się w 1880 r., SQuAD poprawnie wskazuje stosowny akapit w Wikipedii i odpowiada, że była to Praga. Ale wystarczy na koniec tego akapitu dodać bezładną sekwencję słów „tesla move move other george”, by SQuAD odpowiedział: „george”. Badacze nazywają ten fenomen – trochę nieintuicyjnie – nadstabilnością, to jest niezdolnością modelu do odróżnienia zdania zawierającego odpowiedź na pytanie od zdania, w którym jedynie pojawiają się pewne słowa użyte w pytaniu.
Systemy rozpoznawania obrazów cierpią na jeszcze inną przypadłość: przeczulenie. Nawet niewielka (i dla ludzi nieistotna) zmiana analizowanego obrazu prowadzi do radykalnej zmiany interpretacji. W ciągu ostatnich kilku lat ukazało się już kilkadziesiąt publikacji naukowych ilustrujących ten fenomen. Najbardziej zatrważające było studium sprzed trzech lat pokazujące, jak łatwo jest wprowadzić w błąd system interpretujący znaki drogowe. Oto dwa znaki STOP, które badacze nieco zdewastowali.
Dla ludzkiego umysłu są to nadal bez żadnych wątpliwości znaki STOP. Tym czasem analizowany system rozpoznaje w 100 proc. przypadków (znaki widziane z różnej odległości i pod różnym kątem) oraz z pewnością ponad 80 proc., że jest to znak ograniczenia prędkości do 45 mil/godz. Czy nadal chcesz, Czytelniku, jeździć autonomicznym samochodem? Ludzie uczą się pojęć abstrakcyjnych zarówno przez dosłowne definicje, jak i generalizacje z danych empirycznych. Z racji swojej architektury, sieci neuronowe nie mogą uczyć się pojęć abstrakcyjnych tą pierwszą metodą, ale, jak się okazuje, nie potrafią też drugą. Grupa bada czy z Austrii postanowiła sprawdzić, czy system rozpoznawania obrazów GoogLe Net potrafi wyabstrahować, a potem użyć w dalszym rozumowaniu kategorie, do których zaliczyć można przedstawiane mu do klasyfikacji obrazy. Oto konkretne zadanie (skądinąd często stosowane w testach na inteligencję).
Pary obrazków po lewej stronie mają jakąś wspólną własność, podobnie jak pary po prawej. Własności te są różne. Zadanie polega na tym, by je zidentyfikować, a następnie zgodnie z tymi własnościami zaklasyfikować nowy, niewidziany wcześniej obrazek. W powyższym przypadku własności te są oczywiste: „różny kształt” i „ten sam kształt”. Istotnie, ludzie rozwiązują to zadanie bez trudu; aż 98 proc. badanych poprawnie zaklasyfikowało nowy obrazek jako należący do jednej z tych dwóch kategorii. A jak sobie poradził GoogLeNet? Po pokazaniu 20 tys. par obrazków (dla nauczenia się stosownych kategorii), system ten został przetestowany na zestawie 10 tys. nowych obrazków. Zaklasyfikował prawidłowo 50 proc. z nich. To najgorszy wynik, jaki można było uzyskać, bo wybierając całkowicie losowo jedną z dwóch odpowiedzi mamy dokładnie 50-procentowe szanse trafienia.
Autorzy tych badań nie potrafią odpowiedzieć, dlaczego wyniki GoogLeNet były tak słabe, tym bardziej że dużo lepsze wyniki system ten uzyskiwał przy identyfikowaniu własności związanych z położeniem figur. Ale zaobserwowali też inny fascynujący fenomen. Otóż Go ogLeNet – jeśli już uzyskiwał dobre wyniki – to ich odsetek rósł wraz z liczbą pokazanych mu obrazków w fazie uczenia się. Tymczasem ludzie albo odpowiada li ze stuprocentową precyzją już po obejrzeniu kilku przykładów, albo nie potrafili odpowiedzieć wcale (odpowiadali losowo). Wydaje się więc, że mechanizmy klasyfikacji w ludzkim mózgu działają na innych zasadach niż te maszynowe.
Wiedza bez ciała
Ale największym chyba problemem dla systemów sztucznej inteligencji jest ich nieumiejętność nabywania wiedzy potocznej. Przez wiedzę potoczną rozumie się najczęściej naszą „intuicyjną” wiedzę z zakresu fizyki, biologii i psychologii. Już trzyletnie dziecko rozumie np., że aby piłka się toczyła, trzeba ją kopnąć, jednak pies może się samodzielnie poruszać; rozpoznaje też emocje na twarzach dorosłych.
Oto znakomita ilustracja zakresu tej wiedzy z bloga Andreja Karpathy’ego, szefa grupy AI w Tesli. Spójrzmy na zdjęcie.
Wystarczy kilka sekund, żeby każdy z nas wiedział, że: 1) postaci po lewej stronie nie są prawdziwe – widzimy ich od bicia w lustrze; 2) mężczyzna z lewej stoi na wadze (którą trudno jest rozpoznać po samym wyglądzie – ale nam się to udaje po pozie mężczyzny); 3) były prezydent USA Barack Obama trzyma na tej wadze nogę – dowiadujemy się tego z kontekstu zdarzenia, choć z dwuwymiarowego zdjęcia wcale to nie wynika; 4) rozumie my też elementarną fizykę: naciśnięcie wagi przez Obamę spowoduje „nieprawidłowy” wynik; 5) widzimy, że mężczyzna na wadze nie jest świadomy, co robi Obama – i wynik ważenia go zaskakuje; 6) mężczyźni w tle są rozbawieni, bo interpretują stan umysłu mężczyzny na wadze w kontekście społecznej potrzeby utrzymywania wagi ciała w normie.
Kluczowe dla właściwej interpretacji fotografii są podkreślone powyżej słowa – bez ich zrozumienia na fotografii widzimy jedynie grupę ludzi w jakimś po mieszczeniu.
Jeśli ktoś uważa, że to zinterpretowanie takiej fotografii byłoby dla sztucznej inteligencji zbyt trudne, bo to zada nie wymagające wyrafinowanej wiedzy psychologicznej, możemy zaproponować prostszy test.
Ernie Davis, jeden z najbardziej znanych ekspertów w dziedzinie formalizacji wiedzy potocznej, proponuje w ra mach testu zadać jakiemukolwiek systemowi sztucznej inteligencji jedno z ta kich oto pytań. 1) Czy można zrobić sałatkę z bawełnianej koszuli? 2) Jeśli wsadzisz szpilkę w marchewkę, to zrobisz dziurę w marchewce, czy w szpilce?
Na oba te pytania bez trudu odpowiedzą trzylatki, a nie poradzi sobie z nimi żaden dotychczas istniejący system. Dziecko zdobywa wiedzę o świecie, wchodząc w interakcje z wieloma obiektami naraz i korzystając ze wszystkich swoich zmysłów jednocześnie. Kognitywiści już dawno zauważyli, że ciało jest integralnym elementem inteligentnych zachowań; nasza zdolność stawiania czoła nowym sytuacjom wymaga ulokowanego w tych sytuacjach fizycznego i biologicznego ciała. Jak zatem miałyby zdobywać tę wiedzę bezcielesna i bezzmysłowa maszyna? Według filozofa Danie la Dennetta jednym z największych od kryć w badaniach nad sztuczną inteligencją było spostrzeżenie, że robot (maszyna myśląca) to słynna tabula rasa. Żeby taka maszyna mogła funkcjonować w rzeczywistym świecie, a w szczególności wchodzić w interakcje z ludźmi, musi mieć całą potrzebną jej wiedzę potoczną poda ną explicite. Jak dotąd, zupełnie nie wie my, jak to zrobić.
Warto podkreślić, że wszystkie dyskutowane powyżej trudności zidentyfikowane zostały przez samych badaczy sztucznej inteligencji, a nie ludzi tej dyscyplinie niechętnych (jak to często bywało w przeszłości). Ten sceptycyzm wychodzący od samych naukowców jest bardzo potrzebny, bo według giganta doradcze go PwC w ciągu ostatnich dwóch lat licz ba firm, które zamierzają wdrożyć u siebie technologie AI, spadła z 20 proc. do 4 proc. Aż siedmiu na dziesięciu szefów firm (spośród 2500 przebadanych przez Boston Consulting Group), które dokonały znacznych inwestycji w technologie sztucznej inteligencji, jest rozczarowanych ich efektami. Najlepszą chyba ilustracją problemu jest rozwój technologii autonomicznych samochodów: w 2015 r. Elon Musk dawał swojej firmie trzy lata na ich zaprojektowanie i produkcję. Ostatnia rzecz, jakiej sztuczna inteligencja potrzebuje, to kolejne rozczarowanie i nieufność ze strony przemysłu oraz opinii publicznej.
Jak daleko zatem jesteśmy od zbudowania maszyny myślącej porównywalnej z człowiekiem? W połowie lat 80. kry tyk sztucznej inteligencji Stuart Dreyfus powiedział: „Dzisiejsze zapewnienia i na dzieje na postęp (…) w dziedzinie budowy inteligentnych maszyn są jak przekona nie, że ktoś, kto wszedł na drzewo, dokonał postępu w drodze na Księżyc”. Dziś ta krytyka brzmi zbyt surowo, ale metafora jest bardzo trafna: jeśli chcemy się dostać na Księżyc, to musimy wiedzieć, jak to zrobić, musimy znaleźć metodę, która da nam nadzieję, że ta podróż się uda. Moim zdaniem ciągle jej nie znaleźliśmy.
Jarek Gryz
Dofinansowano z programu „Społeczna odpowiedzialność nauki” Ministra Nauki i Szkolnictwa Wyższego w ramach projektu „Otwarta Nauka w Centrum Kopernika”.