Nyelv, mesterséges intelligencia, na meg felsőtest strandszezon utánra

nyelvek_kulturakTöbbször érintettük azt a témát, hogy a keresés hogyan változtatott meg minden területen mindent, ahol információ előfordul: azaz mindenhol. Hamarosan elmagyarázzuk azokat az algoritmusokat, amikről gyakorlatilag sosem esik szó, amikor egy rendezvényen valaki a big data, data science, legújabban pedig az artifical intelligence buzzwordköket zúdítja ránk egy előadás keretében félpercenként. Előtte viszont hozunk példát a keresés olyan típusú alkalmazására és annak hátterére, amilyennel eddig még kevésbé foglalkoztunk.

Konkrét példaként vegyünk egy minden férfi képzeletét megmozgató valamit, amire  példánkban “kétségbeesetten” keresni fogunk. Igen, a férfi felsőtest fényképét deltássá változtató fotómanipuláló appról van szó! Találjuk meg a legjobbat ebből!

Világos, hogy a nagy-nagy keresőmotorok már értelmezik, amit olvasnak a weben, ahogyan az is, hogy ez az egyik, ami lehetővé teszi, hogy egy-egy teljesen emberszerűen megfogalmazott kérdést a legpontosabban értelmezzen a kereső, sőt az keresési találatok által mutatott tartalmak igazságtartalma, tényszerűsége is lassan, de javul.

Mindegy, hogy egy mobileszközön mennyi alkalmazást telepítettünk, úgyis csak 6-8-at használunk napi rendszerességgel. Nem lennénk meglepve, ha a telepített, aztán ténylegesen használt alkalmazások használati gyakoriság szempontjából skálafüggetlen eloszlást mutatnának, azaz a legritkábban használt alkalmazásról már alighanem azt sem tudjuk, hogy mik is eredetileg, míg összesen egy maréknyi lenne, amit naponta használunk. Megint mások annyi alkalmazással tömik ki a tabletjüket és a mobiljukat, amennyi ráfér.

Amikor nem valamilyen konkrét alkalmazást szeretnénk letölteni, hanem egy igényre keresünk megoldást akár a Google Play-ben, akár az App Store-ban, mindkettő keresője egész nagy pontossággal meg tudja jósolni, hogy mire van szükségünk, annak ellenére – itt jön a lényeg – hogy mobileszköznél máshogy, alapvetően rövidebben adjuk meg a keresőkifejezést, ami alapján a háttérben a keresés majd megtörténik. A kérdés, hogy hogyan?

Azzal most ne foglalkozzunk, hogy mindkét platformnak megvannak a lehetőségei arra, hogy személyre szabottan, nem csak a korábbi letöltéseink alapján tudja a jóslatot pontosítani, hogy minél inkább személyre szabott találatot adjon.

Igaz, hogy mindkettő keresőjében lehet szűrni kategória, értékelés, népszerűség szerint, ezek azok a lehetőségek, amikhez a felhasználóknak nem is nagyon kell nyúlniuk.

Lehetne rajta vitatkozni, de amikor alkalmazást keresünk, ez alapvetően nem más keresés, mint amikor a nekünk leginkább megfelelő tartalmat igyekszünk kiválasztani. Az a gondolat itt is megállja a helyét, hogy ha jó választ szeretnénk kapni, jobban kell kérdezni. Viszont minél többet szeretnénk tudni, annál jobb korábbi válaszokra van szükségünk. Azaz sokat szeretnél tudni? Tudj jól kérdezni! Jól akarsz kérdezni? Ahhoz sokat kell tudni.

Egyszerű kísérletet végeztünk azzal kapcsolatban, hogy az egyik alkalmazásbolt mennyire találja el, hogy milyen alkalmazásra lenne szükségünk olyan esetben, ha hasonló témával korábban még nem foglalkozunk. Még csak nem is olyannal kapcsolatban kerestünk alkalmazást, ami egzotikus ételek elkészítésének fortélyaival foglalkozik, azokkal kapcsolatban kínál recepteket. Belátható, hogy aligha van annyira specializált vagy elborult téma, amire már ne lenne mobilapp – értelmes alkalmazás persze már jóval kevesebb.

Most jön az a pont, amikor a szerző tudományos kísérletnek álcázza, hogy ő valójában tényleg ki szeretne tenni a Facebookra egy dögös, deltás felsőtestet önmagáról, de ez annyira ciki, hogy inkább ír egy hatalmas cikket, amivel elfedi az ilyen tíupsú appok  keresésének valódi motivációját. Ki az a marha, aki ilyen appot keres? Valaki más!

Tehát tételezzük fel, hogy valaki, azaz valaki egészen más bármilyen okból elhízott, túl vékony, vagy nemtől függetlenül nem elégedett valamilyen szempontból a kinézetével. A felvetés kellően komplex ahhoz, hogy ha a nagy és okos Google-be írjuk valamilyen világnyelven, azaz angolul vagy spanyolul,

“Mik azok az alkalmazások, amikkel vonzóbbá tehetem az alakom fotók manipulációjával?”

még ilyen esetben is égtelen mennyiségű testépítéssel kapcsolatos cikk jön ki, ami jelen példában irreleváns. Aztán sokadik találatként megjelenik egy cikk, ami azzal foglalkozik, hogy mik azok az alkalmazások, amikkel a legjobb ilyen irányú fotóhakkolás lehetésges anélkül, hogy érteni kellene a grafikához.

A Google Playben és az App Store-ban azokat a kulcsszavakat adjuk meg, amik a mi ismerethalmazunk, gondolkodásmódunk szerint a leginkább kifejezik az igényt, amire szüksége lenne valaki egészen másnak. Még ha valaki eléggé jól tud angolul, akkor sem biztos, hogy ebben a környezetben jól meg tudja fogni a lényeget, hogy minél több jó értékelést kapott, sokak által letöltött alkalmazást kapjon a találatok közt, és elfogadhatóan kevés olyan alkalmazás jelenjen meg, ami irreleváns vagy éppen használhatatlan.

Nem nehéz belátni, hogy mindkét alkalmazásboltnak olyan mértékben elemi érdeke, hogy a keresőjük valóban okoskereső legyen, hogy egyszerű keresés mellett nem sokáig maradnának talpon. Alighanem a háttérben az alkalmazásboltok keresői is értelmezik az alkalmazások leírását, figyelembe veszik a konkrét feedbackeken kívül azt is, hogy az alkalmazást a letöltés után mennyien törölték és így tovább.

izmosito_appok.PNG

Ezzel még nem jutottunk sokkal közelebb ahhoz, hogyan is keressünk, ha kimondottan olyan alkalmazásra van szüksége valaki másnak, amivel a leggyorsabban és legjobban pattinthatja ki magát egy fürdőgatyás fotón. A probléma tehát az, hogy nem tudunk kellően jó kérdést megfogalmazni, az pedig igencsak a jövő zenéjének tűnik, hogy még azt is nagyrészt a gépagy találja ki helyettünk, hogy mire vagyunk kíváncsiak.

Tehát ha valaki ilyen appokkal nem szokott vicceskedni, azt sem tudja, hogy hogyan fogalmazza meg a kérdést a legjobban. Több módszert is kipróbáltunk és megfigyeltük, hogy hogyan változik a találatok sorrendje és összetétele, bár azt nem, hogy ezek az alkalmazások mennyire alkalmasak arra, amire kitalálták őket, hisz nekünk nem kell ilyen, csak valaki másnak.

Az első gondolat, hogy naiv megközelítésben mik azoknak a kulcsszavaknak az angol nyelvű megfelelője, ami a legjobban passzolhatnak. Például

body editor

vagy éppen

gym body editor

Ezeket a teljesség igénye nélkül megnézve az editor elé nyilván nem kell odabökni, hogy photo editor, természetesnek vesszük, hogy ez azért a kereső tudja.

Így is kijön néhány találat, viszont nagyon sok olyan, ami konkrét edzésterveket kínál.

A teljesen laikus megközelítés megbukott, ha itt megtorpanunk. Noam Chomsky legyen a talpán, aki meg tudja mondani, hogy még ha a fogalomrendszerünk hasonló is, egy adott témával kapcsolatos gondolkodásmódunk nyelvtől és kultúrától függően eltérhet, azaz egy spanyol, kínai vagy ausztrál, angolul hasonlóan tudó felhasználók is ugyanezeket a keresőkifejezéseket dobálták volna-e be. Alighanem nem.

Pontosabban nyilván nem, a vitákat az képzi, hogy miért. Az elgondolás persze szigorúan hipotetikus, hiszen nincs három olyan felhasználókból álló minta – spanyol, kínai és ausztrál – akinek egy az egyben hasonló lenne a gondolkodása, és csak és kizárólag az anyanyelvükben és az idegennyelv használat terén térnének el.

A témára visszatérve a body editor és a gym body editor, szinte ad hoc kitalált keresőkifejezésekkel nem voltunk túl sikeresek, viszont ha találtunk akár egyetlen appot is, ami azt ígéri, hogy valaki másnak a sörhasát vagy gebe felsőtestét hatékonyan fotoshoppolja, már kattinthatunk is “You might also like”, “Similar apps” lehetőségekre, nyilván korábbról tudja a szolgáltatás, hogy az alkalmazás iránt érdeklődő felhasználók milyen más alkalmazásokat néztek meg, valamint töltöttek le. Hogy mindezt hogyan? A társítási szabályok bányászatáról, használatáról, predikciós és osztályozó módszerekről, klaszterelemzésről és hasonló feketemágiáról hamarosan éppen blogunkon lehet olvasni hamarosan.

Visszaugorva az App Store-ba: megjelenik előttünk néhány további alkalmazás, amik tényleg nagyon hasonlítanak ahhoz, amire rátaláltunk. Ez sokat segíthet, de még mindig nem biztos, hogy éppen a leghatékonyabba fogunk belebotlani. Írtuk, számunkra minél ismeretlenebb a téma, annál nehezebben tudunk jól kérdezni, aztán ennek megfelelően hasznos információkhoz jutni, másrészt jelen esetben egy alkalmazás minél specializáltabb feladatra van kitalálva, annál nehezebb rákeresni, megtalálni.

A leírások ebben az esetben legalább olyan információértékkel bírnak, mint a screenshotok, ugyanis ezeket elolvasva botlunk olyan kifejezésekbe, amik nagyon jellemzőek a keresett alkalmazásra nézve, viszont csak a passzív, ráadásul idegennyelvi passzív szókincsükben léteznek, ezért nem jutott eszünkbe keresőkifejezésként használni őket. Szövegkörnyezetében eléggé világos, hogy mit jelent a boost kifejezés. Szövegkörnyezetében! De ha valaki korábban nem ismerte, és bedobja a Translate-be, rá nem jön, hogy ez a szó valójában mit is jelent. Amit látunk a jobb panelen, mind szótári alak:

Translations of boost
noun
túltöltés
boost, supercharge
emelkedés
climb, lift, raising, raise, uptrend, boost

verb
felemel
lift up, raise, exalt, elevate, uplift, boost
fellendít
boost
reklámoz
publicize, boost

Az értelmezés már világosabbá teszi, ekkor a tudásunkban a megfelelő helyre tesszük, bővítjük vele a saját fogalmi keretünket:

Definitions of boost
noun
a source of help or encouragement leading to increase or improvement.
the cut in interest rates will give a further boost to the economy
synonyms: uplift, lift, spur, encouragement, help, inspiration, stimulus, pick-me-up, shot in the arm
verb
help or encourage (something) to increase or improve.
a range of measures to boost tourism
synonyms: improve, raise, uplift, increase, enhance, encourage, heighten, help,

Az igen gyakran előforduló abs esetén az agyunk nem fordítja le abdominal muscles kifejezésre, hogy aztán még egy lépésben hasizommá fordítsa, ez is világos. A következő kifejezés, amivel viszont egyrészt kellően ritkán találkozunk, másrészt még inkább igaz, hogy csak környezetében van bármiféle értelme is, a pecs, ami a pectoral muscle-t jelentené. Az utóbbi érdekessége, hogy köznyelvi értelemben “új szó”, néhány évvel ezelőtt jóformán senki sem használta.

A Google Trendsből kiderül, hogy a kifejezés gyakran fordult elő olyan fogalmak keresésekor, amikor a felhasználók testépítéssel, zsírral és gyakorlatokkal kapcsolatos információkat keresnek a neten.

Az USA-beli adatoktól nem térnek el markánsan az Egyesült Királyságban mért adatok, azaz nagyon pongyolán fogalmazva, hasonló a helye a a brit és amerikai angol nyelvben.

Annak megállapításában, hogy egy mennyire új kifejezésről van szó, sokat segíthet a Google Ngram Viewer, ami pedig teljesen világos felfutást mutat.

A Trends-re és az Ngram View-re különösen igaz, hogy kellő háttérismeretet és gyakorlatot igényel, hogy megfelelő következtetéseket vonjunk le abból, amit kapunk. A Trends csak 2004-től jegyzi az adatokat, míg a Ngram Viewer a 19. század eleje óta megjelent, szinte összes könyv digitalizált szöveganyagát veszi alapul, egy-egy Ngram felfutása pedig nem jelenti feltétlenül, hogy a kifejezés gyakoribbá vált volna.

Néhány keresést követően kiderül, hogy valószínűleg mik a legjobb, valaki teljesen más céljának megfelelő mobilalkalmazások, viszont vegyük észre hogy például fogalmi osztályozást sem kellett egyedül végeznünk, annak egy részét elvégezte a a gép, ezért találtuk meg gyorsabban a valaki másnak kellő, tényleg jó alkalmazást! Természetesnek vesszük, mert a mindennapi élet részévé vált, merész kísérletezőknek viszont érdemes lehet néha benézni a kulisszák mögé.

A kulisszák mögött

Ha nem is megyünk akadémiai magasságokba, jó, ha van egy szemléletes képünk minél több olyan algoritmusról, amit újabban rendkívül megtévesztő módon a mesterséges intellgencia tárgykörébe sorolnak. Példaként emelnénk ki ismét a látens Dirichlet-allokációt ami eléggé ügyesen alkalmazva, “elolvasva” megfelelő mennyiségű szöveget, “tudni” fogja, hogy a tej, a nyávogás a macskához, míg az ugatás és a csont fogalmilag a kutyához kapcsolható. Jó adag hasonló módszer létezik még, az igazi kihívás eltalálni az adott feladatnak megfelelőt.

Az okos gépek ott vannak az élet minden területén. Ha hirtelen meg kellene mondani, hogy az artifical intelligence hogyan lett teljesen félreértett, a kelleténél gyakrabban használt buzzword, eléggé valószínű, hogy azért, mert a kimenet, legyen az bármi is, a Siri válasza vagy egy chatbot tartalmas megjegyzése, akár egy keresés eredménye, olyan minőségű, mintha gondolkozó embertől származna.

A másik súlyos félreértés, hogy a mesterséges intelligencia kutatásának célja lenne, hogy belső működésmód szempontjából minél jobban hasonlítson az emberi gondolkodáshoz, holott már a 60-70-es években rájöttek, hogy ez a csapásirány nettó ostobaság.

Amit ma sokan mesterséges intelligenciának neveznek, valójában olyan megoldások egyvelege, ami adott feladatokat tud megoldani minél jobban és gyorsabban, emberi értelemben úgy, hogy azt a benyomást keltse, mintha a gép értelemmel rendelkezne, gondolkozna.

A MATLAB-ra nem úgy gondolunk, mint a mesterséges intelligencia eszközére, pláne nem úgy, mint olyan rendszerre, ami gondolkodna helyettünk, de ha például jól formalizálva megadunk benne egy másodfokú egyenletet, azt a MATLAB, hasonlóan gyakorlatilag az összes jól formalizált egyenlethez megoldja, kiadja az eredményt, ami gyorsan ellenőrizhető is.

Ha először látnánk, akkor esetleg azt gondolhatnánk, hogy a MATLAB okosan megtanulta a másodfokú egyenlet általános megoldóképletét, aztán annak megfelelően oldotta meg. Ha erre nem volt felkészítve, akkor egyszerűen fogott egy numerikus analízisből ismert közelítő módszert, abba behajigálta az értékeket, végig nagyon-nagyon sok tizedesjegy pontossággal számolt, a végén pedig kiadta a helyes eredményt. Azaz azt a benyomást keltette, mintha értelemmel oldotta volna meg az egyenletet, holott erről szó sincs.

(Ha esetleg éppen a MATLAB már fel van készítve rá, hogy a másodfokú egyenlet felismerje, mint olyan egyenletet, amire van megoldóképlet, és azt alkalmazta, akkor elnézést.)

Lényeg, hogy az esetek többségében közelítő módszerrel kapott közelítő eredmény is megfelel, ami nem jelenti azt, hogy a numerikus módszerek mellett már nem lehetne tévedni, sőt, adott esetben nagyon durván mellé is lehet nyúlni.

Valaminek az okos megoldása nem jelenti azt, hogy a gép okos!

A másik, ami érdekes példa lehet, az automatikus tételbizonyítás, ahol az felhasználó csak formalizál, bizonyítási módszert állít be, a gép pedig bizonyít. Erről úgy gondolnánk, hogy kimondottan emberi leleményességet igénylő tevékenység.

Minden olvasót arra bátorítanánk, hogy amint egy beszélgetés közben felmerül nagy vehemenciával a mesterséges intelligencia, nézzen a beszélgetőpartnere szemébe, és kérdezze meg, hogy szerinte a felügyelt vagy a nem-felügyelt gépi tanulás jobb sok esetben, és miért. Mindkettővel kapcsolatban különböző példákon keresztül lehet érvelni amellett, hogy miért hatékonyabb az adott esetben. Ha az Olvasó még nincs képben a két fogalommal és módszereivel kapcsolatban, érdemes lehet hamarosan ismét a blogra nézni.

Mert ez az elemzés itt és most véget ért. Folyt. köv.!