Nyelv, mesterséges intelligencia, na meg felsőtest strandszezon utánra

nyelvek_kulturakTöbbször érintettük azt a témát, hogy a keresés hogyan változtatott meg minden területen mindent, ahol információ előfordul: azaz mindenhol. Hamarosan elmagyarázzuk azokat az algoritmusokat, amikről gyakorlatilag sosem esik szó, amikor egy rendezvényen valaki a big data, data science, legújabban pedig az artifical intelligence buzzwordköket zúdítja ránk egy előadás keretében félpercenként. Előtte viszont hozunk példát a keresés olyan típusú alkalmazására és annak hátterére, amilyennel eddig még kevésbé foglalkoztunk.

Konkrét példaként vegyünk egy minden férfi képzeletét megmozgató valamit, amire  példánkban “kétségbeesetten” keresni fogunk. Igen, a férfi felsőtest fényképét deltássá változtató fotómanipuláló appról van szó! Találjuk meg a legjobbat ebből!

Világos, hogy a nagy-nagy keresőmotorok már értelmezik, amit olvasnak a weben, ahogyan az is, hogy ez az egyik, ami lehetővé teszi, hogy egy-egy teljesen emberszerűen megfogalmazott kérdést a legpontosabban értelmezzen a kereső, sőt az keresési találatok által mutatott tartalmak igazságtartalma, tényszerűsége is lassan, de javul.

Mindegy, hogy egy mobileszközön mennyi alkalmazást telepítettünk, úgyis csak 6-8-at használunk napi rendszerességgel. Nem lennénk meglepve, ha a telepített, aztán ténylegesen használt alkalmazások használati gyakoriság szempontjából skálafüggetlen eloszlást mutatnának, azaz a legritkábban használt alkalmazásról már alighanem azt sem tudjuk, hogy mik is eredetileg, míg összesen egy maréknyi lenne, amit naponta használunk. Megint mások annyi alkalmazással tömik ki a tabletjüket és a mobiljukat, amennyi ráfér.

Amikor nem valamilyen konkrét alkalmazást szeretnénk letölteni, hanem egy igényre keresünk megoldást akár a Google Play-ben, akár az App Store-ban, mindkettő keresője egész nagy pontossággal meg tudja jósolni, hogy mire van szükségünk, annak ellenére – itt jön a lényeg – hogy mobileszköznél máshogy, alapvetően rövidebben adjuk meg a keresőkifejezést, ami alapján a háttérben a keresés majd megtörténik. A kérdés, hogy hogyan?

Azzal most ne foglalkozzunk, hogy mindkét platformnak megvannak a lehetőségei arra, hogy személyre szabottan, nem csak a korábbi letöltéseink alapján tudja a jóslatot pontosítani, hogy minél inkább személyre szabott találatot adjon.

Igaz, hogy mindkettő keresőjében lehet szűrni kategória, értékelés, népszerűség szerint, ezek azok a lehetőségek, amikhez a felhasználóknak nem is nagyon kell nyúlniuk.

Lehetne rajta vitatkozni, de amikor alkalmazást keresünk, ez alapvetően nem más keresés, mint amikor a nekünk leginkább megfelelő tartalmat igyekszünk kiválasztani. Az a gondolat itt is megállja a helyét, hogy ha jó választ szeretnénk kapni, jobban kell kérdezni. Viszont minél többet szeretnénk tudni, annál jobb korábbi válaszokra van szükségünk. Azaz sokat szeretnél tudni? Tudj jól kérdezni! Jól akarsz kérdezni? Ahhoz sokat kell tudni.

Egyszerű kísérletet végeztünk azzal kapcsolatban, hogy az egyik alkalmazásbolt mennyire találja el, hogy milyen alkalmazásra lenne szükségünk olyan esetben, ha hasonló témával korábban még nem foglalkozunk. Még csak nem is olyannal kapcsolatban kerestünk alkalmazást, ami egzotikus ételek elkészítésének fortélyaival foglalkozik, azokkal kapcsolatban kínál recepteket. Belátható, hogy aligha van annyira specializált vagy elborult téma, amire már ne lenne mobilapp – értelmes alkalmazás persze már jóval kevesebb.

Most jön az a pont, amikor a szerző tudományos kísérletnek álcázza, hogy ő valójában tényleg ki szeretne tenni a Facebookra egy dögös, deltás felsőtestet önmagáról, de ez annyira ciki, hogy inkább ír egy hatalmas cikket, amivel elfedi az ilyen tíupsú appok  keresésének valódi motivációját. Ki az a marha, aki ilyen appot keres? Valaki más!

Tehát tételezzük fel, hogy valaki, azaz valaki egészen más bármilyen okból elhízott, túl vékony, vagy nemtől függetlenül nem elégedett valamilyen szempontból a kinézetével. A felvetés kellően komplex ahhoz, hogy ha a nagy és okos Google-be írjuk valamilyen világnyelven, azaz angolul vagy spanyolul,

“Mik azok az alkalmazások, amikkel vonzóbbá tehetem az alakom fotók manipulációjával?”

még ilyen esetben is égtelen mennyiségű testépítéssel kapcsolatos cikk jön ki, ami jelen példában irreleváns. Aztán sokadik találatként megjelenik egy cikk, ami azzal foglalkozik, hogy mik azok az alkalmazások, amikkel a legjobb ilyen irányú fotóhakkolás lehetésges anélkül, hogy érteni kellene a grafikához.

A Google Playben és az App Store-ban azokat a kulcsszavakat adjuk meg, amik a mi ismerethalmazunk, gondolkodásmódunk szerint a leginkább kifejezik az igényt, amire szüksége lenne valaki egészen másnak. Még ha valaki eléggé jól tud angolul, akkor sem biztos, hogy ebben a környezetben jól meg tudja fogni a lényeget, hogy minél több jó értékelést kapott, sokak által letöltött alkalmazást kapjon a találatok közt, és elfogadhatóan kevés olyan alkalmazás jelenjen meg, ami irreleváns vagy éppen használhatatlan.

Nem nehéz belátni, hogy mindkét alkalmazásboltnak olyan mértékben elemi érdeke, hogy a keresőjük valóban okoskereső legyen, hogy egyszerű keresés mellett nem sokáig maradnának talpon. Alighanem a háttérben az alkalmazásboltok keresői is értelmezik az alkalmazások leírását, figyelembe veszik a konkrét feedbackeken kívül azt is, hogy az alkalmazást a letöltés után mennyien törölték és így tovább.

izmosito_appok.PNG

Ezzel még nem jutottunk sokkal közelebb ahhoz, hogyan is keressünk, ha kimondottan olyan alkalmazásra van szüksége valaki másnak, amivel a leggyorsabban és legjobban pattinthatja ki magát egy fürdőgatyás fotón. A probléma tehát az, hogy nem tudunk kellően jó kérdést megfogalmazni, az pedig igencsak a jövő zenéjének tűnik, hogy még azt is nagyrészt a gépagy találja ki helyettünk, hogy mire vagyunk kíváncsiak.

Tehát ha valaki ilyen appokkal nem szokott vicceskedni, azt sem tudja, hogy hogyan fogalmazza meg a kérdést a legjobban. Több módszert is kipróbáltunk és megfigyeltük, hogy hogyan változik a találatok sorrendje és összetétele, bár azt nem, hogy ezek az alkalmazások mennyire alkalmasak arra, amire kitalálták őket, hisz nekünk nem kell ilyen, csak valaki másnak.

Az első gondolat, hogy naiv megközelítésben mik azoknak a kulcsszavaknak az angol nyelvű megfelelője, ami a legjobban passzolhatnak. Például

body editor

vagy éppen

gym body editor

Ezeket a teljesség igénye nélkül megnézve az editor elé nyilván nem kell odabökni, hogy photo editor, természetesnek vesszük, hogy ez azért a kereső tudja.

Így is kijön néhány találat, viszont nagyon sok olyan, ami konkrét edzésterveket kínál.

A teljesen laikus megközelítés megbukott, ha itt megtorpanunk. Noam Chomsky legyen a talpán, aki meg tudja mondani, hogy még ha a fogalomrendszerünk hasonló is, egy adott témával kapcsolatos gondolkodásmódunk nyelvtől és kultúrától függően eltérhet, azaz egy spanyol, kínai vagy ausztrál, angolul hasonlóan tudó felhasználók is ugyanezeket a keresőkifejezéseket dobálták volna-e be. Alighanem nem.

Pontosabban nyilván nem, a vitákat az képzi, hogy miért. Az elgondolás persze szigorúan hipotetikus, hiszen nincs három olyan felhasználókból álló minta – spanyol, kínai és ausztrál – akinek egy az egyben hasonló lenne a gondolkodása, és csak és kizárólag az anyanyelvükben és az idegennyelv használat terén térnének el.

A témára visszatérve a body editor és a gym body editor, szinte ad hoc kitalált keresőkifejezésekkel nem voltunk túl sikeresek, viszont ha találtunk akár egyetlen appot is, ami azt ígéri, hogy valaki másnak a sörhasát vagy gebe felsőtestét hatékonyan fotoshoppolja, már kattinthatunk is “You might also like”, “Similar apps” lehetőségekre, nyilván korábbról tudja a szolgáltatás, hogy az alkalmazás iránt érdeklődő felhasználók milyen más alkalmazásokat néztek meg, valamint töltöttek le. Hogy mindezt hogyan? A társítási szabályok bányászatáról, használatáról, predikciós és osztályozó módszerekről, klaszterelemzésről és hasonló feketemágiáról hamarosan éppen blogunkon lehet olvasni hamarosan.

Visszaugorva az App Store-ba: megjelenik előttünk néhány további alkalmazás, amik tényleg nagyon hasonlítanak ahhoz, amire rátaláltunk. Ez sokat segíthet, de még mindig nem biztos, hogy éppen a leghatékonyabba fogunk belebotlani. Írtuk, számunkra minél ismeretlenebb a téma, annál nehezebben tudunk jól kérdezni, aztán ennek megfelelően hasznos információkhoz jutni, másrészt jelen esetben egy alkalmazás minél specializáltabb feladatra van kitalálva, annál nehezebb rákeresni, megtalálni.

A leírások ebben az esetben legalább olyan információértékkel bírnak, mint a screenshotok, ugyanis ezeket elolvasva botlunk olyan kifejezésekbe, amik nagyon jellemzőek a keresett alkalmazásra nézve, viszont csak a passzív, ráadásul idegennyelvi passzív szókincsükben léteznek, ezért nem jutott eszünkbe keresőkifejezésként használni őket. Szövegkörnyezetében eléggé világos, hogy mit jelent a boost kifejezés. Szövegkörnyezetében! De ha valaki korábban nem ismerte, és bedobja a Translate-be, rá nem jön, hogy ez a szó valójában mit is jelent. Amit látunk a jobb panelen, mind szótári alak:

Translations of boost
noun
túltöltés
boost, supercharge
emelkedés
climb, lift, raising, raise, uptrend, boost

verb
felemel
lift up, raise, exalt, elevate, uplift, boost
fellendít
boost
reklámoz
publicize, boost

Az értelmezés már világosabbá teszi, ekkor a tudásunkban a megfelelő helyre tesszük, bővítjük vele a saját fogalmi keretünket:

Definitions of boost
noun
a source of help or encouragement leading to increase or improvement.
the cut in interest rates will give a further boost to the economy
synonyms: uplift, lift, spur, encouragement, help, inspiration, stimulus, pick-me-up, shot in the arm
verb
help or encourage (something) to increase or improve.
a range of measures to boost tourism
synonyms: improve, raise, uplift, increase, enhance, encourage, heighten, help,

Az igen gyakran előforduló abs esetén az agyunk nem fordítja le abdominal muscles kifejezésre, hogy aztán még egy lépésben hasizommá fordítsa, ez is világos. A következő kifejezés, amivel viszont egyrészt kellően ritkán találkozunk, másrészt még inkább igaz, hogy csak környezetében van bármiféle értelme is, a pecs, ami a pectoral muscle-t jelentené. Az utóbbi érdekessége, hogy köznyelvi értelemben “új szó”, néhány évvel ezelőtt jóformán senki sem használta.

A Google Trendsből kiderül, hogy a kifejezés gyakran fordult elő olyan fogalmak keresésekor, amikor a felhasználók testépítéssel, zsírral és gyakorlatokkal kapcsolatos információkat keresnek a neten.

Az USA-beli adatoktól nem térnek el markánsan az Egyesült Királyságban mért adatok, azaz nagyon pongyolán fogalmazva, hasonló a helye a a brit és amerikai angol nyelvben.

Annak megállapításában, hogy egy mennyire új kifejezésről van szó, sokat segíthet a Google Ngram Viewer, ami pedig teljesen világos felfutást mutat.

A Trends-re és az Ngram View-re különösen igaz, hogy kellő háttérismeretet és gyakorlatot igényel, hogy megfelelő következtetéseket vonjunk le abból, amit kapunk. A Trends csak 2004-től jegyzi az adatokat, míg a Ngram Viewer a 19. század eleje óta megjelent, szinte összes könyv digitalizált szöveganyagát veszi alapul, egy-egy Ngram felfutása pedig nem jelenti feltétlenül, hogy a kifejezés gyakoribbá vált volna.

Néhány keresést követően kiderül, hogy valószínűleg mik a legjobb, valaki teljesen más céljának megfelelő mobilalkalmazások, viszont vegyük észre hogy például fogalmi osztályozást sem kellett egyedül végeznünk, annak egy részét elvégezte a a gép, ezért találtuk meg gyorsabban a valaki másnak kellő, tényleg jó alkalmazást! Természetesnek vesszük, mert a mindennapi élet részévé vált, merész kísérletezőknek viszont érdemes lehet néha benézni a kulisszák mögé.

A kulisszák mögött

Ha nem is megyünk akadémiai magasságokba, jó, ha van egy szemléletes képünk minél több olyan algoritmusról, amit újabban rendkívül megtévesztő módon a mesterséges intellgencia tárgykörébe sorolnak. Példaként emelnénk ki ismét a látens Dirichlet-allokációt ami eléggé ügyesen alkalmazva, “elolvasva” megfelelő mennyiségű szöveget, “tudni” fogja, hogy a tej, a nyávogás a macskához, míg az ugatás és a csont fogalmilag a kutyához kapcsolható. Jó adag hasonló módszer létezik még, az igazi kihívás eltalálni az adott feladatnak megfelelőt.

Az okos gépek ott vannak az élet minden területén. Ha hirtelen meg kellene mondani, hogy az artifical intelligence hogyan lett teljesen félreértett, a kelleténél gyakrabban használt buzzword, eléggé valószínű, hogy azért, mert a kimenet, legyen az bármi is, a Siri válasza vagy egy chatbot tartalmas megjegyzése, akár egy keresés eredménye, olyan minőségű, mintha gondolkozó embertől származna.

A másik súlyos félreértés, hogy a mesterséges intelligencia kutatásának célja lenne, hogy belső működésmód szempontjából minél jobban hasonlítson az emberi gondolkodáshoz, holott már a 60-70-es években rájöttek, hogy ez a csapásirány nettó ostobaság.

Amit ma sokan mesterséges intelligenciának neveznek, valójában olyan megoldások egyvelege, ami adott feladatokat tud megoldani minél jobban és gyorsabban, emberi értelemben úgy, hogy azt a benyomást keltse, mintha a gép értelemmel rendelkezne, gondolkozna.

A MATLAB-ra nem úgy gondolunk, mint a mesterséges intelligencia eszközére, pláne nem úgy, mint olyan rendszerre, ami gondolkodna helyettünk, de ha például jól formalizálva megadunk benne egy másodfokú egyenletet, azt a MATLAB, hasonlóan gyakorlatilag az összes jól formalizált egyenlethez megoldja, kiadja az eredményt, ami gyorsan ellenőrizhető is.

Ha először látnánk, akkor esetleg azt gondolhatnánk, hogy a MATLAB okosan megtanulta a másodfokú egyenlet általános megoldóképletét, aztán annak megfelelően oldotta meg. Ha erre nem volt felkészítve, akkor egyszerűen fogott egy numerikus analízisből ismert közelítő módszert, abba behajigálta az értékeket, végig nagyon-nagyon sok tizedesjegy pontossággal számolt, a végén pedig kiadta a helyes eredményt. Azaz azt a benyomást keltette, mintha értelemmel oldotta volna meg az egyenletet, holott erről szó sincs.

(Ha esetleg éppen a MATLAB már fel van készítve rá, hogy a másodfokú egyenlet felismerje, mint olyan egyenletet, amire van megoldóképlet, és azt alkalmazta, akkor elnézést.)

Lényeg, hogy az esetek többségében közelítő módszerrel kapott közelítő eredmény is megfelel, ami nem jelenti azt, hogy a numerikus módszerek mellett már nem lehetne tévedni, sőt, adott esetben nagyon durván mellé is lehet nyúlni.

Valaminek az okos megoldása nem jelenti azt, hogy a gép okos!

A másik, ami érdekes példa lehet, az automatikus tételbizonyítás, ahol az felhasználó csak formalizál, bizonyítási módszert állít be, a gép pedig bizonyít. Erről úgy gondolnánk, hogy kimondottan emberi leleményességet igénylő tevékenység.

Minden olvasót arra bátorítanánk, hogy amint egy beszélgetés közben felmerül nagy vehemenciával a mesterséges intelligencia, nézzen a beszélgetőpartnere szemébe, és kérdezze meg, hogy szerinte a felügyelt vagy a nem-felügyelt gépi tanulás jobb sok esetben, és miért. Mindkettővel kapcsolatban különböző példákon keresztül lehet érvelni amellett, hogy miért hatékonyabb az adott esetben. Ha az Olvasó még nincs képben a két fogalommal és módszereivel kapcsolatban, érdemes lehet hamarosan ismét a blogra nézni.

Mert ez az elemzés itt és most véget ért. Folyt. köv.!

Nyelvek, keresők, mesterséges intelligencia vs egy-egy keresőkifejezés értékének mérése

termeszetes-nyelvfeldolgozasSokakban máig tartja magát a hiedelem, hogy bizonyos keresőkifejezésekre kapott találatok sorrendje a legfontosabban olyan szempontból – főleg marketinges logika szerint – hogy a lehetséges vásárló vagy ügyfél mennyire könnyen talál az adott oldalra. Mára azonban a kép ennél sokkal árnyaltabb. Elemzésünkben bemutatjuk, hogy a keresőrobot valójában már sokkal inkább egy igényes és tájékozott húsvér olvasó, sokkal több már, mint ügyesen kombinált algoritmusok szinergikus együttműködése.

Nem ritkán egyenesen hiba arról beszélni, hogy egy-egy kifejezésre keresve a mi tartalmunk hanyadik találatként adódik, ha ezt nem vetjük össze sok-sok más tényezővel.

Ahogy szoktunk, ugorjunk kicsit vissza az időben, mondjuk úgy Ádámig-Éváig. Szergej Brin és Larry Page Pagerank-algoritmusa hatékony volt a web hajnalán, amikor még nagyságrendekkel kevesebb különálló dokumentum, hogy precízek legyünk, külön-külön dokumentum vektortérrel rendelkező tartalom volt jelent információként a weben. Az algoritmus egyrészt a tudománymetriában máig használatos módszerből merített, csak éppen nem tudományos publikációk vagy szerzők, hanem weboldalak vonatkozásában mérte egy-egy webhely fontosságát.

Ennek szemléltetésére tekintsünk egy gráfot vagy részgráfot, amiben a gráfpontok egy-egy dokumentumnak felelnek meg, a kiindulási állapotban pedig a gráfpontok közti kapcsolatok egyenértékűek, azaz minden gráfpont ugyanolyan fontosságú, egyenlő rankkel rendelkezik. Abban az esetben ha egy dokumentumra már több dokumentum hivatkozik (ha úgy tetszik, több a befelé mutató él), minél több befelé mutató hivatkozás van, a dokumentum rankje annál nagyobb, azaz, annál nagyobb hatású, akárcsak a sok független idézővel rendelkező tudományos publikációk a kutatás világában.

Belegondolva logikusnak tűnik, hogy valószínűleg azért hivatkoznak sokan egy dokumentumra, mert annak az információértéke sokkal nagyobb, mint a többié, így a kereső a többi előtt fogja dobni.

Az eredeti Pagerank-algoritmus persze a gyakorlatban egyszerűen kijátszható volt, ezért el is kezdték finomítani, mára pedig nemhogy egy-egy dokumentum bármiféle azonos értékkel indulna, hanem a kifinomult keresőmotorok több ezer egyéb tényezőt vesznek figyelembe, amikor eldől, hogy hanyadik találatként kapjuk a kereséskor.

A viszonylag korai webhelyeken is használtak kimondottan a keresőmotoroknak információt szolgáltató meta-adatokat. Nagyon nem volt mindegy, hogy a dokumentum szövegében egy-egy kifejezés milyen gyakorisággal fordult elő egyrészt a teljes dokumentumhoz, az őt hosztoló wbehelyhez, valamint a neten fellelhető összes indexelt dokumentumhoz képest, ami a legegyszerűbb kvantitatív nyelvtechnológiai algoritmusok egyikével, a term frequency–inverse document frequency számításával nagyon gyorsan megállapítható. A TF-IDF modell az egyik legegyszerűbb, amivel kiszámítható egy dokumentum egyedi volta, ami természetesen nem mindig áll összhangban a benne hordozott értékes információ mennyiségével, mivel egyszerűsítve lényegében egy primitív alkalmazott statisztikai módszer.

ai-nyelveszet.png

Mióta keresés létezik, azóta létezik SEO és SEM, aminek kezdetben is az volt a lényege, hogy néhányan azzal próbáltak keresni, hogy megpróbálták ügyesen vagy kevésbé ügyesen manipulálni az őket felkérő ügyfél webhelyének rankjét. Ennek egy gyakori módja a kulcsszavakkal való trükközés volt azzal a céllal, hogy az megtévessze a keresőmotort, de az ilyen manipulációval végzett kísérleteket a keresőmotorok nagyon gyorsan észlelték, és nemhogy előbbre sorolták volna az oldalt, hanem a maguk módján akár büntették is, akárcsak ma.

Nem gondolnánk, hogy a mai napig van olyan ember, aki komolyan úgy gondolja, hogy néhány metaadat és a dokumentum kulcsszavainak művi felszaporításával, a befelé mutató linkek számának mesterséges növelésével és hasonlókkal meg lehet téveszteni a keresőmotorokat. Az AdWords és AdSense nem eléggé elővigyázatos beállítása pedig csak súlyosbít a problémán, mert még gyanúsabbá teszi az oldalt a Googlebot számra. A kétbalkezes trükközgetés a 90-es évek módszere, de akkor sem volt hatékony. Nemcsak, hogy a mai napig vannak olyanok, akik csak ilyen módszerekben tudnak gondolkozni, természetesen olyanok is vannak, akik bízva a “szakértőkben” mindezért még fizetnek is, nem is keveset.

Természetesen nem arról van szó, hogy az AdWords és az AdSense alkalmatlan eszköz lenne, viszont elegendő néhány óvatlan kattintás, és a korábban pénzzel előrébb hozott találat később épphogy hátrébb sorolódik. Mi több, komoly online marketinges források szerint a Google és a Facebook hirdetési rendszerei idővel többet fognak kérni ugyanazért a helyezését, ha ismét aprópénzért próbálná valaki előtérbe tolni ugyanazt a tartalmat. Azaz tapintatosan, de kényszerítik a hirdetőt, hogy náluk költsön.

A legnagyobb keresőmotorok már a 2000-es évek első felében elkezdtek úgy viselkedni, mint egy művelt tartalomfogyasztó (a kivételekre kitérünk később), akit ugye contentless hülyeségekkel lehet a legjobban felidegesíteni, ugyanakkor nagyra értékeli a valóban értékes tartalmakat.

Az azóta eltelt közel 20 évben pedig a keresők gépagya gazdasági szempontból elsősorban a számítási kapacitás növekedésével és költségének csökkenésével, technológiai szempontból pedig elsősorban az egyre nagyobb mennyiségű információ hatására lett egyre kifinomultabb. Az, hogy elsősorban itt nem fölös’ szóismétlés, számtalan tényezőt tudnánk még sorolni, ami a kereső-ökoszisztéma mai formáját kialakította.

spamdexing

Márpedig ha valaki megpróbál túljárni a kereső eszén akár az organikus elérések befolyásolásával, akár az AdWords/AdSense használatával, gyakorlatilag csak rosszul járhat. Hosszú távon teljesen biztos.

Amennyiben valaki nem gondolkozik AdWords-ben és AdSense-ben, hanem “csak” linkfarmot épít például, a keresőmotor felismerheti, hogy valószínűleg egy ócska manipulációról van szó, és a szóban forgó dokumentum annyira sokadik helyre kerül a találati listán, mintha gyakorlatilag nem is létezne. Kereséskor még kimondottan a dokumentumra jellemző kulcsszavak hozzáadása mellett is csak a sokadik lesz. A leginkább kirívó esetekben pedig csíp a Google Penguin vagy épp harap a Google Panda utóda, esetleg ezek utódai.

Ekkor a dokumentum valamennyi ideig kikerül a találatok közül, esetleg úgy, hogy egy ideig felé sem néz a keresőmotor és nem is lehet rávenni, hogy térképezze fel ismét a tartalmat. A tág értelemben vett tartalmat. Ez lehet több, önálló webhelyből álló lapcsalád, egy webhely vagy egy webhelynek egy adott oldala.

Ugyan fordult már elő, hogy rövid időre sikerült megtéveszteni a keresőt, a search engine poisoning-nek pedig hasonló, csak éppen underground szakirodalma van, hasonlóan az ilyeneket megfékező nyelvtechnológiai fegyverarzenálhoz. A nagy keresők naponta több tízmillió (!!) találatot távolítanak el az indexükből.

Néhány bekezdéssel korábban nem véletlenül írtuk a dokumentumok osztályozásával kapcsolatban, hogy “valószínűleg” juthat arra a szomorú sorsra. Ugyanis mindegy, hogy a data science melyik területéről van szó, végülis az összes gépi tanulási, mintázatfelismerési és hasonló csoportba tartozó algoritmusnál arról van szó, hogy a lelkét mindegyiknek alapvetően a nagyon nagy adathalmazokon végzett statisztikai eljárások jelentik.

Ezek pedig bizony kis valószínűséggel ugyan, de tévedhetnek is. Külön posztot érne meg, hogy a több évtizede kitalált, már évekkel ezelőtt is gépre implementált megoldásokat hogyan lett nagyon-nagyon divatos AI-nek nevezni, főleg azok részéről, akik a legelemibb informatikai algoritmus lényegét sem tudnák elmagyarázni egy általános iskolás gyereknek, a poszt tárgya most nem ez.

A keresésnél a gép tehát valószínűségekben gondolkodik. Igen, mondhatjuk pongyola módon, hogy gondolkodik, amíg jobb kifejezés nincs rá. Több analógia figyelhető meg a nagyon sok adaton alapuló gépi tanulás és az ember tanulással kapcsolatos kognitív és emlékezeti folyamatai közt. A poszt szerzőjének egyik kedvenc területéről, a kognitív pszichológiából hozunk példát – már megint.

A kisgyermekkortól a tanulási folyamat egy lényegi része, hogy az ember a számára tapasztalható információkat osztályozza, később pedig ez az osztályozás teljesen elengedhetetlen részévé válik a gondolkodásnak. Tételezzük fel, hogy a posztot tollal írom papírra. Ahogy most ránézek a kedvenc töltőtollamra, az jut eszembe róla, hogy azzal írom ezt a cikket, először papírra, ami az absztrakció lényegi része, de csak bizonyos szempont alapján.

Ha újra és újra fel kellene idézni, hogy a tollamat írásra használom, a tollamban tinta van, amit egy konverterrel lehet felszívni az üvegből, majd a tinta elsősorban a jól eltalált viszkozitása miatt kerül a papírra anélkül, hogy egyszerre folyna ki az összes, igencsak rövid idő alatt olyan adag információt kellene feldolgoznia az agyamnak az újra-osztályozás miatt, ami a legelemibb gondolkodási folyamatokat is lehetetlenné tenné.

A gondolkodás egységei, ha úgy tetszik, osztályok és nem az osztályokba tartozó elemek. Az elemekkel kapcsolatban pedig nyilván valamilyen érzékelhető módon építettük fel a szükséges információt és soroltuk osztályba, érzékelési csatornákból pedig jóval több alakult ki az evolúció folytán, amik nem bizonyultak adaptívnak, így szépen be is zárultak és sosem működnek. Relatív kevés az olyan kivételes eset, amikor a folyamatos osztályozás rendje felborul vagy éppen sosem használt információs csatornák nyílnak meg.

Irodalmi adatok alapján leginkább markánsan LSD hatása alatt. Aki pedig került ilyen állapotba, nem is tudja szavakban visszaadni, amit tapasztalt, csak hasonlítani ahhoz, ami más számára is érthető észlelés. Ahogyan az az érzés sem adható vissza, amikor valaki a flow-nak nevezett tudatállapotban alkot valamit.

a-gepi-tanulas

Sajátos, hogy a felelősségteljes döntések meghozására alkotott, komplex informatikai megoldások egy képzeletbeli in silico LSD-szerű hatásra nem más logika alapján fognak döntéseket hozni, nem fognak máshogy gondolkozni, a valóság sokkal prózaibb: egyszerűen összeomlanak. Természetesen nemcsak az olyan megoldásokra igaz ez, amik a neurális hálók valamelyikén alapulnak.

Alighanem abból adódóan, hogy mindenki szeret önmagából kiindulni, aztán antropogén megközelítést alkalmazni akkor is, amikor az egyébként teljesen mellékes, rendszeresen visszatérő téma, hogy mikor jelenik meg a mesterséges értelem – és nem mesterséges intelligencia!

A cikk zugbiológus szerzőjének véleménye szerint akkor jelenne meg a mesterséges értelem, amikor egy, egyébként már alkalmazkodni is képes, hibatűrő, több, mint informatikai megoldásnak nevezhető gépagy egy előbb emlegetett információbemenetként érkező, “pszichedelikus hatású kábszitól” nem összeomlik, hanem máshogy kezd működni.

Valószínű, hogy az ilyen, köznyelvi értelemben vett mesterséges értelem nem hozható létre ésszerű befektetés mellett, nem is érdeke senkinek, esetleg nem is fog létezni soha a sci-fi írók teremtményein kívül, hiszen a piac – igen, már megint a piac – és a fogyasztói igények egyeznek abban, hogy egy mesterséges intelligenciának nevezett megoldás feladatok egy többé-kevésbé körülhatárolt csoportjának elvégzésében legyen nagyon jó. Mondjuk annyira jó, hogy a feladat megoldása közben vagy annak eredményénél az ember ne tudja megkülönböztetni, hogy azt ember vagy éppen gép végezte.

Ide kapcsolódik az egyik leggyakoribb félreértés, ami szerint Alan Turing azt állította volna, hogy amit mesterséges értelemnek nevezünk, akkor jelenik meg, amikor az ember olyan módon tud beszélgetni a géppel, hogy az ember azt ne vegye észre, hogy géppel beszélget. Csakhogy Turing sosem állított ilyet, sokkal bonyolultabbat igen. Ha valakit érdekel, a témáról erre olvashat bővebben.

Na de vissza a guglihoz!

A komoly keresőmotorok az emberi megismeréssel részlegesen párhuzamba állítható algoritmusokat vetnek be, amikor osztályoznak és értékelnek egy-egy tartalmat. A folyamat vége pedig, hogy a tartalom hanyadik találatként jelenik meg a keresésnél.

Ami fontos, hogy a keresőmotorok megvalósítását semmiképp se úgy képzeljük el, hogy egy-egy okos algoritmus dobná tovább a labdát a következőnek, az szintén gondolkozna rajta picit, majd megszületne az eredmény. Ehelyett az emberi tanuláshoz hasonlóan osztályoz amellett, hogy az adott osztályba tartozó elemekkel is foglalkozik. Azaz a részt és az egészet is nézi, akár egy értelmes ember, már megint.

A keresőmotorok fejlesztői a sokszor már régen ismert algoritmusokat kombinálják, olyan módon, hogy az összességében minél hatékonyabb legyen. De mit jelent, hogy minél hatékonyabb, ha nem elégszünk meg olyan magyarázattal, hogy minél jobban eltalálja a kereső a választ arra, amit lényegében kérdezünk?

Sokan nem tudják, de amikor a Yandex, a Google és a többi elkezdte fejleszteni a saját fordítóját, az döntő részben nem úgy történt, hogy kézileg belegyúrtak volna eszelős mennyiségű szótári adatot és különböző nyelvtani szabályokat. Konkrétan a Yandex és a Google Translate – durva egyszerűsítéssel – úgy lett egyre hatékonyabb, hogy emberi szóhasználattal élve logikai kapcsolatokat gyűjtöttek az általuk indexelt kifejezések, tartalmak közt egy adott nyelven belül, majd különböző nyelvekkel kapcsolatban is keresték az összefüggéseket. Ez jelentette az egybefüggő tanulóhalmazokat.

Közben pedig a felhasználók dézsaszámra öntötték beléjük azokat a kifejezéseket, amiknek a jelenésére kíváncsiak voltak, a rendszer pedig egy-egy nyelvpár vonatkozásában folyamatosan korrigálta a saját fordítási hibáit.

Az egyik fontos, amit ki kell emelni, hogy szó sincs róla, hogy a gépi fordító teljes egészében emberi beavatkozás nélkül tanult volna meg idegen nyelveket. Nyilván időnként be kellett avatkozniuk a projekt kutatóinak is, főleg olyan esetekben, amikor olyan nyelvekről volt szó, amit a gépi fordítással foglalkozó nyelvtechnológusok ún. nem baráti nyelvpároknak neveznek.

Mi több, alighanem volt olyan, kisszámú eset is, amikor tényleg kézileg kellett megadni egy kifejezés másik nyelvben való megfelelőjét. De alapvetően, miután a megfelelő algók kombinálásával (na meg felmérhetetlen számítási kapacitással) tanították fordítani a gépet, onnantól kezdve a kutatók elenyésző mértékben avatkoztak be, abban volt hatalmas felelősségük, hogy olyan módon kalapálják össze a különböző machine learning algoritmusokat, hogy azok minél hatékonyabban el tudják végezni a feladatukat, magát a tanulást.

A másik fontos dolog, hogy hiába találunk baráti nyelvpároknál olyat, amikor egy, tükörfordításban nyilván nem fordítható szállóigét a gépi fordító pontosan ad vissza, magyarázattal, akár a másik nyelvben leginkább oda passzoló szállóigével, antropogén megközelítésben használt értelemről szó sincs, még ha úgy is tűnik.

Körbe lehet kérdezgeti a legkomolyabb, kemény kötésű nyelvtechnológusokat, hogy a legnagyobb kihívást mi jelenti szerintük szigorúan tudományos szempontból, azaz teljesen függetlenül annak megvalósíthatóságától. Nem igazán fognak tudni válaszolni rá, mivel a saját kutatási területeiken megoldandó feladatokat ismerik, azt viszont jól.

Ha egy kedvencet ki kellene emelni, laikusként kocanyelvészként rávághatnánk, hogy szemantikus módszerek ide vagy oda, a metonímiák azonosítása még jóideig kemény dió lesz. A legegyszerűbb példával, mit tudna mondani egy gép azzal kapcsolatban, ha azt kellene értelmeznie, hogy

“A szomszédom egy Einstein.”

A természetes nyelvfeldolgozás folyamatában csont nélkül menne nemcsak annak helyes felismerése, hogy a kijelentésben a szomszéd egy olyan személy entitás, aki mellettem lakik, ahogyan az is, hogy Einstein egy másik személy, aki egy nagyon jól ismert tudós, értelmes ember volt és így tovább. Magát az összefüggést viszont aligha találná meg, azaz hogy a mi értelmezésünkben a szomszéd egy igen okos figura.

Ráadásul itt még egy, ember számára nagyon egyszerű összefüggésről van szó a nyelvi jelenség szempontjából. Alighanem eléggé kevesen vannak, akik az ennél bonyolultabb nyelvi jelenségek értelmezésével kapcsolatos megoldásról tudnának mondani hatékony módszert, ahol kauzális szempontból többszörös áttétel van. Márpedig egyetlen kifejezésben nyilván több nyelvi jelenség kombináltan jelenhet meg, elég csak megnézni a kapcsolódó magyar Wiki-szócikket holott itt még csak a nyelv szintaktikai szintjénél járunk. A nyelv szemantikai és pragmatikai szerveződési szintjéről szó sincs.

A legkomolyabb gépagynak is feladná a leckét például annak a kijelentésnek az értelmezése, hogy

Tvrtko faszparasztként viselkedett az Egyetemen?

A kifejezés eléggé világos, de alighanem még feketeöves nyelvészek sem tudnának teljesen biztosan egy álláspontra jutni azzal kapcsolatban, hogy a nyelvi jelenség Pars pro toto,  inkább hasonlat, allegória vagy ezek keveredése.

Elvben az sem kizárt, hogy valaki képtelen legyen a nyelvi absztrakciókra, ebből adódóan denotációként értelmezné, csak nem nem tudná, hogy az, így paranormális jelenségnek tulajdonítaná.

Tehát a keresők, amikhez nem ritkán kapcsolódik automatikus gépi fordítás, okosak. Nagyon okosak. Hosszas kitérő után vissza a kulcszavak értékének méréséhez, jelentsen ebben az esetben az érték bármit is. Márpedig ha a fordítók ennyire okosak, akkor világos, hogy az embernek hosszú távon esélye sincs elhitetni a fordító technológiájával osztozó keresőmotorral, hogy valami értékes, miközben értéktelen.

Korábban egy érvelésben felmerült, hogy egy molekuláris genetikai szakkifejezésre keresve egy blogposzt beelőz több, online elérhető szaklapot, egyetemi jegyzeteket, annak ellenére, hogy bármiféle trükközés lenne a hátterében. Egyszerűen arról van szó, többek közt, hogy a fogalom közérthető magyarázattal van ellátva a blogon. A nyelvezet közérthetőségét a kereső is ügyesen azonosítani tudja, ami általában összességében hasznos, ritkább esetben viszont kimondottan veszélyes.

Közismert, hogy gyógyszerek, gyógyszerhatóanyagok vagy betegségek nevére az első nagyon-nagyon sok találat nemhogy pontatlan, hanem egyenesen megtévesztő. Ilyen módon egy information driven societyben egyenesen veszélyes. Ahogy szintén, de már kevésbé közismert, hogy a kereső kőkeményen figyelembe veszi, hogy egy-egy lefuttatott keresést követően a felhasználók mely találatokra kattintanak rá, onnan visszafordulnak-e, és így tovább, amiből próbál következtetni arra, hogy az adott információ mennyire hasznos.

Hogyan lehetne mégis egyszerűen megmérni, hogy egy-egy keresőkifejezés mennyire vonzza be az olvasókat? Az eléggé világos, hogy a keresőt azon a nyelven érdemes használni, amilyen nyelvű maga a kifejezés. Abban az esetben viszont, ha a saját, nap, mint nap használt böngészőnkbe írjuk be a keresőkifejezést, az eleve nagyon durván torzítja a keresésre kapott találatok sorrendjét, mivel a kereső komolyan figyelembe veszi, hogy a keresést mi végezzük.

Egyik mérési módszer lehet, hogy például TOR-on vagy valamilyen anonimizáló VPN-szolgáltatón keresztül kapcsolódunk a netre, majd ezt követően szűz böngészőből, privát ablakból keresünk a mérni kívánt keresőkifejezésre. A TOR exit node-okról természetesen a kereső tudja, hogy exit node, ilyen módon nem köthető a felhasználó földrajzi helyéhez. A VPN-en keresztül való keresés logikája hasonló, egy-egy kifejezésre keressünk rá a világ különböző országaiból és máris láthatjuk, hogy ugyanaz a keresőkifejezés ugyan, de teljesen más helyezést ér el a találati listán.

Látszólag ellentmondásos, hogy hosszan tárgyaltuk azt, hogy miért butaság ilyen-olyan kifejezésekre összpontosítani, de ez nem mond ellent annak, hogy értelmetlen lenne néha egy-egy kifejezés értékét mérni.

Innentől kezdve a végtelenségig finomítható, egy későbbi posztban vissza is térünk rá, hogy hogyan dolgozható ki olyan mérési módszer, ami mutatja egy keresőkifejezés rangját az ország különböző helyei felől, egy kontinens különböző országai felől.

Ahogy arról a Netacademia Tudástár egyik videójában is volt szó, a VPN-re való kapcsolódás mellett érdemes lehet telepíteni a Manual Geolocation böngészőkiegészítőt, amivel tovább finomítható, hogy “merre nézzen” a keresőszolgáltatás, amikor megpróbálja figyelembe venni a földrajzi helyünket, ami befolyásolja a találatok sorrendjét.

Emellett természetesen érdemes lehet használni a DuckDuckGo motorját, ami más logika szerint rangsorol és elvben az is meghatározható, hogy szinte semmit se vegyen figyelembe a keresést végző felhasználó kilétével kapcsolatban. Ahogy a bing.com -ot Európában alig használják, és szembetűnően eltérő sorrendű találatokat ad, a DuckDuckGo-nál hasonló figyelhető meg, csak éppen itt nem arról van szó, hogy a találatokat nem a felhasználók “bölcsességéhez” igazították, azaz azokhoz az interakciókhoz, amikből következtethető, hogy egy-egy keresésre egy-egy találat mennyire releváns, hanem a DuckDuckGo ezt szándékosan hagyja figyelmen kívül.

Közhelyes, de igaz, a neten az létezik, ami látszik a keresők számára is. Eléggé világos következtetés, hogy egy tartalom akkor igazán professzionális a keresők előtt, ha bizonyos kulcsszavaira ugyanazokat a lapokat találjuk a top 10-ben akkor is, ha Ausztráliából és akkor is, ha Magyarországról végezzük a keresést. A keresők nagy pontosssággal meg tudják saccolni, sőt, inkább mesterlövészi pontossággal eltalálni, hogy mik azok az értéktelen oldalak, amiket ímmel-ámmal létrehoztak, csak hogy legyenek, és mik azok, amik értéket képviselnek.

Tehát a SEO-ban a nyerő mix a XXI. században: rendszeresen frissülő tartalommal, újabb és újabb értékes információval kell ellátni a tartalomfogyasztókat. Pont.

képek forrása: InfoWorld, Luxoft, Astro, Becominghuman