Kétlépcsős hitelesítés céges környezetben: elmélet és gyakorlat

ket-lepcsos-hitelesites.jpgEgészen hiteles, ugyan hatásvadász videó jelent meg nemrég a Youtube-on arról, hogy az USA elnökeit a Secret Service milyen elborult módon védi.

Ma már nem meglepő, hogy az olyan biztonsági intézkedéseket, amik már kötelezőek, szinte mind csak azt követően vezették be, hogy már bekövetkezett a baj korábban: például a Kennedy, aztán pedig a Reagan ellen irányuló merénylet után.

A rendszeradminisztráció területén általános tapasztalat, hogy céges security awarenes programok ide vagy oda, sokszor igen nehéz elérni azt, hogy az alkalmazottak tartsák be a jelszavakkal, azonosítással, megosztásokkal és egyebekkel kapcsolatos ajánlásokat vagy konkrét, company policybe foglalt szabályokat.

Szinte nem telik el hét, hogy ne jelenne meg hír valamilyen komoly breachről, amiben ráadásul olyan szervezetek érintettek sokszor, amikről a legkevésbé gondoltuk volna. Ki gondolta volna, hogy az IT security tanácsadás egyik flagshipjét, a Deloitte-ot olyan támadás éri, aminek következtében a támadó több millió emailhez férhetett hozzá, ráadásul az adminnak nem volt bekapcsolva a megfelelő helyen a kétlépcsős hitelesítés és persze nem kevés idő telt el, mire egyáltalán észlelték a sikeres betörést.

Nem taglaljuk, hogy mára tényleg bárki lehet célzott támadás áldozata, amit ideális esetben időben észlel és tud kezelni, akár végfelhasználóról, akár hypervisorról van szó.

Jól ismert, hogy sokszor a NIST jelszavakkal kapcsolatos ajánlásainak megfelelő jelszavak  használata ide vagy oda, ezek még mindig nem jelentenek megfelelő védelmet. Hiszen gondoljunk csak bele, hiába fut valakinek a gépén az AV-comparatives által legjobbra értékelt security suite, ellenőrizhetetlen, hogy a belépéshez használt jelszavát nem használja-e esetleg máshol is, nincs-e esetleg a gépére keylogger telepítve, amit az AV termék nem szúr ki.

Amiről pedig szinte sosem esik szó: ma már annyit helyet figyelnek biztonsági kamerák, hogy egyáltalán nem életszerűtlen egy olyan eset, amikor valaki például egy konferenciateremben beírja a jelszavát, amit a kamera rögzít, majd a kamera által rögzített felvételhez illetéktelen fér hozzá, ha pedig szerencséje van, konkrétan úgy le tudja lesni a begépelt vagy tableten tapogatott jelszót, mintha a háta mögül leskelődött volna.

Nincs mese, kétlépcsős hitelesítésre szükség van, kötelező jelleggel, ahol csak lehet, ágazatszerinti bontásban egészen jó kis gyűjtemény itt találunk azokról a helyekről, ahol bevezették.

De mi is az a 2-FA? Mindenféle tudományos blabla nélkül arról van szó, hogy a hagyományos bejelentkezést (név+jelszó) kiegészítjük egy olyan adat bekérésével, amit a felhasználó sem tud, hanem ott helyben meg kell kapnia. Ilyen például a bankok által kiküldött hitelesítési SMS-kód. Az alapeljárást persze ezerféleképpen, és ezerfélye kütyüvel lehet túlbonyolítani, a lényeg csupán annyi, hogy a hitelesítéshez nem elegendő az az információ, ami a felhasználó fejében van, mindenképpen kell valami (más forrásból származó) adat is.

PasswordPostIt_Sized_79937w1280h820Könyen belátható hogy ilyen környezetben még a sárga post-ittel a monitorra kiragasztott jelszó esetén sem teljesen reménytelen a hozzáférési rendszer fenntartása, mivel a jelszó önmagában nem elégséges a rendszer meghódításához.

A 2-FA kötelezővé tétele megvalósítás szempontjából egy konkrét szervezetnél már egy keményebb dió. A CISO-nak megfelelő kommunikációval meg kellene értetnie a szervezet tagjaival, hogy erre tényleg elengedhetetlenül szükség van. Persze előfordulhat, hogy magyarázat és elrettentő példák ide vagy oda, még ezt követően is lesz olyan, aki szükséges rossznak fogja tartani az egészet, nem pedig olyan változtatás bevezetéséről, amivel nem lehet tovább várni, mert legrosszabb esetben akár a céges adatvagyon nem kis része is veszélybe kerülhet nélküle.

Ami a biztonságtudatosságot fokozó programokkal kapcsolatban egy számunkra feledhetetlen történet, egy európai pénzintézet esete. A szóban forgó pénzintézet néhány alkalmazottját egy etikus hekkelést és auditot végző cég támadója felhívta, majd közölték velük, hogy karbantartást végeznek, ezért mindenkinek a jelszavát újra be kell állítani. Ember nem gondolná, hogy ilyen évtizedes csalásnak van, aki bedől, főleg egy pénzintézet esetén.

A támadó még csak nem is a jelszavát kérte el az áldozatoknak, mivel az túl gyanús lett volna: ehelyett arra kérte őket, hogy a jelszót állítsák be egy bizonyos értékre. A tesztelt felhasználók több, mint 80%-a (!!) ezt meg is tette, teljes hozzáférést adva ezzel a támadónak.

Az eredmény a cég CISO-ját is alaposan meglepte, majd a pénzintézeten belül az alkalmazottaknak bemutatták, hogy mennyire könnyű hozzáférést szerezni más fiókjához, a biztonságtudatosságot fokozó képzés pedig elengedhetetlen.

A tréningen nemcsak, hogy részt kellett vennie szinte mindenkinek, hanem utána még egy mini vizsgát is kellett tenniük abból, amit a tréningen hallottak. Egy esetből csak-csak megtanulták a leckét, nem?

Fél évvel később ugyanennél a szervezetnél az etikus hekker cég próbálkozott ugyanazzal a támadással, kéretik’ kitalálni, hogy a biztonságtudatossági tréningen részt vett és vizsgázott alkalmazottak mekkora része volt ugyanúgy átverhető, és ismét a támadó által megadott jelszót állította be! Még így is közel 30%-uk! A magyarázat, hogy vizsgáztak belőle ugyan, de nem vált a napi rutinjuk részévé, hogy ilyenre legyenek felkészültek, amit a tréningek valamilyen ismétlésével lehet elérni.

A témát sokszor még a biztonságtudatosabb felhasználók is elintézik annyival, hogy “a zemberek hülyék, nem lehet velük mit kezdeni”. Ami sarkítva igaz ugyan, de a támadás kifinomultságától függően sokszor még a biztonságtudatosabb felhasználók sem megtéveszthetetlenek, másrészt ha már kizárni nem lehet egy-egy breach-t, megvannak rá a technikák, amivel nagyban megnehezíthető a támadó dolga, erre egy kézenfekvő megoldás a kétlépcsős hitelesítés. (Megjegyzem, látszólag paradox módon előfordulhat, amikor éppen hogy csökkenti az effektív biztonságot a 2-FA.)

Nagyon megbízható megoldásnak tűnik a passwordless authentication, amit bárki kipróbálhat, miután létrehoz egy Yandex-fiókot. Az azonosítás ezen típusának bekapcsolásakor le kell töltenünk a Yandex Key mobilappot és be kell állítanunk egy alkalmazás PIN-t hozzá. Amikor pedig belépnénk a Yandex-fiókunkba, a felhasználói név megadása után a Yandex nem jelszót kér, hanem kidob egy QR-kódot a képernyőre, amit a Yandex Key mobilappal be kell olvasni, miután a mobilunkon megadtuk a helyes PIN-t.

Abban az esetben, ha helyes PIN-t adtunk meg, beolvastuk a QR-kódot, a Yandex szépen be is enged. Ha viszont a támadó ellopta az áldozat mobilját és fel is oldotta, hiába van nála a mobil, rajta a beállított Yandex Key alkalmazással, a mobilon a helytelen PIN megadása után hiába olvassa be a képernyőn megjelenő QR-kódon, a Yandex nem fogja beengedni.

Ami pedig külön trükkös megoldás benne, hogy a Yandex semmilyen információt nem ad arról, hogy az azonosítás miért hiúsult meg. Azért, mert a támadó a PIN-t helytelenül adta meg, vagy az áldozat gyorsan lépett és letiltotta a Yandex Key segítségével való bejelentkezés lehetőségét egy olyan eszközön, amin már be volt jelentkezve vagy mi is történt ténylegesem.

Ha nincs jelszó, nincs mit ellopni! A Yandex ugyan hasonlóan az Authy-hoz, nem pontosan aszerint a HOTP vagy TOTP séma szerint működik, mint a jól ismert Google Authenticatior, Microsoft Authenticatior vagy a Duo Mobile, nyilván az utóbbiak lesznek egyre támogatottabbak, ezeket szükséges bevezetni amint csak lehetséges.

Egyrészt silver bullet nyilván nincs. Másrészt olyan szolgáltatások is támadhatóak maradnak, amiről aztán tényleg ember nem gondolná, ahogy arról korábban a Google kapcsán jelent meg poszt.

Viszont az aktuálisan legjobb, ténylegesen bevezethető megoldások bevezetésével és a biztonságtudatosság fokozásával a biztonság elfogadható szintűre növelhető.

kép: CSOonline

Nyelvek, keresők, mesterséges intelligencia vs egy-egy keresőkifejezés értékének mérése

termeszetes-nyelvfeldolgozasSokakban máig tartja magát a hiedelem, hogy bizonyos keresőkifejezésekre kapott találatok sorrendje a legfontosabban olyan szempontból – főleg marketinges logika szerint – hogy a lehetséges vásárló vagy ügyfél mennyire könnyen talál az adott oldalra. Mára azonban a kép ennél sokkal árnyaltabb. Elemzésünkben bemutatjuk, hogy a keresőrobot valójában már sokkal inkább egy igényes és tájékozott húsvér olvasó, sokkal több már, mint ügyesen kombinált algoritmusok szinergikus együttműködése.

Nem ritkán egyenesen hiba arról beszélni, hogy egy-egy kifejezésre keresve a mi tartalmunk hanyadik találatként adódik, ha ezt nem vetjük össze sok-sok más tényezővel.

Ahogy szoktunk, ugorjunk kicsit vissza az időben, mondjuk úgy Ádámig-Éváig. Szergej Brin és Larry Page Pagerank-algoritmusa hatékony volt a web hajnalán, amikor még nagyságrendekkel kevesebb különálló dokumentum, hogy precízek legyünk, külön-külön dokumentum vektortérrel rendelkező tartalom volt jelent információként a weben. Az algoritmus egyrészt a tudománymetriában máig használatos módszerből merített, csak éppen nem tudományos publikációk vagy szerzők, hanem weboldalak vonatkozásában mérte egy-egy webhely fontosságát.

Ennek szemléltetésére tekintsünk egy gráfot vagy részgráfot, amiben a gráfpontok egy-egy dokumentumnak felelnek meg, a kiindulási állapotban pedig a gráfpontok közti kapcsolatok egyenértékűek, azaz minden gráfpont ugyanolyan fontosságú, egyenlő rankkel rendelkezik. Abban az esetben ha egy dokumentumra már több dokumentum hivatkozik (ha úgy tetszik, több a befelé mutató él), minél több befelé mutató hivatkozás van, a dokumentum rankje annál nagyobb, azaz, annál nagyobb hatású, akárcsak a sok független idézővel rendelkező tudományos publikációk a kutatás világában.

Belegondolva logikusnak tűnik, hogy valószínűleg azért hivatkoznak sokan egy dokumentumra, mert annak az információértéke sokkal nagyobb, mint a többié, így a kereső a többi előtt fogja dobni.

Az eredeti Pagerank-algoritmus persze a gyakorlatban egyszerűen kijátszható volt, ezért el is kezdték finomítani, mára pedig nemhogy egy-egy dokumentum bármiféle azonos értékkel indulna, hanem a kifinomult keresőmotorok több ezer egyéb tényezőt vesznek figyelembe, amikor eldől, hogy hanyadik találatként kapjuk a kereséskor.

A viszonylag korai webhelyeken is használtak kimondottan a keresőmotoroknak információt szolgáltató meta-adatokat. Nagyon nem volt mindegy, hogy a dokumentum szövegében egy-egy kifejezés milyen gyakorisággal fordult elő egyrészt a teljes dokumentumhoz, az őt hosztoló wbehelyhez, valamint a neten fellelhető összes indexelt dokumentumhoz képest, ami a legegyszerűbb kvantitatív nyelvtechnológiai algoritmusok egyikével, a term frequency–inverse document frequency számításával nagyon gyorsan megállapítható. A TF-IDF modell az egyik legegyszerűbb, amivel kiszámítható egy dokumentum egyedi volta, ami természetesen nem mindig áll összhangban a benne hordozott értékes információ mennyiségével, mivel egyszerűsítve lényegében egy primitív alkalmazott statisztikai módszer.

ai-nyelveszet.png

Mióta keresés létezik, azóta létezik SEO és SEM, aminek kezdetben is az volt a lényege, hogy néhányan azzal próbáltak keresni, hogy megpróbálták ügyesen vagy kevésbé ügyesen manipulálni az őket felkérő ügyfél webhelyének rankjét. Ennek egy gyakori módja a kulcsszavakkal való trükközés volt azzal a céllal, hogy az megtévessze a keresőmotort, de az ilyen manipulációval végzett kísérleteket a keresőmotorok nagyon gyorsan észlelték, és nemhogy előbbre sorolták volna az oldalt, hanem a maguk módján akár büntették is, akárcsak ma.

Nem gondolnánk, hogy a mai napig van olyan ember, aki komolyan úgy gondolja, hogy néhány metaadat és a dokumentum kulcsszavainak művi felszaporításával, a befelé mutató linkek számának mesterséges növelésével és hasonlókkal meg lehet téveszteni a keresőmotorokat. Az AdWords és AdSense nem eléggé elővigyázatos beállítása pedig csak súlyosbít a problémán, mert még gyanúsabbá teszi az oldalt a Googlebot számra. A kétbalkezes trükközgetés a 90-es évek módszere, de akkor sem volt hatékony. Nemcsak, hogy a mai napig vannak olyanok, akik csak ilyen módszerekben tudnak gondolkozni, természetesen olyanok is vannak, akik bízva a “szakértőkben” mindezért még fizetnek is, nem is keveset.

Természetesen nem arról van szó, hogy az AdWords és az AdSense alkalmatlan eszköz lenne, viszont elegendő néhány óvatlan kattintás, és a korábban pénzzel előrébb hozott találat később épphogy hátrébb sorolódik. Mi több, komoly online marketinges források szerint a Google és a Facebook hirdetési rendszerei idővel többet fognak kérni ugyanazért a helyezését, ha ismét aprópénzért próbálná valaki előtérbe tolni ugyanazt a tartalmat. Azaz tapintatosan, de kényszerítik a hirdetőt, hogy náluk költsön.

A legnagyobb keresőmotorok már a 2000-es évek első felében elkezdtek úgy viselkedni, mint egy művelt tartalomfogyasztó (a kivételekre kitérünk később), akit ugye contentless hülyeségekkel lehet a legjobban felidegesíteni, ugyanakkor nagyra értékeli a valóban értékes tartalmakat.

Az azóta eltelt közel 20 évben pedig a keresők gépagya gazdasági szempontból elsősorban a számítási kapacitás növekedésével és költségének csökkenésével, technológiai szempontból pedig elsősorban az egyre nagyobb mennyiségű információ hatására lett egyre kifinomultabb. Az, hogy elsősorban itt nem fölös’ szóismétlés, számtalan tényezőt tudnánk még sorolni, ami a kereső-ökoszisztéma mai formáját kialakította.

spamdexing

Márpedig ha valaki megpróbál túljárni a kereső eszén akár az organikus elérések befolyásolásával, akár az AdWords/AdSense használatával, gyakorlatilag csak rosszul járhat. Hosszú távon teljesen biztos.

Amennyiben valaki nem gondolkozik AdWords-ben és AdSense-ben, hanem “csak” linkfarmot épít például, a keresőmotor felismerheti, hogy valószínűleg egy ócska manipulációról van szó, és a szóban forgó dokumentum annyira sokadik helyre kerül a találati listán, mintha gyakorlatilag nem is létezne. Kereséskor még kimondottan a dokumentumra jellemző kulcsszavak hozzáadása mellett is csak a sokadik lesz. A leginkább kirívó esetekben pedig csíp a Google Penguin vagy épp harap a Google Panda utóda, esetleg ezek utódai.

Ekkor a dokumentum valamennyi ideig kikerül a találatok közül, esetleg úgy, hogy egy ideig felé sem néz a keresőmotor és nem is lehet rávenni, hogy térképezze fel ismét a tartalmat. A tág értelemben vett tartalmat. Ez lehet több, önálló webhelyből álló lapcsalád, egy webhely vagy egy webhelynek egy adott oldala.

Ugyan fordult már elő, hogy rövid időre sikerült megtéveszteni a keresőt, a search engine poisoning-nek pedig hasonló, csak éppen underground szakirodalma van, hasonlóan az ilyeneket megfékező nyelvtechnológiai fegyverarzenálhoz. A nagy keresők naponta több tízmillió (!!) találatot távolítanak el az indexükből.

Néhány bekezdéssel korábban nem véletlenül írtuk a dokumentumok osztályozásával kapcsolatban, hogy “valószínűleg” juthat arra a szomorú sorsra. Ugyanis mindegy, hogy a data science melyik területéről van szó, végülis az összes gépi tanulási, mintázatfelismerési és hasonló csoportba tartozó algoritmusnál arról van szó, hogy a lelkét mindegyiknek alapvetően a nagyon nagy adathalmazokon végzett statisztikai eljárások jelentik.

Ezek pedig bizony kis valószínűséggel ugyan, de tévedhetnek is. Külön posztot érne meg, hogy a több évtizede kitalált, már évekkel ezelőtt is gépre implementált megoldásokat hogyan lett nagyon-nagyon divatos AI-nek nevezni, főleg azok részéről, akik a legelemibb informatikai algoritmus lényegét sem tudnák elmagyarázni egy általános iskolás gyereknek, a poszt tárgya most nem ez.

A keresésnél a gép tehát valószínűségekben gondolkodik. Igen, mondhatjuk pongyola módon, hogy gondolkodik, amíg jobb kifejezés nincs rá. Több analógia figyelhető meg a nagyon sok adaton alapuló gépi tanulás és az ember tanulással kapcsolatos kognitív és emlékezeti folyamatai közt. A poszt szerzőjének egyik kedvenc területéről, a kognitív pszichológiából hozunk példát – már megint.

A kisgyermekkortól a tanulási folyamat egy lényegi része, hogy az ember a számára tapasztalható információkat osztályozza, később pedig ez az osztályozás teljesen elengedhetetlen részévé válik a gondolkodásnak. Tételezzük fel, hogy a posztot tollal írom papírra. Ahogy most ránézek a kedvenc töltőtollamra, az jut eszembe róla, hogy azzal írom ezt a cikket, először papírra, ami az absztrakció lényegi része, de csak bizonyos szempont alapján.

Ha újra és újra fel kellene idézni, hogy a tollamat írásra használom, a tollamban tinta van, amit egy konverterrel lehet felszívni az üvegből, majd a tinta elsősorban a jól eltalált viszkozitása miatt kerül a papírra anélkül, hogy egyszerre folyna ki az összes, igencsak rövid idő alatt olyan adag információt kellene feldolgoznia az agyamnak az újra-osztályozás miatt, ami a legelemibb gondolkodási folyamatokat is lehetetlenné tenné.

A gondolkodás egységei, ha úgy tetszik, osztályok és nem az osztályokba tartozó elemek. Az elemekkel kapcsolatban pedig nyilván valamilyen érzékelhető módon építettük fel a szükséges információt és soroltuk osztályba, érzékelési csatornákból pedig jóval több alakult ki az evolúció folytán, amik nem bizonyultak adaptívnak, így szépen be is zárultak és sosem működnek. Relatív kevés az olyan kivételes eset, amikor a folyamatos osztályozás rendje felborul vagy éppen sosem használt információs csatornák nyílnak meg.

Irodalmi adatok alapján leginkább markánsan LSD hatása alatt. Aki pedig került ilyen állapotba, nem is tudja szavakban visszaadni, amit tapasztalt, csak hasonlítani ahhoz, ami más számára is érthető észlelés. Ahogyan az az érzés sem adható vissza, amikor valaki a flow-nak nevezett tudatállapotban alkot valamit.

a-gepi-tanulas

Sajátos, hogy a felelősségteljes döntések meghozására alkotott, komplex informatikai megoldások egy képzeletbeli in silico LSD-szerű hatásra nem más logika alapján fognak döntéseket hozni, nem fognak máshogy gondolkozni, a valóság sokkal prózaibb: egyszerűen összeomlanak. Természetesen nemcsak az olyan megoldásokra igaz ez, amik a neurális hálók valamelyikén alapulnak.

Alighanem abból adódóan, hogy mindenki szeret önmagából kiindulni, aztán antropogén megközelítést alkalmazni akkor is, amikor az egyébként teljesen mellékes, rendszeresen visszatérő téma, hogy mikor jelenik meg a mesterséges értelem – és nem mesterséges intelligencia!

A cikk zugbiológus szerzőjének véleménye szerint akkor jelenne meg a mesterséges értelem, amikor egy, egyébként már alkalmazkodni is képes, hibatűrő, több, mint informatikai megoldásnak nevezhető gépagy egy előbb emlegetett információbemenetként érkező, “pszichedelikus hatású kábszitól” nem összeomlik, hanem máshogy kezd működni.

Valószínű, hogy az ilyen, köznyelvi értelemben vett mesterséges értelem nem hozható létre ésszerű befektetés mellett, nem is érdeke senkinek, esetleg nem is fog létezni soha a sci-fi írók teremtményein kívül, hiszen a piac – igen, már megint a piac – és a fogyasztói igények egyeznek abban, hogy egy mesterséges intelligenciának nevezett megoldás feladatok egy többé-kevésbé körülhatárolt csoportjának elvégzésében legyen nagyon jó. Mondjuk annyira jó, hogy a feladat megoldása közben vagy annak eredményénél az ember ne tudja megkülönböztetni, hogy azt ember vagy éppen gép végezte.

Ide kapcsolódik az egyik leggyakoribb félreértés, ami szerint Alan Turing azt állította volna, hogy amit mesterséges értelemnek nevezünk, akkor jelenik meg, amikor az ember olyan módon tud beszélgetni a géppel, hogy az ember azt ne vegye észre, hogy géppel beszélget. Csakhogy Turing sosem állított ilyet, sokkal bonyolultabbat igen. Ha valakit érdekel, a témáról erre olvashat bővebben.

Na de vissza a guglihoz!

A komoly keresőmotorok az emberi megismeréssel részlegesen párhuzamba állítható algoritmusokat vetnek be, amikor osztályoznak és értékelnek egy-egy tartalmat. A folyamat vége pedig, hogy a tartalom hanyadik találatként jelenik meg a keresésnél.

Ami fontos, hogy a keresőmotorok megvalósítását semmiképp se úgy képzeljük el, hogy egy-egy okos algoritmus dobná tovább a labdát a következőnek, az szintén gondolkozna rajta picit, majd megszületne az eredmény. Ehelyett az emberi tanuláshoz hasonlóan osztályoz amellett, hogy az adott osztályba tartozó elemekkel is foglalkozik. Azaz a részt és az egészet is nézi, akár egy értelmes ember, már megint.

A keresőmotorok fejlesztői a sokszor már régen ismert algoritmusokat kombinálják, olyan módon, hogy az összességében minél hatékonyabb legyen. De mit jelent, hogy minél hatékonyabb, ha nem elégszünk meg olyan magyarázattal, hogy minél jobban eltalálja a kereső a választ arra, amit lényegében kérdezünk?

Sokan nem tudják, de amikor a Yandex, a Google és a többi elkezdte fejleszteni a saját fordítóját, az döntő részben nem úgy történt, hogy kézileg belegyúrtak volna eszelős mennyiségű szótári adatot és különböző nyelvtani szabályokat. Konkrétan a Yandex és a Google Translate – durva egyszerűsítéssel – úgy lett egyre hatékonyabb, hogy emberi szóhasználattal élve logikai kapcsolatokat gyűjtöttek az általuk indexelt kifejezések, tartalmak közt egy adott nyelven belül, majd különböző nyelvekkel kapcsolatban is keresték az összefüggéseket. Ez jelentette az egybefüggő tanulóhalmazokat.

Közben pedig a felhasználók dézsaszámra öntötték beléjük azokat a kifejezéseket, amiknek a jelenésére kíváncsiak voltak, a rendszer pedig egy-egy nyelvpár vonatkozásában folyamatosan korrigálta a saját fordítási hibáit.

Az egyik fontos, amit ki kell emelni, hogy szó sincs róla, hogy a gépi fordító teljes egészében emberi beavatkozás nélkül tanult volna meg idegen nyelveket. Nyilván időnként be kellett avatkozniuk a projekt kutatóinak is, főleg olyan esetekben, amikor olyan nyelvekről volt szó, amit a gépi fordítással foglalkozó nyelvtechnológusok ún. nem baráti nyelvpároknak neveznek.

Mi több, alighanem volt olyan, kisszámú eset is, amikor tényleg kézileg kellett megadni egy kifejezés másik nyelvben való megfelelőjét. De alapvetően, miután a megfelelő algók kombinálásával (na meg felmérhetetlen számítási kapacitással) tanították fordítani a gépet, onnantól kezdve a kutatók elenyésző mértékben avatkoztak be, abban volt hatalmas felelősségük, hogy olyan módon kalapálják össze a különböző machine learning algoritmusokat, hogy azok minél hatékonyabban el tudják végezni a feladatukat, magát a tanulást.

A másik fontos dolog, hogy hiába találunk baráti nyelvpároknál olyat, amikor egy, tükörfordításban nyilván nem fordítható szállóigét a gépi fordító pontosan ad vissza, magyarázattal, akár a másik nyelvben leginkább oda passzoló szállóigével, antropogén megközelítésben használt értelemről szó sincs, még ha úgy is tűnik.

Körbe lehet kérdezgeti a legkomolyabb, kemény kötésű nyelvtechnológusokat, hogy a legnagyobb kihívást mi jelenti szerintük szigorúan tudományos szempontból, azaz teljesen függetlenül annak megvalósíthatóságától. Nem igazán fognak tudni válaszolni rá, mivel a saját kutatási területeiken megoldandó feladatokat ismerik, azt viszont jól.

Ha egy kedvencet ki kellene emelni, laikusként kocanyelvészként rávághatnánk, hogy szemantikus módszerek ide vagy oda, a metonímiák azonosítása még jóideig kemény dió lesz. A legegyszerűbb példával, mit tudna mondani egy gép azzal kapcsolatban, ha azt kellene értelmeznie, hogy

“A szomszédom egy Einstein.”

A természetes nyelvfeldolgozás folyamatában csont nélkül menne nemcsak annak helyes felismerése, hogy a kijelentésben a szomszéd egy olyan személy entitás, aki mellettem lakik, ahogyan az is, hogy Einstein egy másik személy, aki egy nagyon jól ismert tudós, értelmes ember volt és így tovább. Magát az összefüggést viszont aligha találná meg, azaz hogy a mi értelmezésünkben a szomszéd egy igen okos figura.

Ráadásul itt még egy, ember számára nagyon egyszerű összefüggésről van szó a nyelvi jelenség szempontjából. Alighanem eléggé kevesen vannak, akik az ennél bonyolultabb nyelvi jelenségek értelmezésével kapcsolatos megoldásról tudnának mondani hatékony módszert, ahol kauzális szempontból többszörös áttétel van. Márpedig egyetlen kifejezésben nyilván több nyelvi jelenség kombináltan jelenhet meg, elég csak megnézni a kapcsolódó magyar Wiki-szócikket holott itt még csak a nyelv szintaktikai szintjénél járunk. A nyelv szemantikai és pragmatikai szerveződési szintjéről szó sincs.

A legkomolyabb gépagynak is feladná a leckét például annak a kijelentésnek az értelmezése, hogy

Tvrtko faszparasztként viselkedett az Egyetemen?

A kifejezés eléggé világos, de alighanem még feketeöves nyelvészek sem tudnának teljesen biztosan egy álláspontra jutni azzal kapcsolatban, hogy a nyelvi jelenség Pars pro toto,  inkább hasonlat, allegória vagy ezek keveredése.

Elvben az sem kizárt, hogy valaki képtelen legyen a nyelvi absztrakciókra, ebből adódóan denotációként értelmezné, csak nem nem tudná, hogy az, így paranormális jelenségnek tulajdonítaná.

Tehát a keresők, amikhez nem ritkán kapcsolódik automatikus gépi fordítás, okosak. Nagyon okosak. Hosszas kitérő után vissza a kulcszavak értékének méréséhez, jelentsen ebben az esetben az érték bármit is. Márpedig ha a fordítók ennyire okosak, akkor világos, hogy az embernek hosszú távon esélye sincs elhitetni a fordító technológiájával osztozó keresőmotorral, hogy valami értékes, miközben értéktelen.

Korábban egy érvelésben felmerült, hogy egy molekuláris genetikai szakkifejezésre keresve egy blogposzt beelőz több, online elérhető szaklapot, egyetemi jegyzeteket, annak ellenére, hogy bármiféle trükközés lenne a hátterében. Egyszerűen arról van szó, többek közt, hogy a fogalom közérthető magyarázattal van ellátva a blogon. A nyelvezet közérthetőségét a kereső is ügyesen azonosítani tudja, ami általában összességében hasznos, ritkább esetben viszont kimondottan veszélyes.

Közismert, hogy gyógyszerek, gyógyszerhatóanyagok vagy betegségek nevére az első nagyon-nagyon sok találat nemhogy pontatlan, hanem egyenesen megtévesztő. Ilyen módon egy information driven societyben egyenesen veszélyes. Ahogy szintén, de már kevésbé közismert, hogy a kereső kőkeményen figyelembe veszi, hogy egy-egy lefuttatott keresést követően a felhasználók mely találatokra kattintanak rá, onnan visszafordulnak-e, és így tovább, amiből próbál következtetni arra, hogy az adott információ mennyire hasznos.

Hogyan lehetne mégis egyszerűen megmérni, hogy egy-egy keresőkifejezés mennyire vonzza be az olvasókat? Az eléggé világos, hogy a keresőt azon a nyelven érdemes használni, amilyen nyelvű maga a kifejezés. Abban az esetben viszont, ha a saját, nap, mint nap használt böngészőnkbe írjuk be a keresőkifejezést, az eleve nagyon durván torzítja a keresésre kapott találatok sorrendjét, mivel a kereső komolyan figyelembe veszi, hogy a keresést mi végezzük.

Egyik mérési módszer lehet, hogy például TOR-on vagy valamilyen anonimizáló VPN-szolgáltatón keresztül kapcsolódunk a netre, majd ezt követően szűz böngészőből, privát ablakból keresünk a mérni kívánt keresőkifejezésre. A TOR exit node-okról természetesen a kereső tudja, hogy exit node, ilyen módon nem köthető a felhasználó földrajzi helyéhez. A VPN-en keresztül való keresés logikája hasonló, egy-egy kifejezésre keressünk rá a világ különböző országaiból és máris láthatjuk, hogy ugyanaz a keresőkifejezés ugyan, de teljesen más helyezést ér el a találati listán.

Látszólag ellentmondásos, hogy hosszan tárgyaltuk azt, hogy miért butaság ilyen-olyan kifejezésekre összpontosítani, de ez nem mond ellent annak, hogy értelmetlen lenne néha egy-egy kifejezés értékét mérni.

Innentől kezdve a végtelenségig finomítható, egy későbbi posztban vissza is térünk rá, hogy hogyan dolgozható ki olyan mérési módszer, ami mutatja egy keresőkifejezés rangját az ország különböző helyei felől, egy kontinens különböző országai felől.

Ahogy arról a Netacademia Tudástár egyik videójában is volt szó, a VPN-re való kapcsolódás mellett érdemes lehet telepíteni a Manual Geolocation böngészőkiegészítőt, amivel tovább finomítható, hogy “merre nézzen” a keresőszolgáltatás, amikor megpróbálja figyelembe venni a földrajzi helyünket, ami befolyásolja a találatok sorrendjét.

Emellett természetesen érdemes lehet használni a DuckDuckGo motorját, ami más logika szerint rangsorol és elvben az is meghatározható, hogy szinte semmit se vegyen figyelembe a keresést végző felhasználó kilétével kapcsolatban. Ahogy a bing.com -ot Európában alig használják, és szembetűnően eltérő sorrendű találatokat ad, a DuckDuckGo-nál hasonló figyelhető meg, csak éppen itt nem arról van szó, hogy a találatokat nem a felhasználók “bölcsességéhez” igazították, azaz azokhoz az interakciókhoz, amikből következtethető, hogy egy-egy keresésre egy-egy találat mennyire releváns, hanem a DuckDuckGo ezt szándékosan hagyja figyelmen kívül.

Közhelyes, de igaz, a neten az létezik, ami látszik a keresők számára is. Eléggé világos következtetés, hogy egy tartalom akkor igazán professzionális a keresők előtt, ha bizonyos kulcsszavaira ugyanazokat a lapokat találjuk a top 10-ben akkor is, ha Ausztráliából és akkor is, ha Magyarországról végezzük a keresést. A keresők nagy pontosssággal meg tudják saccolni, sőt, inkább mesterlövészi pontossággal eltalálni, hogy mik azok az értéktelen oldalak, amiket ímmel-ámmal létrehoztak, csak hogy legyenek, és mik azok, amik értéket képviselnek.

Tehát a SEO-ban a nyerő mix a XXI. században: rendszeresen frissülő tartalommal, újabb és újabb értékes információval kell ellátni a tartalomfogyasztókat. Pont.

képek forrása: InfoWorld, Luxoft, Astro, Becominghuman