Nyelv, mesterséges intelligencia, na meg felsőtest strandszezon utánra

nyelvek_kulturakTöbbször érintettük azt a témát, hogy a keresés hogyan változtatott meg minden területen mindent, ahol információ előfordul: azaz mindenhol. Hamarosan elmagyarázzuk azokat az algoritmusokat, amikről gyakorlatilag sosem esik szó, amikor egy rendezvényen valaki a big data, data science, legújabban pedig az artifical intelligence buzzwordköket zúdítja ránk egy előadás keretében félpercenként. Előtte viszont hozunk példát a keresés olyan típusú alkalmazására és annak hátterére, amilyennel eddig még kevésbé foglalkoztunk.

Konkrét példaként vegyünk egy minden férfi képzeletét megmozgató valamit, amire  példánkban “kétségbeesetten” keresni fogunk. Igen, a férfi felsőtest fényképét deltássá változtató fotómanipuláló appról van szó! Találjuk meg a legjobbat ebből!

Világos, hogy a nagy-nagy keresőmotorok már értelmezik, amit olvasnak a weben, ahogyan az is, hogy ez az egyik, ami lehetővé teszi, hogy egy-egy teljesen emberszerűen megfogalmazott kérdést a legpontosabban értelmezzen a kereső, sőt az keresési találatok által mutatott tartalmak igazságtartalma, tényszerűsége is lassan, de javul.

Mindegy, hogy egy mobileszközön mennyi alkalmazást telepítettünk, úgyis csak 6-8-at használunk napi rendszerességgel. Nem lennénk meglepve, ha a telepített, aztán ténylegesen használt alkalmazások használati gyakoriság szempontjából skálafüggetlen eloszlást mutatnának, azaz a legritkábban használt alkalmazásról már alighanem azt sem tudjuk, hogy mik is eredetileg, míg összesen egy maréknyi lenne, amit naponta használunk. Megint mások annyi alkalmazással tömik ki a tabletjüket és a mobiljukat, amennyi ráfér.

Amikor nem valamilyen konkrét alkalmazást szeretnénk letölteni, hanem egy igényre keresünk megoldást akár a Google Play-ben, akár az App Store-ban, mindkettő keresője egész nagy pontossággal meg tudja jósolni, hogy mire van szükségünk, annak ellenére – itt jön a lényeg – hogy mobileszköznél máshogy, alapvetően rövidebben adjuk meg a keresőkifejezést, ami alapján a háttérben a keresés majd megtörténik. A kérdés, hogy hogyan?

Azzal most ne foglalkozzunk, hogy mindkét platformnak megvannak a lehetőségei arra, hogy személyre szabottan, nem csak a korábbi letöltéseink alapján tudja a jóslatot pontosítani, hogy minél inkább személyre szabott találatot adjon.

Igaz, hogy mindkettő keresőjében lehet szűrni kategória, értékelés, népszerűség szerint, ezek azok a lehetőségek, amikhez a felhasználóknak nem is nagyon kell nyúlniuk.

Lehetne rajta vitatkozni, de amikor alkalmazást keresünk, ez alapvetően nem más keresés, mint amikor a nekünk leginkább megfelelő tartalmat igyekszünk kiválasztani. Az a gondolat itt is megállja a helyét, hogy ha jó választ szeretnénk kapni, jobban kell kérdezni. Viszont minél többet szeretnénk tudni, annál jobb korábbi válaszokra van szükségünk. Azaz sokat szeretnél tudni? Tudj jól kérdezni! Jól akarsz kérdezni? Ahhoz sokat kell tudni.

Egyszerű kísérletet végeztünk azzal kapcsolatban, hogy az egyik alkalmazásbolt mennyire találja el, hogy milyen alkalmazásra lenne szükségünk olyan esetben, ha hasonló témával korábban még nem foglalkozunk. Még csak nem is olyannal kapcsolatban kerestünk alkalmazást, ami egzotikus ételek elkészítésének fortélyaival foglalkozik, azokkal kapcsolatban kínál recepteket. Belátható, hogy aligha van annyira specializált vagy elborult téma, amire már ne lenne mobilapp – értelmes alkalmazás persze már jóval kevesebb.

Most jön az a pont, amikor a szerző tudományos kísérletnek álcázza, hogy ő valójában tényleg ki szeretne tenni a Facebookra egy dögös, deltás felsőtestet önmagáról, de ez annyira ciki, hogy inkább ír egy hatalmas cikket, amivel elfedi az ilyen tíupsú appok  keresésének valódi motivációját. Ki az a marha, aki ilyen appot keres? Valaki más!

Tehát tételezzük fel, hogy valaki, azaz valaki egészen más bármilyen okból elhízott, túl vékony, vagy nemtől függetlenül nem elégedett valamilyen szempontból a kinézetével. A felvetés kellően komplex ahhoz, hogy ha a nagy és okos Google-be írjuk valamilyen világnyelven, azaz angolul vagy spanyolul,

“Mik azok az alkalmazások, amikkel vonzóbbá tehetem az alakom fotók manipulációjával?”

még ilyen esetben is égtelen mennyiségű testépítéssel kapcsolatos cikk jön ki, ami jelen példában irreleváns. Aztán sokadik találatként megjelenik egy cikk, ami azzal foglalkozik, hogy mik azok az alkalmazások, amikkel a legjobb ilyen irányú fotóhakkolás lehetésges anélkül, hogy érteni kellene a grafikához.

A Google Playben és az App Store-ban azokat a kulcsszavakat adjuk meg, amik a mi ismerethalmazunk, gondolkodásmódunk szerint a leginkább kifejezik az igényt, amire szüksége lenne valaki egészen másnak. Még ha valaki eléggé jól tud angolul, akkor sem biztos, hogy ebben a környezetben jól meg tudja fogni a lényeget, hogy minél több jó értékelést kapott, sokak által letöltött alkalmazást kapjon a találatok közt, és elfogadhatóan kevés olyan alkalmazás jelenjen meg, ami irreleváns vagy éppen használhatatlan.

Nem nehéz belátni, hogy mindkét alkalmazásboltnak olyan mértékben elemi érdeke, hogy a keresőjük valóban okoskereső legyen, hogy egyszerű keresés mellett nem sokáig maradnának talpon. Alighanem a háttérben az alkalmazásboltok keresői is értelmezik az alkalmazások leírását, figyelembe veszik a konkrét feedbackeken kívül azt is, hogy az alkalmazást a letöltés után mennyien törölték és így tovább.

izmosito_appok.PNG

Ezzel még nem jutottunk sokkal közelebb ahhoz, hogyan is keressünk, ha kimondottan olyan alkalmazásra van szüksége valaki másnak, amivel a leggyorsabban és legjobban pattinthatja ki magát egy fürdőgatyás fotón. A probléma tehát az, hogy nem tudunk kellően jó kérdést megfogalmazni, az pedig igencsak a jövő zenéjének tűnik, hogy még azt is nagyrészt a gépagy találja ki helyettünk, hogy mire vagyunk kíváncsiak.

Tehát ha valaki ilyen appokkal nem szokott vicceskedni, azt sem tudja, hogy hogyan fogalmazza meg a kérdést a legjobban. Több módszert is kipróbáltunk és megfigyeltük, hogy hogyan változik a találatok sorrendje és összetétele, bár azt nem, hogy ezek az alkalmazások mennyire alkalmasak arra, amire kitalálták őket, hisz nekünk nem kell ilyen, csak valaki másnak.

Az első gondolat, hogy naiv megközelítésben mik azoknak a kulcsszavaknak az angol nyelvű megfelelője, ami a legjobban passzolhatnak. Például

body editor

vagy éppen

gym body editor

Ezeket a teljesség igénye nélkül megnézve az editor elé nyilván nem kell odabökni, hogy photo editor, természetesnek vesszük, hogy ez azért a kereső tudja.

Így is kijön néhány találat, viszont nagyon sok olyan, ami konkrét edzésterveket kínál.

A teljesen laikus megközelítés megbukott, ha itt megtorpanunk. Noam Chomsky legyen a talpán, aki meg tudja mondani, hogy még ha a fogalomrendszerünk hasonló is, egy adott témával kapcsolatos gondolkodásmódunk nyelvtől és kultúrától függően eltérhet, azaz egy spanyol, kínai vagy ausztrál, angolul hasonlóan tudó felhasználók is ugyanezeket a keresőkifejezéseket dobálták volna-e be. Alighanem nem.

Pontosabban nyilván nem, a vitákat az képzi, hogy miért. Az elgondolás persze szigorúan hipotetikus, hiszen nincs három olyan felhasználókból álló minta – spanyol, kínai és ausztrál – akinek egy az egyben hasonló lenne a gondolkodása, és csak és kizárólag az anyanyelvükben és az idegennyelv használat terén térnének el.

A témára visszatérve a body editor és a gym body editor, szinte ad hoc kitalált keresőkifejezésekkel nem voltunk túl sikeresek, viszont ha találtunk akár egyetlen appot is, ami azt ígéri, hogy valaki másnak a sörhasát vagy gebe felsőtestét hatékonyan fotoshoppolja, már kattinthatunk is “You might also like”, “Similar apps” lehetőségekre, nyilván korábbról tudja a szolgáltatás, hogy az alkalmazás iránt érdeklődő felhasználók milyen más alkalmazásokat néztek meg, valamint töltöttek le. Hogy mindezt hogyan? A társítási szabályok bányászatáról, használatáról, predikciós és osztályozó módszerekről, klaszterelemzésről és hasonló feketemágiáról hamarosan éppen blogunkon lehet olvasni hamarosan.

Visszaugorva az App Store-ba: megjelenik előttünk néhány további alkalmazás, amik tényleg nagyon hasonlítanak ahhoz, amire rátaláltunk. Ez sokat segíthet, de még mindig nem biztos, hogy éppen a leghatékonyabba fogunk belebotlani. Írtuk, számunkra minél ismeretlenebb a téma, annál nehezebben tudunk jól kérdezni, aztán ennek megfelelően hasznos információkhoz jutni, másrészt jelen esetben egy alkalmazás minél specializáltabb feladatra van kitalálva, annál nehezebb rákeresni, megtalálni.

A leírások ebben az esetben legalább olyan információértékkel bírnak, mint a screenshotok, ugyanis ezeket elolvasva botlunk olyan kifejezésekbe, amik nagyon jellemzőek a keresett alkalmazásra nézve, viszont csak a passzív, ráadásul idegennyelvi passzív szókincsükben léteznek, ezért nem jutott eszünkbe keresőkifejezésként használni őket. Szövegkörnyezetében eléggé világos, hogy mit jelent a boost kifejezés. Szövegkörnyezetében! De ha valaki korábban nem ismerte, és bedobja a Translate-be, rá nem jön, hogy ez a szó valójában mit is jelent. Amit látunk a jobb panelen, mind szótári alak:

Translations of boost
noun
túltöltés
boost, supercharge
emelkedés
climb, lift, raising, raise, uptrend, boost

verb
felemel
lift up, raise, exalt, elevate, uplift, boost
fellendít
boost
reklámoz
publicize, boost

Az értelmezés már világosabbá teszi, ekkor a tudásunkban a megfelelő helyre tesszük, bővítjük vele a saját fogalmi keretünket:

Definitions of boost
noun
a source of help or encouragement leading to increase or improvement.
the cut in interest rates will give a further boost to the economy
synonyms: uplift, lift, spur, encouragement, help, inspiration, stimulus, pick-me-up, shot in the arm
verb
help or encourage (something) to increase or improve.
a range of measures to boost tourism
synonyms: improve, raise, uplift, increase, enhance, encourage, heighten, help,

Az igen gyakran előforduló abs esetén az agyunk nem fordítja le abdominal muscles kifejezésre, hogy aztán még egy lépésben hasizommá fordítsa, ez is világos. A következő kifejezés, amivel viszont egyrészt kellően ritkán találkozunk, másrészt még inkább igaz, hogy csak környezetében van bármiféle értelme is, a pecs, ami a pectoral muscle-t jelentené. Az utóbbi érdekessége, hogy köznyelvi értelemben “új szó”, néhány évvel ezelőtt jóformán senki sem használta.

A Google Trendsből kiderül, hogy a kifejezés gyakran fordult elő olyan fogalmak keresésekor, amikor a felhasználók testépítéssel, zsírral és gyakorlatokkal kapcsolatos információkat keresnek a neten.

Az USA-beli adatoktól nem térnek el markánsan az Egyesült Királyságban mért adatok, azaz nagyon pongyolán fogalmazva, hasonló a helye a a brit és amerikai angol nyelvben.

Annak megállapításában, hogy egy mennyire új kifejezésről van szó, sokat segíthet a Google Ngram Viewer, ami pedig teljesen világos felfutást mutat.

A Trends-re és az Ngram View-re különösen igaz, hogy kellő háttérismeretet és gyakorlatot igényel, hogy megfelelő következtetéseket vonjunk le abból, amit kapunk. A Trends csak 2004-től jegyzi az adatokat, míg a Ngram Viewer a 19. század eleje óta megjelent, szinte összes könyv digitalizált szöveganyagát veszi alapul, egy-egy Ngram felfutása pedig nem jelenti feltétlenül, hogy a kifejezés gyakoribbá vált volna.

Néhány keresést követően kiderül, hogy valószínűleg mik a legjobb, valaki teljesen más céljának megfelelő mobilalkalmazások, viszont vegyük észre hogy például fogalmi osztályozást sem kellett egyedül végeznünk, annak egy részét elvégezte a a gép, ezért találtuk meg gyorsabban a valaki másnak kellő, tényleg jó alkalmazást! Természetesnek vesszük, mert a mindennapi élet részévé vált, merész kísérletezőknek viszont érdemes lehet néha benézni a kulisszák mögé.

A kulisszák mögött

Ha nem is megyünk akadémiai magasságokba, jó, ha van egy szemléletes képünk minél több olyan algoritmusról, amit újabban rendkívül megtévesztő módon a mesterséges intellgencia tárgykörébe sorolnak. Példaként emelnénk ki ismét a látens Dirichlet-allokációt ami eléggé ügyesen alkalmazva, “elolvasva” megfelelő mennyiségű szöveget, “tudni” fogja, hogy a tej, a nyávogás a macskához, míg az ugatás és a csont fogalmilag a kutyához kapcsolható. Jó adag hasonló módszer létezik még, az igazi kihívás eltalálni az adott feladatnak megfelelőt.

Az okos gépek ott vannak az élet minden területén. Ha hirtelen meg kellene mondani, hogy az artifical intelligence hogyan lett teljesen félreértett, a kelleténél gyakrabban használt buzzword, eléggé valószínű, hogy azért, mert a kimenet, legyen az bármi is, a Siri válasza vagy egy chatbot tartalmas megjegyzése, akár egy keresés eredménye, olyan minőségű, mintha gondolkozó embertől származna.

A másik súlyos félreértés, hogy a mesterséges intelligencia kutatásának célja lenne, hogy belső működésmód szempontjából minél jobban hasonlítson az emberi gondolkodáshoz, holott már a 60-70-es években rájöttek, hogy ez a csapásirány nettó ostobaság.

Amit ma sokan mesterséges intelligenciának neveznek, valójában olyan megoldások egyvelege, ami adott feladatokat tud megoldani minél jobban és gyorsabban, emberi értelemben úgy, hogy azt a benyomást keltse, mintha a gép értelemmel rendelkezne, gondolkozna.

A MATLAB-ra nem úgy gondolunk, mint a mesterséges intelligencia eszközére, pláne nem úgy, mint olyan rendszerre, ami gondolkodna helyettünk, de ha például jól formalizálva megadunk benne egy másodfokú egyenletet, azt a MATLAB, hasonlóan gyakorlatilag az összes jól formalizált egyenlethez megoldja, kiadja az eredményt, ami gyorsan ellenőrizhető is.

Ha először látnánk, akkor esetleg azt gondolhatnánk, hogy a MATLAB okosan megtanulta a másodfokú egyenlet általános megoldóképletét, aztán annak megfelelően oldotta meg. Ha erre nem volt felkészítve, akkor egyszerűen fogott egy numerikus analízisből ismert közelítő módszert, abba behajigálta az értékeket, végig nagyon-nagyon sok tizedesjegy pontossággal számolt, a végén pedig kiadta a helyes eredményt. Azaz azt a benyomást keltette, mintha értelemmel oldotta volna meg az egyenletet, holott erről szó sincs.

(Ha esetleg éppen a MATLAB már fel van készítve rá, hogy a másodfokú egyenlet felismerje, mint olyan egyenletet, amire van megoldóképlet, és azt alkalmazta, akkor elnézést.)

Lényeg, hogy az esetek többségében közelítő módszerrel kapott közelítő eredmény is megfelel, ami nem jelenti azt, hogy a numerikus módszerek mellett már nem lehetne tévedni, sőt, adott esetben nagyon durván mellé is lehet nyúlni.

Valaminek az okos megoldása nem jelenti azt, hogy a gép okos!

A másik, ami érdekes példa lehet, az automatikus tételbizonyítás, ahol az felhasználó csak formalizál, bizonyítási módszert állít be, a gép pedig bizonyít. Erről úgy gondolnánk, hogy kimondottan emberi leleményességet igénylő tevékenység.

Minden olvasót arra bátorítanánk, hogy amint egy beszélgetés közben felmerül nagy vehemenciával a mesterséges intelligencia, nézzen a beszélgetőpartnere szemébe, és kérdezze meg, hogy szerinte a felügyelt vagy a nem-felügyelt gépi tanulás jobb sok esetben, és miért. Mindkettővel kapcsolatban különböző példákon keresztül lehet érvelni amellett, hogy miért hatékonyabb az adott esetben. Ha az Olvasó még nincs képben a két fogalommal és módszereivel kapcsolatban, érdemes lehet hamarosan ismét a blogra nézni.

Mert ez az elemzés itt és most véget ért. Folyt. köv.!

Nyílt-forrású információszerzés – kémek, kurvák, gengszterek, OSINT

Tényleg titkosak a rendvédelmi- és honvédelmi szervek, nyomozati jogkörrel rendelkező hatóságok tagjainak módszerei? Bárki beletanulhat a nyomozás és hírszerzés módszertanába? Általánosságban mit lehet elmondani arról, hogy az OSINT-módszerek alkalmazása mikor legális és etikus, még akkor is, ha definícióból adódóan csak olyan adatforrást használunk fel, ami elvben bárki számára elérhető, azaz szó sincs róla, hogy valahova valakinek be kellene hekkelnie magát bárhova is. Az OSINT mindig passive reconnaissance, de ebből nem következik, hogy ne okozhatna szakszerűtlenül használva esetlegesen olyan érdeksérelmet, mint a törvényben foglaltaknak megfelelő, Tiltott adatszerzés és az információs rendszer elleni bűncselekmények közé sorolt bűncselekmények valamelyike ír le.
Két gyakran idézett, mégis időtálló zseniális mondás ide passzol:
The real intelligence hero is Sherlock Holmes, not James Bond.
You’re only anonymous on the Internet because nobody’s tried very hard to figure out who you are.
Tapasztalat, hogy amikor valaki elkezd érdeklődni a nyílt-forrású információszerzéssel  kapcsolatban, halomra merülnek fel benne a kérdések, aztán egy-egy jobb kurzus vagy könyv után a kérdésekből még több, rendszerint csak még hosszabban megválaszolható kérdések lesznek. Próbálunk olyan áttekintést adni madártávlatból a OSINT-tel kapcsolatban, ahol most éppen technikai részletekkel foglalkozunk kevésbé, nagyobb hangsúlyt helyezünk az elvi szempontokra. Sőt megnézzük a dolgot egy kicsit államelméleti szempontból is, ami sokkal izgalmasabb, mint amilyennek elsőre tűnik.
Mindenek előtt nézzük meg az alábbi videót:
A bűvész a kislányát lazán kettévágja, ráadásul két mesekönyvvel, mi pedig csak nézünk ki a fejünkből bután és nem értjük, hogy hogyan. Az egyetlen, amiben biztosak vagyunk, hogy a bűvész olyan, elsajátítható tudás birtokában van, amivel csak nagyon kevesen rendelkeznek, ennek megfelelően a bűvészek munkáját egyfajta misztikus köd lengi körül, mióta egyáltalán létezik a hivatás. Már amennyire tudjuk, a bűvészkedés kultúrtörténetének egyik alappillére, hogy hallgatólagos, de nagyon szigorú szabályok szerint adhatja csak át a bűvész egy-egy trükk mesterfogásait a tanoncnak.
Igazából lehetne még sorolni azokat a hivatásokat, amikről a közvélekedés azt tartja, hogy a módszereik kívülállók számára megismerhetetlenek, misztikus köd borítja az egészet számos tévhit mellett, ugyanakkor a kívülállók érdeklődése kortól függetlenül töretlen, gondoljunk csak Agatha Christie regényeire, Arthur Conan Doyle által megteremtett Sherlock Holmesra vagy éppen az idióta és kevésbé idióta James Bond-, és Mission Impossible filmekre, a helyszínelős sorozatokról nem is beszélve.
Bűvészek, hírszerzők, bűnügyi helyszínelők – sokan mindről úgy gondolják, hogy elérhetetlen tudással rendelkeznek, holott erről szó sincs. A nyílt-forrású információszerzéssel mélyen foglalkozók akár néhány perc alatt megtalálják, hogy egy mobilszámnak ki az aktuális használója, anélkül, hogy bármilyen törvényt megsértenének vagy éppen felgöngyölítik, hogy egy álhír honnan indult ki, megjelenítik egy személy kapcsolati hálóját, akár súlyozva, mondjuk a Facebookon olyan esetben is, amikor a felhasználó kimondottan letiltotta az ismerősei megtekintését, holott egyikben sincs feketemágia, az OSINT néhány, számunkra is sokáig rejtélyes sajátosságával viszont érdemes megismerkedni, mielőtt valaki beleugrana.
Jelen cikk szerzője az OSINT definíciójával sosem törte magát, az OSINT olyan eszközök, technikák, módszerek és ezeket keretbe foglaló tudás összessége, amivel olyan nyíltan elérhető információkat érhetünk el, amik a laikus keresési módszerekkel láthatatlanok. Ahogy abba részletesebben belemegyünk, azért érdemes megismerkedni a kriminalisztikával – amit sokan kevernek a kriminológiával – mivel az OSINT legősibb alkalmazója, természetesen még abból a korból, amikor egyik tudományt sem hívták így, ugyanakkor kihívást jelent, hogy felhívjuk a figyelmet azokra az esetleges hibákra, amiket nem szabad elkövetni az OSINT-re támaszkodó kutatások során.
Mi különbözteti meg a tudományos igényességű OSINT-et a stalkolástól, ha az OSINT-tel elvben szinte mindent láthatóvá tehető, hogyhogy mégsem terjedtek el a módszerei, ha ennyire hatékonyak? Miért szerencsétlen, de elkerülhetetlen dolog összehasonlítani a hivatásos állományú nyomozók, magánnyomozók és tényfeltáró újságírók munkájával az OSINT-szakértőét valamint miért legalább olyan fontos része az OSINT-nek a kriminalisztika elméletinek tűnő részének ismerete, mint maguk a technikák?
Mi az OSINT és mi biztosan nem? Három, a kimondottan nyomozási folyamatoknál jól ismert feltételnek mindenképpen teljesülnie kell. A konkrét kutatás legyen (1) szükséges, (2) célhoz kötött és (3) arányos. Mogyoróhéjban ez annyit jelent, hogy döntünk róla, hogy az információra egyáltalán szükség van-e, ne fusson semmi vaktában, hanem csak a kutatás alanya, érintettje, amin-akin keresztül valamilyen részeredmény várható, ezen kívül ne lőjünk ágyúval verébre. Mindhárom feltétel imádott visszatérő téma a kontinentális és tengeren túli jogtudományban egyaránt, mivel a hírszerzésnek és a bűnüldözésnek is ezen hármas szerint kellene eljárnia.
Ha a fenti hármas szabályt kutatás közben betartjuk, mindegy, hogy szociológusként, nyelvészként, piackutatóként alkalmazva, hasonlóan ahogy egy hivatásos nyomozó jár el egy bűnügyben, némi rutinnal sokkal kevesebbet kell agyalni-dilemmázni azon, hogy amit csinálunk, mennyire etikus. Ez után nem is szorul magyarázatra, hogy az OSINT-et alkalmazó kutató tökéletes inverze a stalker, amelyik az exe, pasija, csaja, főnöke, után “kutatni” próbál.
A következő kérdéskör, hogy abban az esetben, ha az OSINT, haladó keresési technikák, becézzük, ahogy szeretnénk, már-már szinte mindenható, miért nem tanultak bele sokkal többen ráadásul éppen ebben a korban? Legvalószínűbb magyarázat ismét csak a misztikus köd: ha valakit esetleg még érdekel is, könnyen gondolhatja úgy, hogy sosem kerülhet elég tudás birtokába vagy nem férhet hozzá a megfelelő eszközökhöz, aztán bele sem kezd.
Milyen forrásokból érdemes tájékozódni mégis? Általános válasz természetesen nincs, ahogy kezdtük, éppen azon van a lényeg, hogy a módszerek kevéssé ismertek. Viszont a teljesen kezdők számára még a magyar nyelven rendelkezésre álló irodalom is kitűnő ugródeszka. Másrészt számtalan forrás elérhető közkönyvtárakon, szakkönyvtárakon, levéltárakon keresztül, ha offline segédletről van szó.
Ha valakinek van közelebbi-távolabbi ismerőse rendvédelmi szerveknél, katonai- vagy polgári nemzetbiztonságnál dolgozó szakértők vagy tisztek közt, akikkel rendszeresen összefuthat például szakkonferenciákon,   kábé mindenről lehet velük beszélni, csak a melójukról nem. Miért is?
Azzal kapcsolatban eléggé világos a helyzet, hogy folyamatban lévő ügyről nem mondhatnak semmit, mivel az minősített adat, ezzel kapcsolatban eléggé világosan fogalmaz a törvény. Még annak is érthető az oka, ha egy-egy nyomozó miért nem beszél úgymond kifelé olyan ügyről, amivel kapcsolatban már megtörtént egy különösen juicy büntetőper teljesen nyílt tárgyalása, jogerős ítélettel pedig az érintetteket lecsukták olyan ezer évre. Igaz, a bíróság előtt bemutatott bizonyítási eszközök nem pontosan egyeznek azzal, amiket a nyomozati szakaszban használtak, de elvben nem lenne akadálya egy-egy ilyen bizonyítás valamint az egész folyamat szinte teljes megismerésének. Az a kockázat rendszerint lóg a levegőben, hogy a civil például újságíróként megírja a sztorit, de már kicicomázva, ami nem vetne jó fényt a hatóságokra. Például beleírná, hogy a terhelttel kapcsolatban mennyi ideig végeztek titkos információgyűjtést vagy titkos adatszerzést, de nem írna ennek elengedhetetlen voltáról a konkrét ügyben.
Ahogy azzal sem sértené meg senki a törvényt, ha elmagyarázná másnak, hogy hogyan is történik például az ujjlenyomatok felvétele és kezelése vagy a biológiai anyagmaradványok kezelése. Nagyon naivan lehetne azt mondani, hogy ekkor az, aki tud róla vagy akinek elmondja, nehezebben lenne azonosítható, ha ilyen-olyan kriminalisztikai ismeretek birtokában követne el bűncselekményt, ügyelve rá, hogy milyen nyomokat ne hagyjon maga után. Ugyanis ekkor éppen a modus operandii buktatná le, azaz az alapján tudnák a nyomozók szűkíteni a kört, hogy kik lehetnek azok, akik különösen figyeltek arra, hogy bizonyos típusú nyomokat ne hagyjanak maguk után. A kriminalisztika, konkrétabban pedig nyomtan és krimináltaktika egyik sarokköve, hogy azért nincs tökéletes, megfejthetetlen bűntett, mert annyi eszköz áll rendelkezésre, hogy még a legfelkészültebb elkövetőnek is képtelenség mindenre figyelnie. Többen olvashattak már olyan városi legendába illő sztorikat, hogy egy rutinos igazságügyi orvos eltette az asszonyt láb alól, majd próbált minden nyomot eltüntetni vagy éppenséggel egy nyomozó olyan ügyben nyomozott, ahol ő volt az elkövető. Mindegy is, hogy ezek városi legendák vagy tényleg történt ilyen, éppen azért buktak el, mert az elkövetés módja annyira eltért a tipikustól.
Amire sokáig nem találtunk normális magyarázatot, hogy általánosságban miért nem mond szinte semmit a hírszerző, hírszerzésnél dolgozó szakértő, rendőr vagy katona ismerős, hiszen egyrészt általában nincs ezzel kapcsolatban nincs törvényi korlátozás, a kriminalisztikai módszerek mellett a büntetőeljárás joganyagai, az Rtv, a titkosszolgálatok működéséről rendelkező törvények is nyíltan elérhetőek. Azaz ha valakit érdekel, úgyis megtalálja irodalmazás során a megfelelő helyen akár egy-egy konkrét módszer mikéntjét, csak éppen sokkal több időt vesz igénybe. Aztán sok-sok év után megkaptuk a választ, a magyarázat ugyan nem lesz rövid.
Már az ókorban megtörtént a hatalmi ágak elválasztása. Érdekesség, hogy a mai napig olyan államokban, ahol deklaráltan nincsenek elválasztva a hatalmi ágak, például Szaud-Arábiában olyannyira nem, hogy a Korán jelenti a de facto alkotmányt, be vannak építve olyan kontrollok, garanciák, amik miatt a király sem tehet meg bármit.
Gyakran nem gondolunk rá, hogy Európában nem is olyan nagyon régen alakult ki, hogy bizonyos feladatkörök, tevékenységek, mint például a pénzkiadás vagy éppen az igazságszolgáltatás, az állam monopóliuma. Eléggé világos, hogy miért nem nyomtathat senki pénzt a sufniban, az már kevésbé világos, hogy  miért létezik az a hallgatólagos álláspont, hogy a civil ne nyomozgasson, még akkor sem, kutatásnak nevezi, mégpedig azért, mert könnyen előfordulhat, hogy olyan eszközt használ információszerzéshez – hangsúlyozzuk, legálisan! – amit olyan területen szoktak alkalmazni, ami állami monopólium, azaz az igazságszolgáltatás területe.
Világos, hogy bizonyos esetekben még meg is lenne a célhoz kötöttség, arányosság és szükségesség, nem alkalmazhatsz egy eszközt egész egyszerűen azért, mert a törvény tiltja. Azaz nem kötelezheted a szomszéd nyugdíjast, hogy minden kérdésre maradéktalanul válaszoljon őszintén tanú szerepben, ez az egyszerűbb eset.
Azaz az állam, egyébként nagyon helyesen, nem is akarja kiengedni a kezéből az igazságszolgáltatás  monopóliumát, ugyanis abból komoly kavar lehet. Ha például kitenné a kirakatba a nemzetbiztonsági szervek egyike, hogy milyen módszereket alkalmaznak, amik még az OSINT körébe tartoznak, azaz passive reconnaissance eszközök, nos, azt a módszert olyan is elkezdené használni, aki erre nincs képesítve és szakszerűtlen irányba menne el egy civil magánakciója, másrészt rá, mint civilre, nem is vonatkoznak azok a szabályok, amik a nyomozókra igen.
Egyrészt előfordulhatna, hogy legálisan, mondjuk puhatolással jutna valaki olyan információhoz, amivel törvényt ugyan nem sértene, mégis komoly érdeksérelmet okozhatna ezzel másnak, főleg, ha közzéteszi.
Másrészt előfordulhat, hogy valaki civilként nincs tisztában azokkal az etikai és jogi ismeretekkel, amik szükségesen annak eldöntéséhez, hogy valamit meg szabad-e tenni vagy sem. Példaként tekintsük a következő, szakállas Google dorkot. Vajon szabad rákeresni arra, hogy

intitle:index of /maildir/new
A válasz, hogy igen. Egy rakás levelezőrendszert látunk, amit elszúrt beállítás miatt indexelt a keresőmotor. Ez eddig nem sért törvényt. Viszont aki ilyenre rákeres, annak tisztában kell vele lennie, hogy ami megjelenik előtte találatként, valakiknek a levelezése, amihez semmi köze nincs. Azaz ha egyetlen ilyenbe is belekattint valaki, sanszos, hogy már meg is sértette a törvényt.
Harmadrészt nem zárható ki olyan eset sem, amikor valaki még tisztában is van azzal, hogy egy bizonyos pont után már törvényt sért, de mégis megteszi. Azaz ha valaki egy paste-siteon talál egy rakás, felhasználói név-jelszó párost, majd nem is gondolkozik rajta különösebben sokat, máris megkeresi az ex-barátnőjének belépési adatait és lép is be vele valamilyen szolgáltatásba stalkolni, néhány perccel később pedig már könyékig vájna olyan érzékeny információkban, amihez semmi köze nincs.
Ezzel kapcsolatban a legelképesztőbb példa, amit nemrég lehetett olvasni, hogy egy nagyobb adatszivárgást követően az egyik legnagyobb hírportál hülye újságírója úgy validálta az adatok helyességét, hogy fogta az egyik felhasználói név-jelszó páros, belépett vele, mindezt pedig még meg is írta…
Azaz! Számos olyan módszer létezik, ami önmagában nem sért törvényt, viszont erősen prediszponálja, hogy valaki törvénysértést kövessen el vele akár szándékosan, akár a tudatlansága okán. Na ezért nem fog egy civilt  kiokosítani például egy NBSZ-es ismerős az alkalmazott módszereikkel kapcsolatban. Ami másik oldalról számomunkra megmosolyogtató, mert a módszerek szinte mindegyike elérhető több vagy kevesebb irodalmazással, kereséssel.
Ugyanakkor a kriminalisztika nem csak, hogy fontos, sokszor konkrétan kihagyhatatlan. Tételezzük fel, hogy valaki az IT területén betörési minták kutatásához honeypotokat állít be, akár egy teljes szenzorhálózattá kialakítva azt, nem kell újra feltalálnia a kereket, ha tisztában van vele, hogy milyen az ideális kriminalisztikai csapda.
Amit még nagyon fontos tisztázni, egy szerencsétlen nyelvi jelenségből ered. Ki a kém, hírszerző, fegyveres rendvédelmi szerv tagja, terrorelhárító, tiszt, magánnyomozó? Ugyanis ezeket a közbeszéd egy lapon tartja számon, de most nem azzal foglalkozunk, hogy egy konyhanyelvi megnevezés melyiknek felel meg ténylegesen, csak egyet emelünk ki, amit a legtöbben rosszul tudnak.
A magánnyomozó nem nyomozó, attól, mert komolyan hangzik. Magyarországon a magánnyomozó ugyanolyan civil, mint bárki más, bármiféle hatósági jogkör nélkül. Igaz, hogy a magánnyomozó nagyon sok esetben korábbi tapasztalt rendőr, abban a pillanatban, amikor esetlegesen egy volt kollégáján keresztül ér el olyan információt, ami hatósági engedélyhez kötött, például a Magyarországon alkalmazott Robotzsaru Neo rendszerén keresztül ér el adatokat, mindkét fél vastagon törvényt sért. Sőt, ennél sokkal kevesebb is elég hozzá, például ha egy magánnyomozó hivatalos személynek adja ki magát és annak megfelelően tesz valamit, ha feljelentik, magyarázkodhat bőven.
Természetesen, ha valaki beszélgetés közben olyan kommunikációs műfogást alkalmaz, amit a fedett nyomozók szoktak és sikerrel is jár, azaz a másik elmond olyat, amit egyébként nem mondana el, ha konkrétan belekérdezne valaki, önmagában ez nem ütközik semmilyen törvénybe. De ez már HUMINT.
Gyakori, hogy egy kívülálló nem tudja hova tenni azt, aki a munkája során OSINT-eszközöket alkalmaz, aki tervezi, számíthat rá, hogy a következőkkel fogják összemosni:
– nettó stalkerek
– magánnyomozók – ők erőből mennek, pofátlanul drágán, de legalább ezer éves módszerekkel
– tényfeltáró újságírók – ők szöszmötöléssel dolgoznak és az a becsípődésük, hogy a kapcsolati tőkével minden információ elérhető
– hivatásos, nyomozati jogkörrel rendelkezők – a törvény erejével, felhatalmazásával valamint az eszükkel dolgoznak
Egy összefoglaló jellegű mű mélyebb betekintést enged a témába, a Bócz Endre szerkesztésével megjelent Kriminalisztika I-II, amiről épp egy korábbi posztban már írtunk is. Fontos, hogy a könyv sosem jelent meg könyvkereskedelmi forgalomban, viszont egyrészt minden nagyobb könyvtárban van helyben használható példánya, másrészt alighanem ugyanúgy megvásárolható, személyesen a Belügyminisztériumtól, mint korábban. Mivel kézikönyvről van szó, nem végigolvasásra szánták, eléggé világos, hogy a lőfegyverek okozta elváltozásokat és hasonlókat tárgyaló részre nincs szükség, viszont a nyomtani, bizonyítástani részekre már igen. Ezen kívül a kapcsolódó részek átolvasása után az ember nem néz hülyén, ha eseti szakértőnek kérik fel vagy meg kellene találni a közös hangot olyannal, akinek a munkájához tarozik.

Michael Bazzell – Open-Source Intelligence Techniques
– az OSINT alapműve, aminek a legújabb kiadása pár hónapja jelent meg. Közvetlenül alkalmazható technikákat mutat be és magyaráz el annyira jól, hogy nem túlzás azt állítani, hogy sok-sok hasonló című könyv ebből lett összelopkodva. A valóban hatékony tanulás közben persze nem csak a konzerv megoldások lesznek az olvasó kisujjába, hanem elsajátítja azt a készséget, hogy ő maga találjon újabb és újabb technikákat.
Matthew Russel Mining the Social Web könyve az egyik legparáztatóbb könyv, amivel életünkban találkozhatunk. Ugyan ez már bizonyos szintű programozási tudást feltételez, egészen elképesztő dolgokat lehet a benne leírtakat követve varázsolni, olyan rejtett összefüggéseket előásni, amikre egyébként esélytelen más úton rájönni. Azért fontos, hogy a második vagy újabb kiadást szerezzük be, mert a hibajavítások és bővítések mellett az első kiadásban még egyáltalán nem vagy csak érintőlegesen tárgyalt témákat hoz be, mint amilyen a LinkedIn, Google+ vagy a GitHub bányászata. Fontos, hogy ez nem jobb vagy rosszabb, mint az előző, hanem teljesen más!
Több ajánlott irodalmat csak azért sem írunk, érdemes erre a háromra összpontosítani. Ha valakinek nincs rutinja a Python-programozásban, egy okkal több, hogy megtanuljon, emellett világossá válik az az általában érthetetlennek tűnő, közbevetés, hogy a téma elválaszthatatlan a nyelvtudománytól és a matematikától, de egyik sem harap.
Korábban peddzegettük, hogy az OSINT-et egy bizonyos szint fölött csak ágazatspecifikus módon lehet művelni, ahogy a tudomány fejlődésével más területeken is jellemző a tagolódás. Az elején még nem kell vele foglalkozni, viszont később világos lesz, hogy aki etikus hekkerként céges hálózatokról gyűjtene információt, annak megfelelően kell a korábban szerzett szaktudását ebben a keretbe beágyaznia. Míg ha valakit az érdekel, hogy bizonyos rétegek nyelvezetére jellemző kifejezések, nyelvi jelenségek, az ország mely részein dominálnak, fordulnak elő együttesen, a nyelvtechnológiához és szociolingvisztikához kell értenie. Ha valaki megpróbál kábszihálózatokat felgöngyölíteni vagy éppenséggel egy-egy, polgárháború sújtotta országban a további zavargásokat elemezni és előrejelezni, célzottan annak megfelelő tudásra lesz szüksége. Szerintem ezzel sikerült szemléltetni, hogy az OSINT általános célú, líraian úgy is fogalmazhatnék, az információszerzés lingua franca-ja, amiben ugyanúgy kérdéseket fogalmazunk meg, csak éppenséggel teljesen más módon. Mindezt a közösségi média korában.
képek: Amazon, Computerweekly, Expertsystem, International Institute for Counter-Terrorism

“Nyílt-forrású információszerzés – kémek, kurvák, gengszterek, OSINT” bővebben