A DMARC, mint a hamisított levelek mérésének lehetséges eszköze

levelszemetMióta email létezik, létezik levélszemét is, a spam pedig nem meglepő módon egyidős a spamek ellen vívott küzdelemmel.

Már filozófiájukban rendkívül eltérőek a különböző levelezőrendszerek azzal kapcsolatban, hogy a spameket hogyan kezeljék, a paletta pedig egészen elképesztően széles. Van olyan levelezőrendszer, ami aztán tényleg mindent beenged, hacsak nem open relay-en keresztül érkezik, van, amelyik végigvizsgál több, hatalmas méretű rDNSBL  alapú adatbázist, mint amilyen a http://multirbl.valli.org/ többek közt az után kutatva, hogy a fejlécben szereplő hosztnevek és címek valamelyike összefüggésbe hozható-e esetleg valamilyen spamkampánnyal vagy botnethálózattal. A megoldás máig a Spamassassin egyik legfontosabb eleme.

Persze a jó spamfilter a levél tartalmát és fejlécét együttesen elemzi annak eldöntésére, hogy egy levél milyen valószínűséggel spam, gyakorlatilag minden rendszer lehetőséget ad a rendszer tanítására, azaz, hogy a felhasználó kézileg jelölhessen meg leveleket spamként vagy spambe került legitim leveleket legitim levélként. Az ilyen tanulórendszerek egyik legegyszerűbben megérthető típusa a Bayes-valószínűségen illetve a Bayes-féle valószínűségi hálókon alapul.

Az előbbi lényegét a következőképp lehetne szemléltetni nagyon egyszerűsítve: ha egy levelezőrendszerre érkezik 1000 olyan legitim levél, amiben nem szerepel a Viagra kifejezés, emellett másik 1000 levél, amikben szerepel a Viagra kifejezés, de ezek közül 950 spamként lett a felhasználók által megjelölve, a háló úgymond megtanulja ezt, így a későbbiekben érkező levelekben ha szerepel a Viagra kifejezés, az már eleve a spambe fog érkezni, mivel a spamszűrő annyira nagy valószínűséggel találja spamnek (spam score).

Vannak levelezőrendszerek, így a Google levelezőszolgáltatása és annak vállalati verziója, ami szinte teljes titokba tartja, hogy milyen logikák alapján szűrik a spamet. A transzparencia hiánya elsőre nem tűnik túl kedvesnek, de éppen emiatt a spammerek kevésbé tudják kijátszani a rendszert. Kevéssé ismert, de a Gmail nem a Google fejlesztése, eredetileg a Postini felvásárlásával került a Google-höz és lett Gmail, arra pedig mindenki emlékszik, hogy milyen hangzatos kritikákat kapott a Google amiatt, hogy az összes levél tartalmát „olvassa”. Szigorúan idézőjelbe olvassa. Mert annak kevésbé lett volna hírértéke a sajtóban, hogy a levelek tartalmi elemzése gépi úton történik, statisztikai célok érdekében. Többek közt ennek köszönhető, hogy a Gmail spamszűrője relatív ritkán téved. Olyannyira, hogy a SpamAssassin alighanem nem kegyelmezne egy olyan levélnek, aminek a törzsében többször is szerepel a Viagra kifejezés, míg a Gmail-nél vagy G Suite-nál alighanem nem akadna el olyan esetben, amikor a címzett vagy a feladó történetesen gyógyszerész vagy rendszeresen leveleznek olyan témában, ami alapján valószínűsíthető, hogy a levél nem spam.
Ami még izgalmasabb kérdés, hogy mennyien, kik, honnan küldenek spamet a mi nevünkben, a mi email címünkkel vagy csak a mi domainünkről? Ez a spamvédelem kevésbé ismert oldala. Egy egyszerű beállítással megoldható, ám a mai napig nem terjedt el kellően.

Jól ismert, hogy az email szabványai nem írják elő, hogy annak, ami megjelenik a címzett mezőben, egyeznie kell például a levelezőrendszer által azonosított felhasználó email-címével, de éppenséggel lehet üres is. Röviden: az email önmagában gyakorlatilag tetszőlegesen hamisítható, más kérdés, hogy a hosszú fejléc alapján ez tipikusan azonnal kiderül.

Ismerős lehet a levelezőrendszerek azon lehetősége, hogy másik címmel, normális esetben a sajátunkkal küldhetünk emailt anélkül, hogy az éppen használt levelezőrendszerből ki kellene lépni, sőt, ettől az email még mindig szabályos és bizonyíthatóan legitim marad normális beállítás esetén. Gondoljunk csak a Gmail, Outlook, Yahoo behalf of lehetőségére. A címzett oldalán vagy jelzi vagy sem, hogy a feladó kényelemből esetleg a céges postafiókból küldött levelet, de a privát címével, esetleg fordítva. Az ilyen leveleket tehát nem fogja meg a spamfilter.

Ugyanakkor előfordulhat, hogy a küldő rendszer, ami behalf of módon küldene emailt, egyszerűen nincs erre normálisan felkészítve, a fogadó rendszer nincs illedelmesen konfigurálva, aminek eredményeként a levél a levélszemétbe került. Ahogyan az sem zárható ki, hogy valaki ténylegesen létező email címet hamisít spamek küldéséhez, ekkor a spamfilter jó esetben észlel. Mégis, kik a küldők, honnan küldhetik a leveleket, esetleg mennyi olyan levelet küldtünk, amit tévesen azonosított spamként a címzett rendszere? Erre kínál megoldást a DMARC.

A technológia lényege, hogy a levelezőrendszer, tipikusan egy napos időközönként szolgáltat információt arról XML-ben egy külső szolgáltatónak, hogy a beérkező levelek közül mennyi volt hamisított levél az SPF-szabály vagy a DKIM-szignatúra alapján. Valamint az adott levelezőrendszerekről más levelezőrendszerek küldenek hasonló jelentést.

Nagyon fontos megjegyezni, hogy a DMARC reportot értelmezni kell, miután alaposan megértettük a működését. Azaz például hiába látszik a reportban, hogy a levél az SPF vagy a DKIM ellenőrzésen, esetleg mindkettőn elbukott, a címzett nem biztos, hogy ettől spambe tette, ugyan nagy a valószínűsége, hogy igen. Másrészt a többihez hasonlóan itt is egy (E)DNS alapú ellenőrzésről van szó, annak minden hátrányával együtt. Azaz például ha a címzett az SPF-et és a DKIM-et nem tudja eléggé gyorsan kiértékelni a DNS lassúsága miatt, tipikusan akkor, ha ha az SPF kiértékelése túl sok túl sok névfeloldást igényelne, akkor a címzett úgy tekinti, hogy az email nem valid, aztán vagy spambe teszi vagy sem.

dmarc-rekord-email-hitelesites.png

Mi kell mindehhez? A netacademia.net domain példáján keresztül érthetőbb lesz:

A _dmarc.netacademia.net ben rögzített érték a következő:

v=DMARC1; p=none; rua=mailto:ad6221eb84ab177@rep.dmarcanalyzer.com; ruf=mailto:ad6221eb84ab177@for.dmarcanalyzer.com; sp=none; fo=1;”

a v utáni érték jelzi, hogy a DMARC hanyas verziójáról van szó, a p, mint policy azt közli a címzettel, hogy ha a levelet nem találja legitimnek, jegyezze fel (none), de ne tegyen vele mást, esetleg tegye karanténba (quarantaine) vagy dobja el (reject), a rua utáni érték azt az email címet tartalmazza, amire XML formátumban továbbítódnak a címzettek visszajelzései összegezve, az sp azt, hogy a domain alá tartozó domainekre is ez a szabály vonatkozzon-e, a fo-nál pedig jelölhetjük, hogy csak az SPF-problémát, csak a DKIM-problémát vagy mindkettőt tegye a reportba, mint fals levél. Ezen kívül beállíthatók további paraméterek, amik hiányában a hozzájuk tartozó alapértelmezett érték adott. Ilyen például a ri, azaz reporting interval, ami alapértelmezés szerint egy nap.

dmarc-beallitas-1

dmarc-beallitas-2

Nem mélyedünk el a DMARC beállításával kapcsolatos best practice-be, például abba, hogy hiába tűnik jó ötletnek policyként a none helyett szigorúbbat megadni, ha valahol hiba csúszik az email authentikációba, falspozitívként nyelődhet el egy egyébként teljesen legitim levél, viszont a none is igen erős jelzés a spamszűrők felé.

Ezen kívül megtekinthetjük, hogy más levelezőrendszerek mennyi spamet jelentettek valamint a mi nevükben mennyi hamisított levelet próbáltak küldeni.

A mailhosting fortélyairól, az EDNS működéséről hamarosan közérthető, mégis szakszerű sorozatokat találhattok a Netacademia Tudástárban a slusszkulcs meghívókód megadása után.

Kép: Securelist, Moonmail

AI: rosszul elsülő tudománykommunikáció, mint lehetséges globális fenyegetés

moralis-dontesekKorábban mér érintettük a témát, amit nevezhetnénk akár az év slágerének is az AI-kutatás területén, nevezetesen, hogy hogyan hogyan kellene etikusan viselkedniük a gépeknek kritikus helyzetekben, amiről mindenkinek az olyan esemény jut eszébe, mint amikor az önvezető autónak egy elkerülhetetlen ütközéskor két tragikus kimenetelű alternatíva közt kell választania.

Javasoltuk is, hogy érdemes játszani az MIT Moral Machine-nel ami, mondjuk úgy, kellemetlenebbnél kellemetlenebb dilemmákat dob a felhasználó elé. Mit tenne ha… sok-sok scenarioval. Nem lehet azt mondani, hogy például egy játékelméleti megközelítésű döntés vagy éppen egy társadalmi konszenzust tükröző döntés jobb olyan esetben, amikor dönteni kell arról, hogy az önvezető jármű helyében a járdán lévő gyalogost csapnánk el megmentve az utast vagy éppen inkább mentsük meg az utast, amibe aztán egy frontális ütközésnél a vele szembe jövő kocsi utasa is belehal például. Az abszolút klasszikus pedig, hogy melyiket kevésbé elhibázott döntés elcsapni? A nagyit vagy a kisgyereket?

A cikk nem ma jelent meg ugyan, de hosszú időn keresztül ott volt a headline-ban a MIT Tech Review oldalán, ízekre szedve azt az igen komoly Nature-cikket, amiben kellően nagy mintán a kutatók alaposan kielemezték, hogy különböző döntési szituációkban általában hogyan döntenének az emberek a legkülönbözőbb szempontok szerint, mint amilyen az életkor, a kulturális hovatartozás, az iskolázottság és még sok-sok információ, amiről manapság nem píszí írni, viszont szerencsére ez a hatás a tudomány legmagasabb szintű fórumait még nem érte el.
Szinte mindenben találtak összefüggést, például az hogy az individualista és kollektivista kultúrákból érkező válaszadók máshogy fognak dönteni, előre is sejthető volt, a cikkből kiderült, hogy bizony több előítéletünk sok esetben alkalmazható annak becslésére, hogy egy-egy kritikus helyzetben milyen döntést hozna nagyobb valószínűséggel egy amerikai és egy japán.
Ha valakinek van Nature-előfizetése vagy néhány dollárja a cikk eredetijét innen töltheti le, alternatívaként ezen a linken, a tudomány torrentjének is nevezett Sci-Hubon keresztül.

Persze még egy Nature-cikket is lehet kritizálni, nem feladatunk állást foglalni például azzal kapcsolatban, hogy bizonyos következtetéseket mennyire befolyásoltak a kutatók előzetes feltételezései, kulturális háttere és így tovább, van itt valami, ami még inkább elgondolkoztató.

Elfogadhatjuk alaptézisként, hogy szinte mindig jobb, ha van információ, ebből formálható, kutatást előlendítő tudás, mint ha nincs. Azaz a tudomány nem lehet válogatós – pontosabban nem szabadna annak lennie – olyan szempontból, hogy valamivel kapcsolatban végez kutatást, amit majd közöl, megint mással kapcsolatban pedig polkorrektség okán nem. Mellékszálként itt megjegyezzük, a társadalomtudományok terén a legmagasabb szinteken sem ritkák a határt alig ismerő szakmai viták, nemrég például amerikai filozófusok borítékolt kulát küldtek egymásnak postán.

Ami felmerülhet a MIT Moral Machine-nel kapcsolatos információk nyilvánosságra kerülésével kapcsolatban amellett, hogy nyilván lesz még hasonló témájú cikk bőven, hogy a tudományos publikációk, ahogyan az lenni szokott szépen lecsorognak a magyarázó szakmai oldalakon át a mainstreamen át a news outletekig, majd a bulvárig, ilyen módon természetesen áttételes hatást fejtenek ki a emberek tömegeinek gondolkodására.

Ezen sorok írója konkrétan megkapta már párszor a kérdést, hogy akkor most ténylegesen melyik a legelborultabb kísérlet a magatartástudományokban és rokon területein, amit valaha elvégeztek. Nos, komolyan nem tudjuk, amik nyilvánosságra kerültek, azok közül is vannak eléggé erősek, a legelborultabbak pedig nyilván nem akadémiai kutatások voltak, aztán a benne részt vevő katonák vagy túlélték vagy sem.

Abból az alaptézisből indultunk ki, hogy ritka kivétellel mindig jobb, ha információnk van valamiről, mint ha nincs, a mesterséges intelligencia és annak morális- valamint egyéb társadalmi vonatkozásaival kapcsolatban is így van, ilyen irányú kutatásokra szükség van. Viszont még a fenti kutatás eredményei is olyanok, hogy ha azok eljutnak a nagyközönséghez, természetesen lebutított formában, a tartalomfogyasztók ugyancsak kultúrától, iskolázottságtól, helyi normáktól függően teljesen máshogy értelmezhetik azt. Képzeljünk el egy olyan, adott kultúrában átlagosként tipizálható, átlagos műveltséggel és kritikai gondolkodással rendelkező tartalomfogyasztót, aki rendszeresen találkozik a legkülönbözőbb hírekkel. Ha egy ilyen kutatás kivonatában azt olvassa, hogy abba a kultúrába tartozók, aminek ő is része, teljesen máshogy döntene, mint mondjuk a pirézek, azt megjegyzi és úgy-amennyire tényszerű információként, ami tehát nagyon fontos, hogy nem kapcsol hozzá semmilyen értékítéletet! Abban az esetben viszont, ha például a pirézek olvassák a cikk kivonatát vagy úgy egyáltalán bárki, akinek az olvasási kultúrája, kritikai gondolkodással kapcsolatos mindsetje jelentősen eltérő, amit olvasnak, ahhoz szükségszerűen valamilyen értékítéletet fognak kapcsolni. Egyszerűbben fogalmazva a tudománykommunikáció bármennyire is elővigyázatos, ismét megtörténhet, ami megtörtént már a legtöbbet kritizált szociálpszichológiai kísérletek fénykorában bő fél évszázaddal ezelőtt, a nyilvánosságra került kutatások minden bizonnyal befolyásolták az emberek egymásról alkotott képét. Megjegyzendő, a kutatásetikailag minimum megkérdőjelezhető kísérletek közt is kiúgró az elborult magatartástudományi kísérletek aránya, ami attól, hogy etikailag támadható, összességében nagyon sokat adott a világnak, erről egy parádés lista itt található.

Amennyiben különböző kultúrák tagjai rendszeresen találkoznak olyan információkkal az AI-etika kísérleteknek köszönhetően, amit nem a helyén kezelnek, ráadásul ezzel párhuzamosan jönnek az önvezető kocsik, önvezető tömegközelekedési eszközök és úgy egyáltalán az AI egyre több kritikus területen, ahol nyilván előfordulnak majd balesetek, akkor nem zárható ki, hogy sosem látott szakadás, ellentét alakul ki közösség és közösség szerte a világon, ami olyan mértékig eszkalálódhat, amilyenre még sosem volt példa, ennek megfelelően nincs is rá krízisforgatókönyv. Ne feltétlenül olyan ellentétre gondoljunk, mint amikor a Ku-Klux-Klán tagjai és a feketék ölték egymást, a csendben kialakuló, majd fennmaradó ellentétek is lehetnek hasonló pusztítóak vagy durvábbak. Jól jegyezzük meg: a civilizáció történetében megjelent egy rakás ideológia és annak ellen-ideológiája, ami viszonylag könnyen vizsgálható volt a kutatás számára, ennek megfelelően mindenféle izmusok’ ellen valamilyen eszközzel fel lehetett lépni civil és politikai téren egyaránt, aztán megfékezni azokat. Csakhogy az információáramlásnak nem csak a sebessége, a jellege is olyan módon változott meg, hogy a veszélyes szerveződések időben történő azonosítása és a megfelelő ellenlépések megtétele is merőben eltérő módszereket és koncepciókat igényel a kutatók, a döntéshozók és minden érintett részéről. Abban pedig csak reménykedni lehet, hogy a kutatók és azok, akiknek legalább nagyjából szakmai alapokon kellene szakpolitikai döntéseket hozniuk, eléggé felkészültek lesznek. Ebben viszont ne legyünk olyan biztosak, egy olyan világban, ahol a bolygó túloldaláról képesek befolyásolni egy másik állam népszavazásának kimenetelét, lényegében a közösségi weben alkalmazott pszichológiai hadviselés módszereivel.

kulturalis-kulonbsegek

Blogunkon már nem először jósoltunk armageddont, ahol rendszerint a legrosszabb forgatókönyvekkel játszottunk el, ami a technikai vívmányok civilizációra gyakorolt hatását vizsgálja. Vegyük észre, hogy nem csak az egyénnek kell megbarátkoznia a gondolattal, hogy teljesen más módon kell majd élnie az életét egy olyan korban, amikor a magánszféra, mint social norm, teljesen átértelmeződik, hanem közösségbe tartozó ember tagjaként is. Még a legelővigyázatosabb tudománykommunikáció is áttételesen, előítéletek alakításán keresztül eredményezhet olyan labilitást globális szinten, ami a terrorizmusnak, bizonyos autokratikusan működő államoknak kedvez, amik aztán ezt ki is használják, míg a legegyszerűbb eset, hogy kultúrák közti az egyetértés hiánya és a fokozódó értékrendbeli eltérés konfliktusok előszobája lesz.

Az AI-ról, komolyan II: a lexikális tudás felértékelődése a jövő döntéseiben

microsoft_power_biParadoxonnak tűnik? Nem az. Magyarázzuk. Alighanem már azzal kapcsolatban is csak nagyon óvatos becslést lehetne adni, hogy mennyi olyan, komplett, gyakorlatilag minden üzleti igény kielégítésére fejlesztett, tág értelembe vett ERP megoldás van, ami fut a felhőben, a legszárazabb adatsorokból is képes színes-szagos vizualizált chartokat készíteni, épphogy kávét nem főz, olyan mértékben segíti a döntéselőkészítést és döntéshozást, hogy azoknak akik a döntéseket meghozzák, csak azzal kell foglalkozniuk, hogy biztosan a legmegfelelőbb információkkal tömték-e meg a szolgáltatást, megfelelő módon.

Ezek közül nem emelnénk ki sokat, a Microsoft és az Atlassian azért vált piacvezetővé komplett megoldásoknak a piacán, mert a legjobban sikerült eltalálniuk, hogy a különálló szolgáltatásaik hogyan drótozhatók össze a legjobban. Megoldást kínálnak az ilyen szoftverrendszerek használatában jártas és kevésbé jártas felhasználóknak egyaránt, néha tényleg a bőség zavara lehet a benyomásunk. Példaként egy feladat megoldásának bonyolultságától, jellegétől függően szükség lehet a MS Projects bevetésére, de nagyon könnyen előfordulhat, hogy a feladat valójában a sokkal egyszerűbb – na meg kevésbé ijesztő – Microsoft Plannerrel is megoldható.

Azt is mondhatnánk, hogy szomorú, de annyira igaz, miszerint az adat gyakorlatilag onnantól ér valamit, hogy vizualizálva van vagy legalábbis minél gyorsabb megérteni. Nincs ebben semmi meglepő, az ember agya ugyan magas szintű absztrakciókra képes, mégis sokkal könnyebb, ha valamilyen eszközzel megjelenítetük a láthatatlant, az adat vizualizálva nyer értelmet ténylegesen sokak számára.

Nem tudni, hogy mennyire lehet komolyan venni azt a kutatást, amiben igazolták, hogy nagyon hasonló tudománymetriai jellemzőkkel rendelkező cikkeket annál kevésbé hivatkoznak más kutatók cikkei, minél több matematika összefüggést, konkrétabban pedig képletet tartalmaznak, holott a kutatók körében ezek készségszintű értelmezése mindennapos gyakorlat. Szubjektív, de ez még bocsánatosabb lehet az olyan tudományterületen, ahol köztudottan szeretik a minél pontosabb ábrázolást, a számokat pedig annál kevésbé, sokszor pedig ezek azok az olvasók-kutatók azok, akiknél néhány tizedmilliméteren és a másodperc töredékén múlik, hogy meg tudják-e menteni a beteg életét: a sebészek, akik nyilván sebészeti szaklapokat olvasnak. Gaál Csaba Szakírás című zseniális könyvében részletekbe menően tárgyalja a témát.

Arra viszont már ember nem gondolna, hogy azokat a matematikai cikkeket más matematikusok (!!) kevésbé hivatkozzák, amikben több a képlet, ennek megfelelően kisebb arányt foglalnak el a teljes cikkben a magyarázó szövegek és ábrák. A matematikusok! Szinte hihetetlen, de tényleg így van, profán módon megjegyezhetnénk, hogy legalább ebből tudható, hogy ők is emberek.

Ha külcsínyről van szó, a Microsoft több, nagyon hasonló szolgáltatása közül a Power BI-t nem véletlenül övezi siker: gyakorlatilag bármilyen ma használatos adatforrásból importálhatunk bele adatokat, majd azt a legkülönbözőbb nézetek szerint jeleníthetjük meg, végezhetünk vele műveleteket, generálhatunk reportokat. Vegyük észre, hogy az egyszerű Excel okosodása sem új jelenség: a meghívókódokkal elérhető Tudástárban több videót bemutattunk, amiben az alkalmazás gyakorlatilag kitalálja a felhasználó szándékát: a FlashFill nem csak logikusan, értelmesen tölti ki egy oszlop sorait, megint másik funkció ötletet ad azzal kapcsolatban, hogy a nem megfelelő formában lévő adatokat hogyan bonthassuk pontos rendbe, külön-külön oszlopokba, nyilván anélkül, hogy mindnél ugyanazt az esetleg lélekölő többlépéses műveletet kellene elvégezni.

A Power BI is bevezette a Natural Language Query-t, ami több, mint fícsör: gyakorlatilag a felhasználó megfogalmazza, hogy milyen megjelenítést szeretne vagy milyen műveletet végezne el, a Power BI pedig prediktálja a lehetőségeket, majd egy kattintás és máris pontosan az látható és úgy, ahogyan szeretnénk, aminek a jelentősége felmérhetetlen, ha például egy executive reportba kerül majd az anyag.

Nem vinnénk el nyelvészkedős irányba a posztot – már megint 🙂 – de figyeljük meg, hogy emögött mennyire komoly nyelvtechnológiát kellett bevetni valamint azt, hogy adódott egy üzleti-informatikai kihívás, amire lényegében a nyelvtudomány adta a megoldás alapját, holott évekkel-évtizedekkel ezelőtt, amikor még senki sem hitte volna, hogy ennyire okosak lesznek a gépek, nem még azt, hogy ilyenre szükség lesz. Érdekes történeti kitekintés, hogy az Oracle is onnan kapta a nevét, hogy egyfajt orákulumként bármilyen kérdésre meg tudja adni a választ, ha az megfelelően formalizált. Az NLQ esetén viszont még formalizáltnak sem kell lennie.

Ahogy a 20. század elején úgy gondolták, hogy hamarosan elég lesz napi 4 óra munka is, aztán az új technológiák újabb kihívások elé állították az embert, egy hasonló jelenséget figyelhetünk meg, viszont bizonyos szempontból, egy parafrázissal élve éppen “kifordítva”. A bankba érkező ügyfeleknek sorszámot pecsételő néni elvesztette az állását azzal, hogy a sorszámokat már automata köpködi ki, viszont annak az automatának az ellátási láncot biztosítani kell, néha javítani, fejleszteni. Maradva a pénzintézeteknél, amikor a számlák adatait papírról vagy más hordozóról átköltöztették gépekre, majd mai értelembe vett adatbázisszerverekre, nyilván okafogyottá vált azoknak a munkája, akik addig papíron rögzítették a pénzügyi műveleteket, abban az időben úgy gondolhatták sokan, hogy az adatbázisszerverek tömegesen váltották fel az emberek munkáját, úgy gondolva minderre, mintha ezzel a feladattal nem kellene foglalkozni a továbbiakban, ami nyilván megmosolyogtató, hiszen továbbra is kell hozzá az ember, csak más mindsettel. Kellenek helyettük emberi erőforrásként az egymással versengő adatbázismotorok fejlesztői, adatbázis adminisztrátorok és így tovább.

E sorok írója nem vallotta soha, amit sokan dogmaként fogadnak el, miszerint a gépek a feje tetejére állították és állítják világot az ipari forradalomtól kezdve rendszeresen – pontosabban abban egyetértünk, hogy változás van, a világ változásának üteme pedig felgyorsult a 18. századtól kezdődően, csak teljesen mást értek alatta én. Például az ipar 4.0-nak nevezett jelenség, egy korszakhatárt jelöl ki és segít didaktikailag jobban értelmezni azoknak a változásoknak az együttesét, amik korábban nem voltak, de szó sincs róla, hogy itt valami annyira különleges forradalomról lenne szó, ami teljesen más szemléletmódot igényel, mint a korábbi forradalmak.

Kitekintés után vissza a lényeghez: amikor a gép emberszerű viselkedést mutat, például értelmez egy szóban feltett kérdést, manapság a tömeg hajlamos azonnal mesterséges intelligenciának nevezni, mert ez az aktuális fancy. A Power BI használata közben is ez történik, amikor NLQ-ban kérdezünk a szoftvertől, ő pedig válaszol. Viszont! Vegyünk észre egy rendkívül fontos dolgot. Hogy minél pontosabb előismeretekkel kell rendelkeznünk ahhoz, hogy megfelelő kérdéseket intézzünk a géphez, ahol ugye nem kizárt, hogy irreleváns vagy teljesen hülye kérdésekre is képes intelligens, azaz lényegében megfelelő következtetésekből keletkezett információkkal választ adni, de összességében nem arra válaszol, amire ténylegesen a felhasználó kíváncsi volt. Itt jön, amire az mondhatnánk, hogy nem kis kockázatot hordoz magában.

Sokszor még rokon szakmák képviselői sem értik eléggé egymás nyelvét, például az ügyfél megfelelő szaktudás hiányában nem tudja megfogalmazni egy fejlesztőcsoportnak az üzleti igényeit, jobb esetben úgy kell kibogozni, hogy mit akar az ügyfél, aztán közösen összetákolnak valamit, amiből idővel szoftverspecifikáció lesz. De rosszabb esetben megszűnik az együttműködés, persze anélkül, hogy világossá válna, hogy valamelyik fél nem értette a másik igényeit.

Az ilyen esetek közös, hogy a gyakran lenézett lexikális tudás hiányáról van szó. Akár Power BI, akár egyéb hasonló, döntéstámogató eszköz nyelvi feldolgozóját, mint beviteli perifériát nem tudjuk megfelelően használni, de ezt senki sem észleli időben, szinte tetszőleges méretű szervezet esetén rendkívüli károkat okozhat. Ha valakinek köszvényesek az ujjai, nem tud megfelelő sebességgel billentyűzni, egerezni, nyomkodni az érintőkijelzőt, ez azonnal kiderül. Beszélni viszont szinte mindenki tud és közel sem annyira triviális megállapítani, hogy az adott kontextusban például egy kérdés mennyire releváns, szakszerű, értelmes, ha pedig egy másik ember számára sem, a gép számára pláne nem az.

Elővehetjük a projektmenedzsmentet, aminek az 50-es évektől kezdőden kialakult, saját, szabványosított keretrendszere, terminológiája alakult ki, hasonlóan a könyveléshez, audithoz, minőségmenedzsmenthez. Tételezzük fel, hogy egy középvezetői pozícióban lévő alkalmazott nem rendelkezik megfelelő tudással valamelyik területen, egyszerűen azért, mert nem törte magát egy száraznak tűnő könyv tartalmának alapos átolvasásával az egyetemen, arra gondolva, hogy “úgyis minden ott a neten”. Ilyen esetben valósággá válik, amit korábban inkább csak iróniaként emlegettek: az okoseszköz tényleg okosabb lesz, mint a használója, mert a felhasználó még emberi nyelven sem képes megfelelő kérdéseket feltenni, amiből a gép helyesen prediktálni tudná, hogy valószínűleg mit akar csinálni a felhasználó.

Konkrétabban: adott egy pénzügyi területen dolgozó középvezető, akinek a pénzügyi ismeretei nincsenek az elvárható szinten, viszont ha valamit eltolt, gyorsan korrigálták 10-20 évvel ezelőtt. Ha ugyanez a pénzügyi területen dolgozó középvezető egy részfolyamatot végezve egy halom adaton ülve nem tudja, hogy mit kellene vele kezdeni, a megszokásaira támaszkodik, majd ennek megfelelően nem a legmegfelelőbb kérdést teszi fel a gépnek, ami erre válaszol, a részfolyamat eredménye végülis igaz lesz, csak nem az az információ, amire ténylegesen szükség van, majd ez egy másik részfolyamat bemenete lesz és így tovább. Nem nehéz belátni, hogy nagyon kevés számú részfolyamat után, amikor tájékozatlanul kérdeztett és a szigorú racionalitás szerint valid, ámde nem a megfelelő választ kapta vissza, ha a teljes munka végén ki is szúrják a hibát valaki, szinte visszakövethetetlen, hogy hol volt eredetileg. Ráadásul addigra már a pénzügy a származtatott információkat továbbította más funkcionális részlegek felé.

Ha több pénzügyes dolgozik egy-egy feladat megoldásán, akkor sem biztosan nagyobb az esély arra, hogy időben kiszúrják, hogy betévedtek egy barlangba. Elég felidézni a viselkedésökonómia nagyjainak meglehetősen egyöntetű véleményét azzal kapcsolatban, hogy az ember minden racionalitás ellenére hajlamosabb elfogadni az egyszerűbb, jelen esetben egyszerűbben értelmezhető magyarázatokat, gyakran függetlenül attól, hogy ennek mekkora a tétje.

Példánkban a gép nemhogy nem hibázott, hanem pont azt lehetne “felróni” neki, ha ember lenne, hogy nem eléggé felkészült felhasználók kérdéseire is magabiztosan válaszolt, ami emberi szempontból felelőtlenség. A gondolatkísérletet folytatva a legrosszabb esetben egyetlen, középvezetői részleg hülye kérdéseinek hatásai lassan, de megállíthatatlanul eszkalálódó káoszt okoznak a cégen belül, a felsővezetés eleve a formálisan helyes, de felkészületlenül feltett kérdésekre kapott információkat kapja meg, mint bemenetet, ennek megfelelően is fogják meghozni a döntéseiket, aminek a következménye akár a cég összeomlása is lehet.

Gyanítjuk, de nagyon úgy tűnik, hogy a lexikális tudásra még nagyon-nagyon sokáig szükség lesz, csak éppen a szerepe helyeződik át teljesen, a jelentősége nem.

Amikor elterjedt a logarléc, a matematikatanárok attól tartottak, hogy a gyerekek sokkal hülyébbek lesznek, leszoknak a gondolkodásról, ugyanez megtörtént az első elemes számológépek terjedésekor és folytathatnánk a sort. Ugyanakkor világos, hogy lehet akármilyen okos például egy számológép – vagy gondoljunk csak a Wolfram Alpha-ra – ha az embernek nincs meg a megfelelő tudása ahhoz, hogy jól tegye fel a kérdést, eleve nem kaphat választ olyanra, amire ténylegesen kíváncsi.