Az AI-ról, komolyan II: a lexikális tudás felértékelődése a jövő döntéseiben

microsoft_power_biParadoxonnak tűnik? Nem az. Magyarázzuk. Alighanem már azzal kapcsolatban is csak nagyon óvatos becslést lehetne adni, hogy mennyi olyan, komplett, gyakorlatilag minden üzleti igény kielégítésére fejlesztett, tág értelembe vett ERP megoldás van, ami fut a felhőben, a legszárazabb adatsorokból is képes színes-szagos vizualizált chartokat készíteni, épphogy kávét nem főz, olyan mértékben segíti a döntéselőkészítést és döntéshozást, hogy azoknak akik a döntéseket meghozzák, csak azzal kell foglalkozniuk, hogy biztosan a legmegfelelőbb információkkal tömték-e meg a szolgáltatást, megfelelő módon.

Ezek közül nem emelnénk ki sokat, a Microsoft és az Atlassian azért vált piacvezetővé komplett megoldásoknak a piacán, mert a legjobban sikerült eltalálniuk, hogy a különálló szolgáltatásaik hogyan drótozhatók össze a legjobban. Megoldást kínálnak az ilyen szoftverrendszerek használatában jártas és kevésbé jártas felhasználóknak egyaránt, néha tényleg a bőség zavara lehet a benyomásunk. Példaként egy feladat megoldásának bonyolultságától, jellegétől függően szükség lehet a MS Projects bevetésére, de nagyon könnyen előfordulhat, hogy a feladat valójában a sokkal egyszerűbb – na meg kevésbé ijesztő – Microsoft Plannerrel is megoldható.

Azt is mondhatnánk, hogy szomorú, de annyira igaz, miszerint az adat gyakorlatilag onnantól ér valamit, hogy vizualizálva van vagy legalábbis minél gyorsabb megérteni. Nincs ebben semmi meglepő, az ember agya ugyan magas szintű absztrakciókra képes, mégis sokkal könnyebb, ha valamilyen eszközzel megjelenítetük a láthatatlant, az adat vizualizálva nyer értelmet ténylegesen sokak számára.

Nem tudni, hogy mennyire lehet komolyan venni azt a kutatást, amiben igazolták, hogy nagyon hasonló tudománymetriai jellemzőkkel rendelkező cikkeket annál kevésbé hivatkoznak más kutatók cikkei, minél több matematika összefüggést, konkrétabban pedig képletet tartalmaznak, holott a kutatók körében ezek készségszintű értelmezése mindennapos gyakorlat. Szubjektív, de ez még bocsánatosabb lehet az olyan tudományterületen, ahol köztudottan szeretik a minél pontosabb ábrázolást, a számokat pedig annál kevésbé, sokszor pedig ezek azok az olvasók-kutatók azok, akiknél néhány tizedmilliméteren és a másodperc töredékén múlik, hogy meg tudják-e menteni a beteg életét: a sebészek, akik nyilván sebészeti szaklapokat olvasnak. Gaál Csaba Szakírás című zseniális könyvében részletekbe menően tárgyalja a témát.

Arra viszont már ember nem gondolna, hogy azokat a matematikai cikkeket más matematikusok (!!) kevésbé hivatkozzák, amikben több a képlet, ennek megfelelően kisebb arányt foglalnak el a teljes cikkben a magyarázó szövegek és ábrák. A matematikusok! Szinte hihetetlen, de tényleg így van, profán módon megjegyezhetnénk, hogy legalább ebből tudható, hogy ők is emberek.

Ha külcsínyről van szó, a Microsoft több, nagyon hasonló szolgáltatása közül a Power BI-t nem véletlenül övezi siker: gyakorlatilag bármilyen ma használatos adatforrásból importálhatunk bele adatokat, majd azt a legkülönbözőbb nézetek szerint jeleníthetjük meg, végezhetünk vele műveleteket, generálhatunk reportokat. Vegyük észre, hogy az egyszerű Excel okosodása sem új jelenség: a meghívókódokkal elérhető Tudástárban több videót bemutattunk, amiben az alkalmazás gyakorlatilag kitalálja a felhasználó szándékát: a FlashFill nem csak logikusan, értelmesen tölti ki egy oszlop sorait, megint másik funkció ötletet ad azzal kapcsolatban, hogy a nem megfelelő formában lévő adatokat hogyan bonthassuk pontos rendbe, külön-külön oszlopokba, nyilván anélkül, hogy mindnél ugyanazt az esetleg lélekölő többlépéses műveletet kellene elvégezni.

A Power BI is bevezette a Natural Language Query-t, ami több, mint fícsör: gyakorlatilag a felhasználó megfogalmazza, hogy milyen megjelenítést szeretne vagy milyen műveletet végezne el, a Power BI pedig prediktálja a lehetőségeket, majd egy kattintás és máris pontosan az látható és úgy, ahogyan szeretnénk, aminek a jelentősége felmérhetetlen, ha például egy executive reportba kerül majd az anyag.

Nem vinnénk el nyelvészkedős irányba a posztot – már megint 🙂 – de figyeljük meg, hogy emögött mennyire komoly nyelvtechnológiát kellett bevetni valamint azt, hogy adódott egy üzleti-informatikai kihívás, amire lényegében a nyelvtudomány adta a megoldás alapját, holott évekkel-évtizedekkel ezelőtt, amikor még senki sem hitte volna, hogy ennyire okosak lesznek a gépek, nem még azt, hogy ilyenre szükség lesz. Érdekes történeti kitekintés, hogy az Oracle is onnan kapta a nevét, hogy egyfajt orákulumként bármilyen kérdésre meg tudja adni a választ, ha az megfelelően formalizált. Az NLQ esetén viszont még formalizáltnak sem kell lennie.

Ahogy a 20. század elején úgy gondolták, hogy hamarosan elég lesz napi 4 óra munka is, aztán az új technológiák újabb kihívások elé állították az embert, egy hasonló jelenséget figyelhetünk meg, viszont bizonyos szempontból, egy parafrázissal élve éppen “kifordítva”. A bankba érkező ügyfeleknek sorszámot pecsételő néni elvesztette az állását azzal, hogy a sorszámokat már automata köpködi ki, viszont annak az automatának az ellátási láncot biztosítani kell, néha javítani, fejleszteni. Maradva a pénzintézeteknél, amikor a számlák adatait papírról vagy más hordozóról átköltöztették gépekre, majd mai értelembe vett adatbázisszerverekre, nyilván okafogyottá vált azoknak a munkája, akik addig papíron rögzítették a pénzügyi műveleteket, abban az időben úgy gondolhatták sokan, hogy az adatbázisszerverek tömegesen váltották fel az emberek munkáját, úgy gondolva minderre, mintha ezzel a feladattal nem kellene foglalkozni a továbbiakban, ami nyilván megmosolyogtató, hiszen továbbra is kell hozzá az ember, csak más mindsettel. Kellenek helyettük emberi erőforrásként az egymással versengő adatbázismotorok fejlesztői, adatbázis adminisztrátorok és így tovább.

E sorok írója nem vallotta soha, amit sokan dogmaként fogadnak el, miszerint a gépek a feje tetejére állították és állítják világot az ipari forradalomtól kezdve rendszeresen – pontosabban abban egyetértünk, hogy változás van, a világ változásának üteme pedig felgyorsult a 18. századtól kezdődően, csak teljesen mást értek alatta én. Például az ipar 4.0-nak nevezett jelenség, egy korszakhatárt jelöl ki és segít didaktikailag jobban értelmezni azoknak a változásoknak az együttesét, amik korábban nem voltak, de szó sincs róla, hogy itt valami annyira különleges forradalomról lenne szó, ami teljesen más szemléletmódot igényel, mint a korábbi forradalmak.

Kitekintés után vissza a lényeghez: amikor a gép emberszerű viselkedést mutat, például értelmez egy szóban feltett kérdést, manapság a tömeg hajlamos azonnal mesterséges intelligenciának nevezni, mert ez az aktuális fancy. A Power BI használata közben is ez történik, amikor NLQ-ban kérdezünk a szoftvertől, ő pedig válaszol. Viszont! Vegyünk észre egy rendkívül fontos dolgot. Hogy minél pontosabb előismeretekkel kell rendelkeznünk ahhoz, hogy megfelelő kérdéseket intézzünk a géphez, ahol ugye nem kizárt, hogy irreleváns vagy teljesen hülye kérdésekre is képes intelligens, azaz lényegében megfelelő következtetésekből keletkezett információkkal választ adni, de összességében nem arra válaszol, amire ténylegesen a felhasználó kíváncsi volt. Itt jön, amire az mondhatnánk, hogy nem kis kockázatot hordoz magában.

Sokszor még rokon szakmák képviselői sem értik eléggé egymás nyelvét, például az ügyfél megfelelő szaktudás hiányában nem tudja megfogalmazni egy fejlesztőcsoportnak az üzleti igényeit, jobb esetben úgy kell kibogozni, hogy mit akar az ügyfél, aztán közösen összetákolnak valamit, amiből idővel szoftverspecifikáció lesz. De rosszabb esetben megszűnik az együttműködés, persze anélkül, hogy világossá válna, hogy valamelyik fél nem értette a másik igényeit.

Az ilyen esetek közös, hogy a gyakran lenézett lexikális tudás hiányáról van szó. Akár Power BI, akár egyéb hasonló, döntéstámogató eszköz nyelvi feldolgozóját, mint beviteli perifériát nem tudjuk megfelelően használni, de ezt senki sem észleli időben, szinte tetszőleges méretű szervezet esetén rendkívüli károkat okozhat. Ha valakinek köszvényesek az ujjai, nem tud megfelelő sebességgel billentyűzni, egerezni, nyomkodni az érintőkijelzőt, ez azonnal kiderül. Beszélni viszont szinte mindenki tud és közel sem annyira triviális megállapítani, hogy az adott kontextusban például egy kérdés mennyire releváns, szakszerű, értelmes, ha pedig egy másik ember számára sem, a gép számára pláne nem az.

Elővehetjük a projektmenedzsmentet, aminek az 50-es évektől kezdőden kialakult, saját, szabványosított keretrendszere, terminológiája alakult ki, hasonlóan a könyveléshez, audithoz, minőségmenedzsmenthez. Tételezzük fel, hogy egy középvezetői pozícióban lévő alkalmazott nem rendelkezik megfelelő tudással valamelyik területen, egyszerűen azért, mert nem törte magát egy száraznak tűnő könyv tartalmának alapos átolvasásával az egyetemen, arra gondolva, hogy “úgyis minden ott a neten”. Ilyen esetben valósággá válik, amit korábban inkább csak iróniaként emlegettek: az okoseszköz tényleg okosabb lesz, mint a használója, mert a felhasználó még emberi nyelven sem képes megfelelő kérdéseket feltenni, amiből a gép helyesen prediktálni tudná, hogy valószínűleg mit akar csinálni a felhasználó.

Konkrétabban: adott egy pénzügyi területen dolgozó középvezető, akinek a pénzügyi ismeretei nincsenek az elvárható szinten, viszont ha valamit eltolt, gyorsan korrigálták 10-20 évvel ezelőtt. Ha ugyanez a pénzügyi területen dolgozó középvezető egy részfolyamatot végezve egy halom adaton ülve nem tudja, hogy mit kellene vele kezdeni, a megszokásaira támaszkodik, majd ennek megfelelően nem a legmegfelelőbb kérdést teszi fel a gépnek, ami erre válaszol, a részfolyamat eredménye végülis igaz lesz, csak nem az az információ, amire ténylegesen szükség van, majd ez egy másik részfolyamat bemenete lesz és így tovább. Nem nehéz belátni, hogy nagyon kevés számú részfolyamat után, amikor tájékozatlanul kérdeztett és a szigorú racionalitás szerint valid, ámde nem a megfelelő választ kapta vissza, ha a teljes munka végén ki is szúrják a hibát valaki, szinte visszakövethetetlen, hogy hol volt eredetileg. Ráadásul addigra már a pénzügy a származtatott információkat továbbította más funkcionális részlegek felé.

Ha több pénzügyes dolgozik egy-egy feladat megoldásán, akkor sem biztosan nagyobb az esély arra, hogy időben kiszúrják, hogy betévedtek egy barlangba. Elég felidézni a viselkedésökonómia nagyjainak meglehetősen egyöntetű véleményét azzal kapcsolatban, hogy az ember minden racionalitás ellenére hajlamosabb elfogadni az egyszerűbb, jelen esetben egyszerűbben értelmezhető magyarázatokat, gyakran függetlenül attól, hogy ennek mekkora a tétje.

Példánkban a gép nemhogy nem hibázott, hanem pont azt lehetne “felróni” neki, ha ember lenne, hogy nem eléggé felkészült felhasználók kérdéseire is magabiztosan válaszolt, ami emberi szempontból felelőtlenség. A gondolatkísérletet folytatva a legrosszabb esetben egyetlen, középvezetői részleg hülye kérdéseinek hatásai lassan, de megállíthatatlanul eszkalálódó káoszt okoznak a cégen belül, a felsővezetés eleve a formálisan helyes, de felkészületlenül feltett kérdésekre kapott információkat kapja meg, mint bemenetet, ennek megfelelően is fogják meghozni a döntéseiket, aminek a következménye akár a cég összeomlása is lehet.

Gyanítjuk, de nagyon úgy tűnik, hogy a lexikális tudásra még nagyon-nagyon sokáig szükség lesz, csak éppen a szerepe helyeződik át teljesen, a jelentősége nem.

Amikor elterjedt a logarléc, a matematikatanárok attól tartottak, hogy a gyerekek sokkal hülyébbek lesznek, leszoknak a gondolkodásról, ugyanez megtörtént az első elemes számológépek terjedésekor és folytathatnánk a sort. Ugyanakkor világos, hogy lehet akármilyen okos például egy számológép – vagy gondoljunk csak a Wolfram Alpha-ra – ha az embernek nincs meg a megfelelő tudása ahhoz, hogy jól tegye fel a kérdést, eleve nem kaphat választ olyanra, amire ténylegesen kíváncsi.

Mielőtt átgondolatlanul állítgatnád a DNS-címeid…

cloudflare-dns-szolgaltatas

A Cloudflare nemrég rukkolt elő a https://one.one.one.one/  public DNS-szolgáltatással, a bejelentésben mi mást ígérnének, ha nem azt, hogy jobb hellyé teszik az internetet.

Mi ez, és ki fogja használni?

Ez az úgynevezett DNS over HTTPS szolgáltatás, ami végre elrejti a himi-humi internetszolgáltatók elől, hogy mi mit böngészünk, mert többé nem hozzájuk kerül a DNS-lekérdezés, hogy turkálhassanak benne, statisztikázzanak, majd a végeredményt eladják jó pénzért, hanem titkosított csatornában jut el egy, azaz egy (megbízható?) helyre, az 1.1.1.1 címre.

Nem mellesleg az egyszintű, tehát egylépéses lekérdezés sokkal gyorsabb, mint nagyapáink elvei szerint össze-vissza kódorogni a neten, és begyűjteni egy nyomorult IP-címet. Az elosztott DNS jó ötletnek tűnt, amikor a világ összes memóriakapacitása kevesebb volt, mint 1 MB, de manapság…?

Jó hírünk van, a DNS over HTTPS most, 2018. októberében szabvánnyá vált, az RFC 8484 alatt találjuk.

Sajnos a felhasználók többségének a DHCP miatt  sok-sok éve nem kell foglalkoznia azzal, hogy elsődleges és másodlagos DNS-szervert kézileg állítson be, hiszen ezt éppen a DHCP miatt megkapja a szolgáltatótól, a VPN-szolgáltatótól, esetleg a munkahelye saját DNS1, DNS2 szervereket használ.

Pedig a DNS szerverek szerepe nagyon alaposan felértékelődött és ki is bővült, képesek figyelmeztetni a felhasználót, ha valamilyen nagyon rázós webhelyre tévednének például. Ilyen esetben nem a megcélzott weblap IP-címét küldik el a böngészőnek, hanem a saját hibaoldalukra irányítják. Az OpenDNS [208.67.222.222, 208.67.220.220], a Google Public DNS [8.8.8.8, 8.8.4.4] vagy éppen a Comodo által kínált public DNS esetén ez mind alapértelmezés.

Teljesen világos, hogy ezt csak úgy képesek megtenni, ha valamilyen szinten információt gyűjtenek arról, hogy egy-egy hoszttal kapcsolatban mennyi névfeloldási kérés érkezett, valamint, “behind the scenes”, hogy a feloldott hosztnevek és címek összefüggésbe hozhatók-e például botnet-aktivitással, vagy egyáltalán bármilyen forgalommal, ami a kliensre nézve veszélyes lehet.

Azaz a public DNS felold, nagyon gyorsan ellenőrzi, hogy nem vezetné-e a klienst valamilyen veszélyes vidékre, majd ezt követően kiszolgál. Az aktuálisan leggyorsabb DNS-szolgáltatók listája a https://www.dnsperf.com/#!dns-resolvers linken érhető el, ahol, ahogyan az várható volt, a Cloudflare által nemrég használatba vett 1.1.1.1 lett az első.

A Cloudflare 1.1.1.1 oldaláról kiderül minden szép és jó. Aki nem ma kezdte el használni az internetet, nem csoda, ha szkeptikus egy olyan szolgáltatással kapcsolatban, ami azt ígéri, hogy semmilyen (!!) információt nem gyűjt – nem teszi hozzá, hogy ennek megfelelően nem is ellenőriz, így pedig nem nehéz a leggyorsabbnak lenni – ingyenes, na meg “használd, aztán jó lesz”…

Amit még érdemes megjegyezni, hogy a DNS-szerverek sebességét gyakran összefüggésbe hozzák az internetezés effektív sebességével, amiben annyi a ráció, hogy egy-egy hírportál betöltődéséhez akár 60-70 névfeloldásra is szükség lehet, de a feloldás milliszekundumokban mérhető, elhanyagolható amellett, hogy a böngészőkbe a tényleges tartalmak milyen sebességgel érkeznek, a böngészőmotor azt milyen sebességgel rendereli.

Ha behatóbban érdekel a DNS működése, érdemes lehet követni a NetAcademia LinkedIN-oldalának feedjén megjelenő Tudástár-videókat, ahol a hozzáféréshez szükséges meghívókódokat is megtalálod.