Áttörés a Microsoftnál

A kutatók elérték azt a szintet a beszédfelismerésben, amelyre az ember képes. De bőven akad még feladat.

A hivatalos blogon jelentették be a Microsoft kutatói, hogy a vállalat mesterséges intelligenciával foglalkozó szakemberei mérföldkőhöz érkeztek, ugyanis állításuk szerint az általuk fejlesztett beszédfelismerő rendszer már épp olyan módon képes felismerni a szavakat, ahogy az ember.

Ez persze nem azt jelenti, hogy a rendszer tökéletes (hiszen az emberi felismerés sem az), hanem azt, hogy a tévedések arányát sikerült olyan alacsonyra szorítani, hogy az már eléri vagy meg is haladja azt a tévedési szintet, amit az embereknél mértek – a múlt hónapban eljutottak odáig, hogy a tévedési ráta a korábbi 6,3 százalékról 5,9 százalékra csökkenjen.

A blogbejegyzésben kitérnek arra, hogy erre az eredményre évtizedeket kellett várni azok után, hogy az Egyesült Államok stratégiai – zömében katonai célú – kutatásokat menedzselő intézete (Defense Advanced Research Projects Agency – DARPA) az 1970-es évek elején megindította a kutatásokat. Azóta nagyon sok technológiai vállalat foglalkozott a beszédfelismeréssel, és a mostani áttörés – jelentette ki a kutatócsapat irányítója, Geoffrey Zweig – e hosszú munka eredménye.

A fejlesztés mögött a neurális hálózati technológiák legújabb eredményei állnak; e hálózatokkal hatalmas mennyiségű adatot dolgoznak fel, és ezek mintázatokat keresnek, illetve tanulnak meg. A csapat a Microsoft saját fejlesztésű, nyílt eszközét, a Computational Network Toolkitet használja. Az eredményességet nagyban segítette a speciális GPU-k alkalmazása, ez jelentősen felgyorsította a munkát.

A fejlesztés további irányáról azt írják, hogy rengeteg feladat van még, ugyanis ez az eredmény viszonylag steril körülmények között produkálható csak, ezért azon kell dolgozni, hogy valós szituációkban is használható legyen – hiszen végül is ez a végcél –, vagyis meg kell oldani, hogy pl. az erős háttérzaj vagy több ember együttes beszéde esetén is működjön, illetve vannak még megoldandó feladatok akkor is, ha valaki akcentussal beszéli a nyelvet, vagy valamilyen okból (pl. a kora vagy egészségi állapota miatt) kiejtése erősen eltér a standardtól. Csak ezek megoldása után jöhetnek létre e téren teljes értékű számítógépes személyi asszisztens programok.

És persze a hosszú távú, ma még csak a távolban lebegő cél: a rendszer ne csak azonosítani tudja a szavakat, hanem meg is értse.

Előzmények