Car-tech

A beszédfelismerési rendszereknek intelligensebbnek kell lenniük, professzor szerint

AKI nem ölt, hanem meghalt - Balla Frigyes 20200410

AKI nem ölt, hanem meghalt - Balla Frigyes 20200410
Anonim

hogy a beszéd a telefonon az automatizált beszédfelismerő rendszereknél vigasztalást nyújthat abban a tényben, hogy a tudósok arra törekszenek, hogy az ilyen rendszereket élethűbbé és kevésbé bosszantóvá tegyék.

"A fogyasztói tapasztalatokból az emberek nagyon megzavarhatják ezeket a rendszereket" - mondta James Allen, aki a Rochester-i Egyetem számítástechnikai tudományának elnöke, a SpeechTEK konferencia 2010 előtt beszélt, New Yorkban ezen a héten.

A legtöbb számítógépes beszédfelismerő rendszer megértheti, hogy az ember azt mondja, hogy az idő 98 százaléka, és mégis az emberek továbbra is használják az automatizált telefonos help-desk rendszereket. A kulcsa annak, hogy ezek a rendszerek kevésbé frusztrálóak legyenek, a nyelv mélyebb megértése és interaktívabbá tétele lenne.

[További olvasmány: Az új PC-nek szüksége van ezekre a 15 ingyenes, kiváló programra]

A legtöbb nagy szervezet ügyfélszolgálati részlegei mostanra automatizált telefon alapú súgórendszereket kínálnak. A felhasználó felhívja a súgó számot, és egy mesterséges hang kérdezősködik a hívótól. A legtöbb ilyen rendszer olyan kereteken alapul, amelyek alapvetően nagy döntési fák. Ezekkel a rendszerekkel "nem tudjátok meg, hogy mit akar az ember, akkor szkriptet követ", mondta.

A rendszerek valójában egy sor különböző technológia összetettek. Az egyik a beszédfelismerés vagy a számítógép azon képessége, hogy megértse vagy szövegesen lefordítsa a beszédet.

A másik technológia, a természetes nyelv feldolgozása (NLP) megkísérli vagy a hangszóró üzenete parancsba konvertálását hogy a számítógép végre tudja hajtani, vagy egy emberi operátor számára összefoglalható.

Az elmúlt néhány évtizedben nagy lépések történtek mind a hangfelismerés, mind az NLP terén, de látszólag nagyrészt frusztrációt okoztak a felhasználók számára. "Csak akkor hívom a bankot, amikor problémám van, és harcolni fogok ezeken a rendszereken." [Azt kérdezem], hogy mit tudok válaszolni, hogy a lehető leggyorsabban eljussak egy emberhez "- mondta Allen.

Allen tudományos munkáját hogy "tudunk beszélni egy gépen ugyanúgy, ahogyan beszélhetünk egy emberrel" - mondta.

A két ember közötti beszélgetések pontosan meghatározhatják, hogy a számítógépek milyen nehézségekkel küzdenek. Allen rámutatott arra a korai munkára, amelyet végzős hallgatóként végzett, amelyben beszélgetéseket írott a vasútállomás információs pultján. Egy interakcióban az utas odalép a standhoz, és azt mondja: "8:50 Windsornak", és a kísérő válaszok: "10-es kapu, 20 perc késéssel". Miközben a személyzet pontosan tudta, hogy a vizsgázó milyen információkat keres, a számítógépes rendszerek megtalálják az utas első kijelentését.

Az Allen úgy látja, hogy a modern rendszerek közül két elem hiányzik: az a képesség, hogy elemezze, amit a beszélő mond, és képes beszélgetni a beszélővel, ha többet szeretne megtudni arról, amit a beszélő szándékozik mondani.

"Sok NLP-nek általában sekély, nincs olyan technológia, amely a mondatok jelentését adja" ő mondta. A statisztikai feldolgozási eszközök és a szómeghatározási szolgáltatások, például a WordNet segíthetnek meghatározni egy szót, de egy szó kapcsolatát is, így a rendszer tudni fogja, hogy például egy "leányvállalat" egy "vállalat" része.

Több Kétirányú kommunikációra van szükség a felhasználók és a számítógépek között is. Amikor szükségleteikről beszélnek, az emberek semmilyen konkrét rendben nem adhatnak információt. A számítógépre kell állnia, hogy össze tudja gyűjteni ezeket az információkat, és ne terheli a felhasználót azokkal a kérdésekkel kapcsolatban, amelyeknek a válaszai már meg vannak adva.

"Ez a jövő, ez az, amit akarsz a rendszerek, és tudunk párbeszédet készíteni olyan rendszereket, amelyek képesek támogatni ezt a komplexitási tartományt. "Ennek az ötletnek az illusztrálására Allen és egy kutatócsoport tervezett egy Cardiac nevű programot, amely utánozhatja azokat a kérdéseket, amelyeket a nővér szívbetegségben szenved. A programot az Egyesült Államok Nemzeti Egészségügyi Intézeteinek támogatásával hozták létre. Ezzel a rendszerrel, miután a felhasználó megadta az információkat, a rendszer nem kérdezné újra, Allen mondta. A rendszer megérdemli, hogy milyen anyagokat már rendelkezésre bocsátottak és mi is volt még.

Egy másik program, amelyet Allen és csapata tervezett, Plough-nak, megtanulják, hogyan végezzenek általános feladatokat a számítógépen. "Ez egy olyan rendszer, amely lehetővé teszi, hogy alapvetően párbeszédet használj a rendszer edzésére, hogyan kell a dolgokat neked elvégezni."

Például Allen bemutatta a programot, amely megtanulja, hogyan keressen közeli éttermeket böngészővel. A felhasználó böngészőt nyit meg, keresse meg az éttermi kereső webhelyet, írja be a keresett étterem típusát és a helyet, majd vágja le és illessze be az eredményeket egy üres oldalra. A felhasználó leírta az egyes lépéseket a végrehajtás során.

A folyamat során az eke rögzítené minden lépést, és hallhatóan válaszolna, amikor a lépést megértették. Később, amikor a felhasználó egy másik éttermet szeretne keresni, a program ugyanazokat a lépéseket megy át, és automatikusan elkészíti az éttermek egy másik listáját. Az Egyesült Államok védelmi fejlesztési kutatási projektjei finanszírozzák a program fejlesztését.

Több adat kulcsfontosságú a humánszerűbb nyelvfeldolgozó rendszerek számára, mondta Larry Heck, a Microsoft fő tudósának beszéde. "Ha nem rendelkezel az adatokkal, nem számít, mennyire kifinomult az algoritmusod" - mondta.

Egy helyen találni több adatot a keresőmotor lekérdezésekben, javasolta. A keresőmotor-szolgáltatások nagy mennyiségű lekérdezést kapnak, amelyek mindegyike a válaszokhoz kapcsolódik. "A közeli unokatestvéremet keresem a nyelvfeldolgozó technológiákra" - mondta Heck.

Napjainkban az embereket felkészítik arra, hogy lekérdezéseiket kulcsszavak készletévé alakítsák. Ehelyett, ha a felhasználóknak be kell írniuk a teljes mondatokat, leírják, amire szükségük van, az eredményül kapott adatcsomag hosszú utat tudna segíteni abban, hogy a rendszerek jobban megértsék, mit keresnek az emberek.

Heck azt jósolta, hogy minél több ember használja a hangalapú keresési szolgáltatásokat a Microsofttól és a Google-tól fognak megszokni, hogy lekérdezéseiket teljes mondatokká alakítsák, amelyek idővel segíthetnek az NLP rendszereknek a felhasználói igények jobb előrejelzésében.

Joab Jackson a vállalati szoftvert és az általános technológiai hírleveleket a

Az IDG News szolgáltatás. Kövesse Joabot a Twitteren a @Joab_Jackson-on. Joab e-mail címe [email protected]