Itthon Hang Mi a különbség a beszéd szöveges és a chatbotok között?

Mi a különbség a beszéd szöveges és a chatbotok között?

Anonim

K:

Mi a különbség a beszéd szöveges és a chatbotok között?

A:

A beszéd-szöveges technológiák és a chatbotok közötti számottevő különbségek részét képezik annak, amit megvizsgálnak a chatbot és a voicebot projektek gyors fejlődésében.

A beszéd-szöveges technológia egyszerűen olyan, amely a szóbeli beszédet digitális oldal szöveggé konvertálja. Ez teljes funkciója, de nem egyszerû megtervezni. A verbális beszéd szöveggé konvertálásához a technológiának a szavakat és mondatokat különálló fonemákra kell bontania, és összetett algoritmusok szerint kell velük dolgoznia, hogy pontos szöveget hozzon létre, amely pontos és képviseli azt, amit a beszélõ mondott.

A chatbotok viszont olyan technológiák, amelyek megvalósítják az emberrel való kommunikáció célját. A chatbotok két típusa létezik: szöveges chatbotok és hangbotok. A szöveges chatbotok sokkal hosszabb ideig működtek, mert nincs szükségük a beszéd-szöveg elemre, amelyet a robotok használnak.

A beszéd-szöveges technológiák és a chatbotok közötti fő különbség a hatály. Mint már említettük, a beszéd-szöveg technológiának csak a szóbeli beszéd átírására van szüksége. A chatbotnak viszont a kívánt formában kell beszédet tartania, meg kell értenie, és válaszokat kell adnia a Turing-teszt teljesítésére - annak tesztelésére, hogy egy technológia becsaphatja-e az embert arra, hogy azt gondolja, hogy ő beszélgetni egy másik személlyel.

Ezt szem előtt tartva a chatbotokat sokkal könnyebb létrehozni, mint a hangobotokat. A chatbot felveszi az emberi szöveget, és szöveges választ ad. Még a viszonylag egyszerű chatbotok is képesek voltak érdekes és élvezetes eredményeket biztosítani az emberek számára az 1980-as évek vége és az 1990-es évek eleje óta.

A hangbotnak viszont szóbeli beszédet kell felvennie, szöveggé konvertálnia, pontosságának ellenőrzésére, választ adnia, és ezt a választ gépi nyelvről hallható beszédré kell alakítania. Ez a nagyszámú meglehetősen jelentős feladat azt jelenti, hogy a voicebot sok számítási teljesítményt igényel és sok tervezést igényel az építés.

Az olyan projektek, mint a Siri, Cortana és Alexa, bemutatják a voicebot technológiák élenjáró részét. Azt is szemléltetik, hogy ez a technológia még gyerekcipőben jár. Noha az Alexa és más technológiák verbálisan tudnak válaszolni az emberi beszédre, ezek nem rendkívül képesek abban az értelemben, hogy általában a verbális emberi beszédhez kapcsolódunk. Más szavakkal, ezekre a technológiákra adott válaszok egy kissé korlátozottak. A mai személyes asszisztensek generációjának korlátozott lehetősége van arra is, hogy valóban beszédet alakítson ki a szövegbe, például e-mail átírásához vagy valaki esszé írásának segítéséhez kéz nélkül. A piacon lévő speciális beszéd-szöveges programok némelyike ​​jobban képes ezt megtenni, mint a Siri vagy a Cortana, valószínűleg az erőforrások elosztása miatt. Vannak azonban olyan jelek, hogy a voicebot haladása hamarosan elindul - például az Amazon Lex platformja, amely lehetővé teszi a stúdiókörnyezetet az ilyen típusú technológiák felépítéséhez.

Tobias Goebel egy okos és tanulságos témájú esszében beszél a technológiák közötti különbségről, ellentmondva a „transzkripció” folyamatának, amelyet a szöveg a beszédhez tesz, a megértés feladatához, amelyet a chatbotoknak elvárniuk kell.

"Noha a beszédfelismerés szükségességének kiküszöbölése megkönnyíti a chatbotot, a működő botok felépítésének fő kihívása a természetes nyelv megértése" - írja Goebel.

Goebel azonosítja az iparág jelenlegi szereplőit is:

A beszédfelismerés piacvezetője a Nuance, aki olyan ismert rendszerek mögött áll, mint például a Dragon NaturallySpeaking a PC-n diktálásra, amely a kilencvenes évek óta működik, de Siri is: az Apple felhőben végzett beszédfelismerési / átírási feladat A Nuance technológia a színfalak mögött. Mások a LumenVox, a Verbio vagy az Interactions, de a beszédfelismerést felhőalapú szolgáltatásként API-n keresztül is kínálják az Amazon, a Google, a Microsoft és az IBM.

A chatbotok fejlődésével feltételezzük, hogy megértésük tovább fog növekedni bizonyos pályákon - és nagyrészt azt is feltételezik, hogy a bottechnológia tovább halad a szöveges interfészektől a verbális interfészekig, további számítási számítástechnikát igényelve.

Mi a különbség a beszéd szöveges és a chatbotok között?