Itthon Hang Halott embereket hallok? A természetes nyelv tech életre kelti a múlt és a jelen hangját

Halott embereket hallok? A természetes nyelv tech életre kelti a múlt és a jelen hangját

Tartalomjegyzék:

Anonim

Manapság a legtöbb számítógépes hang passzív. Valószínűleg nem túlságosan meglepődik a kiborgok és a robotok iránt, amikor meghallja a telefonon a "droid" -t, amely segít számlafizetésben, vagy megkérdezi tőle, hogy melyik osztályt szeretné. De mi van, ha hirtelen hallotta, hogy Kurt Cobain megkérdezi a kártya adatait? Vagy John F. Kennedy mesélt a korai szavazás csodáiról? Vagy Elvis lekérdezi a nevét és címét, mielőtt "darabokra, égő szerelem darabjaira" fordulna.


Mindez … kissé furcsa, de ami még lenyűgözőbb, hogy a technológia alapvetően már itt van. Körülbelül egy évtizeddel ezelőtt elképesztettünk egy számítógépes képességgel, hogy egyáltalán beszéljen is. Most már szabadon választható, számítógéppel generált hangok kerülnek felhasználásra, amelyek ugyanúgy hangzanak, mint az ismert emberek.

Nagy változások az NLP-ben

Ha figyelmet fordít a természetes nyelvfeldolgozás (NLP) területére, akkor hallhatott néhány olyan közelmúltbeli haladásról, amely túlmutat azon konzervált virtuális asszisztens hangokon, amelyeket a globális helymeghatározó rendszerekben (GPS) és az automatizált üzletben most hallunk. telefonvonalak.


Az NLP kezdete nagyon sok kutatást igényelt az emberi beszéd általános mechanikájában. A kutatóknak és a mérnököknek meg kellett határozniuk az egyes fonetikákat, össze kell hajtaniuk azokat a nagyobb algoritmusokba a mondatok és mondatok előállításához, majd mindezt meta-szinten kell megkísérelni kezelni, hogy valami valósnak hangzik. Az idő múlásával az NLP vezetői elsajátították ezt és fejlett algoritmusokat kezdtek el építeni az emberek mondásának megértése érdekében. Ezeket a két elemet összeállítva, a vállalatok felkerültek a mai virtuális asszisztensek és a teljesen digitális számlafizető ügyintézők mozgatórugóihoz, akiknek módszerei - bár bosszantóak - még mindig csodálatosak, ha nem gondolkodnak azokra a munkákra, amelyekbe belementek.


Most néhány vállalat túllép az általános virtuális hangon, hogy pontosabb, személyre szabott eredményt készítsen. Ehhez szükség van egy adott személy lexikonjának átgyűjtésére, nagy mennyiségű egyedi hang videó összegyűjtésére, majd az archívum alkalmazására a fonetika, a hangsúly, a kadencia és az összes többi apró jelszó összetett ritmusában, amelyet a nyelvészek gyakran a "proszódia" széles címe alatt csoportosítanak.


Kiderül egy olyan hang, amelyet a hallgatók egy adott személy "tulajdonában" tartanak - akár valakit, akit ismernek és beszélgettek, vagy valaki, akinek a hangját az adott személy hírneve miatt felismeri.


Elvistől Martin Luther Kingig bárki hangja így "klónozható" - feltéve, hogy beszédének jelentős előre rögzített felvétele van. Az egyes kisebb hangok még részletesebb elemzésének és manipulációjának alkalmazásával a vállalatok képesek virtuális szén-másolatot készíteni valakinek a hangjáról, amely nagyon hasonlít az igazihoz.

Izgalmas "Szöveg a hangba" alkotások a VivoTextnél

Például a VivoText olyan vállalat, amely forradalmasítja a mesterséges emberi hangok használatát mindenféle kampányban, az audiokönyvektől az interaktív hangos válaszokig (IVR). A VivoTextnél a kutató- és produkciós csapatok azon folyamatokon dolgoznak, amelyek elméletileg kifejezetten megismételhetik az elhunyt hírességek hangját, mint például az Ol 'Blue Eyes.


"Ha Frank Sinatra hangját klónozzuk, akkor valójában át fogjuk vetni a rögzített örökségünket" - mondja Gershon Silbert a VivoText vezérigazgatója és arról beszélt, hogy egy ilyen technológia hogyan működhetne.


Jelenleg a VivoText azon személyek hangjainak archiválásán dolgozik, akik még velünk vannak, például Neal Conan, az NPR tudósítója, aki mintát írt alá egy ilyen informatikai úttörő projekt számára. Egy promóciós videó bemutatja, hogy a VivoText munkatársai lelkiismeretesen fonetikus kódmodelleket készítenek a Conan által biztosított hangbemenet felhasználásával. Ezután elkészítik a modelleket a szöveg-beszéd (TTS) eszközökhöz, amelyek drámai módon emberi és személyes eredményt eredményeznek.


Ben Feibleman, a VivoText stratégiai és üzleti fejlesztési alelnöke szerint a számítógép foném szinten működik (a beszéd legkisebb egyedi részeit felhasználva), hogy megfeleljen az egyéni emberi hang proszodikus modelljének.


"Tudja, hogyan beszél a hang" - mondja Feibleman, és hozzáteszi, hogy az "egységek kiválasztása" segítségével a számítógép számos darabot választ, hogy egyetlen rövid szót összeállítson, például amikor a "péntek" szó öt összetevőt ad, amelyek segítenek a fejlődésben különös hangsúly és tonális eredmény.

Mesterséges hang a marketingben

Szóval, hogyan működik ez a marketingben? A VivoText termékei rendkívül hasznosak lehetnek olyan termékek létrehozásában, mint például audiokönyvek, amelyek elérhetik a célközönséget. Például, mennyivel hatékonyabb lenne az Elvis hangja a mai általános, halott, automatikus hangokhoz képest, ha szórakoztatással kapcsolatos termékek eladására használnák?


Vagy mi lenne a politikában? A Feibleman különféle ötleteken dolgozott az ilyen projektek felhasználásával, hogy fokozza a hatékonyabb üzenetküldést igénylő cégek vagy más felek marketingjét.


"Ha tud valamelyik elnököt képviselő politikát, akkor 10 millió swing-állampolgár kaphat egy személyes felhívást egy jelölttől, megköszönve támogatásaikat, megmondja nekik, hova kell szavazniuk, az időjárás és az összes aprólék. éjjel a választások előtt "- mondta Feibleman.

A hangod tovább él

Van egy másik nyilvánvaló alkalmazás erre a technológiára. Az olyan természetes nyelvű társaságok, mint a VivoText, létrehozhatnak egy személyes szolgáltatást, amely feltölti az ügyfél összes hanginformációját egy termékbe, amely lehetővé teszi az adott személy számára, hogy "örökké beszéljen".


A gyakorlati megvalósítás valószínűleg számos kérdést vet fel azzal kapcsolatban, hogyan halljuk és internalizáljuk a beszélt hangokat. Például, mi szükséges ahhoz, hogy egy hangfolyam pontosan úgy hangzzon, mint valaki? Mennyire kell tudnunk egy embert, hogy felismerje egy adott hangot? És érdekes módon mi történik, ha a természetes nyelvi szolgálat nyers karikatúrát készít, nem pedig kényszerítő utánozást?


Feibleman szerint az eredmények értékelése gyakran a kontextus figyelembevételétől függ. Például azt mondja, hogy a gyerekek általában nem kérdeznek arról, hogy ki beszél, amikor egy történetet hallgatnak. Csak többet akarnak. Ugyanakkor sok felnőtt nem gondol arra, hogy ki beszél vele, adott forgatókönyv, például passzív adás vagy telefonüzenet alapján. Ezenkívül könnyebb becsapni egy számítógépet telefonon keresztül, mert a tompa hang elfedheti a számítógép eredményeinek és az emberi hang közötti csillogásokat vagy egyéb eltéréseket.


"Önnek nem előfordul, hogy megkérdőjelezi a hang hitelességét" - mondja Feibleman.

A 2525-ös évben

Ahogy a vállalatok haladnak a termékek és szolgáltatások fejlesztésében, és ezekre a kérdésekre válaszolnak, az „élő beszéd” technológiák előreléphetnek a technológia és az emberi elme azon konvergenciája felé, amelyet klasszikusan mesterséges intelligenciának (AI) hívnak.


Ha a számítógépek úgy beszélnek, mint mi, akkor becsaphatják a többi felhasználót arra, hogy azt gondolják, hogy úgy gondolnak, mint mi, és belemennek a szingularitás nagyobb elvébe, ahogyan John von Neumann, az 1950-es évek korszakában az írók által evangelizált műszaki úttörő bevezette a lexikomba. és olyan gondolkodók, mint Ray Kurzweil. Kurzweil 2005-ös, "Az egyediség közel áll" című könyve néhányat izgat, és másokat félek. Kurzweil azt jósolta, hogy 2045-re az "intelligencia" mint jelenség nagymértékben megszabadul az emberi agytól, és a technológiába vándorol, és elmossa a vonalakat a gépek és embereik között.


Halhatatlanná vált Zager & Evans "Az 2525-ös év" dalszövegében (senki sem csinál olyan hátborzongató sci-fi balladákat, mint ezek a srácok) …


4545-ben

Nem kell fogaid, nem is kell

a szemeid

Nem fogsz rágni

Senki nem néz rád


5555-ben

A karod végén lóg

A lábadnak nem kell tennie

Valami gép ezt csinálja neked


A számítógépes hangok egy lépés ebben az irányban? Az emberi test egyes funkcióinak kiszervezésének új módjaként (vagy még inkább szimulációként) az ilyen típusú technológiai fejlődés az egyik legnagyobb - és valószínűleg kevésbé bejelentett - előrelépés a láthatáron, amikor egy egyedi jövőbe tekintünk. . (arról, hogy a számítógépek képesek-e utánozni az emberi elmét?

Halott embereket hallok? A természetes nyelv tech életre kelti a múlt és a jelen hangját