D'Zuel vun den Uwendungen an d'Wichtegkeet vun de Stëmminterfaces wiisst séier
vun den Technologien

D'Zuel vun den Uwendungen an d'Wichtegkeet vun de Stëmminterfaces wiisst séier

Eng amerikanesch Famill zu Portland, Oregon huet viru kuerzem geléiert datt dem Alex seng Stëmmassistent hir privat Chats opgeholl huet an se un e Frënd geschéckt huet. D'Besëtzer vum Haus, genannt Danielle vun de Medien, huet d'Reporter gesot datt si "deen Apparat ni méi géif uschléissen well hatt net trauen kann."

Alexa, zur Verfügung gestallt vun Echo (1) Spriecher an aner Gadgeten an zéngdausende vu Millioune US Haiser, fänkt opzehuelen wann et säin Numm héiert oder "Uruff Wuert" vum Benotzer geschwat. Dëst bedeit datt och wann d'Wuert "Alexa" an enger TV Annonce ernimmt gëtt, kann den Apparat ufänken opzehuelen. Dat ass genee wat an dësem Fall geschitt ass, seet Amazon, den Hardware Distributeur.

"De Rescht vum Gespréich gouf vum Stëmmassistent interpretéiert als e Kommando fir e Message ze schécken", sot d'Firma an enger Ausso. "Irgendwann huet d'Alexa haart gefrot: "Fir wiem?" D'Fortsetzung vum Familljegespréich iwwer Holzbuedem sollt vun der Maschinn als Element op der Kontaktlëscht vum Client ugesi ginn. Op d'mannst ass dat wat Amazon mengt. Sou gëtt d'Iwwersetzung op eng Serie vun Accidenter reduzéiert.

D'Besuergnëss bleift awer. Well aus iergendengem Grond, an engem Haus, wou mir eis nach wuel gefillt hunn, musse mir an eng Aart vu "Stëmmmodus" goen, kucken wat mir soen, wat den Fernseh iwwerdréit an natierlech wat dësen neie Lautsprecher op der Broscht huet. Tiräng seet. eis.

Allerdéngs, Trotz technologesche Mängel a Privatsphär Bedenken, mat der Erhéijung vun der Popularitéit vun Apparater wéi den Amazon Echo, fänken d'Leit un d'Iddi ze gewinnt mat Computeren mat hirer Stëmm ze interagéieren..

Wéi de Werner Vogels, CTO vun Amazon, während senger AWS re:Invent Sessioun am spéiden 2017 bemierkt huet, huet d'Technologie bis elo eis Fäegkeet limitéiert fir mat Computeren ze interagéieren. Mir tippen Schlësselwieder op Google mat der Tastatur, well dëst nach ëmmer deen allgemengsten an einfachste Wee ass fir Informatioun an eng Maschinn anzeginn.

Vogels gesot. -

grouss véier

Wann Dir d'Google Sichmotor um Telefon benotzt, hu mir wahrscheinlech e Mikrofonschëld mat engem Uruff fir ze schwätzen viru laanger Zäit gemierkt. Dëst Google elo (2), déi eng Sichfro diktéiere kann, e Message per Stëmm aginn, etc. An de leschte Joeren hunn Google, Apple an Amazon sech staark verbessert Stëmm Unerkennung Technologie. Stëmmassistente wéi Alexa, Siri a Google Assistant notéieren net nëmmen Är Stëmm, awer verstinn och wat Dir hinnen seet a Froen beäntweren.

Google Now ass gratis fir all Android Benotzer verfügbar. D'Applikatioun kann zum Beispill en Alarm setzen, d'Wiederprevisioun kontrolléieren an d'Streck op Google Maps kontrolléieren. Gespréichsverlängerung vu Google Now Staaten Google Assistant () - virtuell Hëllef fir de Benotzer vun der Ausrüstung. Et ass haaptsächlech op mobilen a Smart Home Geräter verfügbar. Am Géigesaz zu Google Now kann et un engem Zwee-Wee-Austausch deelhuelen. Den Assistent debutéiert am Mee 2016 als Deel vun der Google Messagerie App Allo, souwéi am Google Home Voice Speaker (3).

3. Google Home

Den IOS System huet och säin eegene virtuellen Assistent, Siri, wat e Programm ass, deen mat den Apple Betribssystemer iOS, watchOS, tvOS Homepod a macOS abegraff ass. Siri debutéiert mat iOS 5 an den iPhone 4s am Oktober 2011 op der Let's Talk iPhone Konferenz.

D'Software baséiert op engem Gespréichsinterface: et erkennt d'natierlech Ried vum Benotzer (mat iOS 11 ass et och méiglech Kommandoen manuell anzeginn), beäntwert Froen a fëllt Aufgaben of. Dank der Aféierung vun Maschinn Léieren, en Assistent iwwer Zäit analyséiert perséinlech Virléiften de Benotzer fir méi relevant Resultater a Empfehlungen ze bidden. Siri erfuerdert eng konstant Internetverbindung - d'Haaptquellen vun Informatioun hei sinn Bing a Wolfram Alpha. iOS 10 huet Ënnerstëtzung fir Drëtt Partei Extensiounen agefouert.

Eng aner vun de grousse véier Cortana. Et ass en intelligenten perséinlechen Assistent erstallt vu Microsoft. Et gëtt op Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android an iOS Plattformen ënnerstëtzt. Cortana gouf fir d'éischt op der Microsoft Build Developer Conference am Abrëll 2014 zu San Francisco agefouert. Den Numm vum Programm kënnt vum Numm vun engem Charakter aus der Halo Spill Serie. Cortana ass verfügbar op Englesch, Italienesch, Spuenesch, Franséisch, Däitsch, Chinesesch a Japanesch.

Benotzer vun der schonn ernimmt Programm Alexa si mussen och Sprooch Restriktiounen betruecht - den digitale Assistent schwätzt nëmmen Englesch, Däitsch, Franséisch a Japanesch.

Den Amazon Virtual Assistant gouf fir d'éischt am Amazon Echo an Amazon Echo Dot Smart Spriecher benotzt, entwéckelt vum Amazon Lab126. Et erméiglecht Stëmminteraktioun, Museksplayback, To-Do Lëscht Kreatioun, Alarm Astellung, Podcast Streaming, Audiobook Playback, an Echtzäit Wieder, Traffic, Sport an aner Neiegkeeten Informatioun wéi Neiegkeeten (4). Alexa kann verschidde Smart Geräter kontrolléieren fir en Heemautomatiséierungssystem ze kreéieren. Et kann och benotzt ginn fir praktesch Shopping am Amazon Store ze maachen.

4. Wat d'Benotzer Echo benotzen fir (No Fuerschung)

D'Benotzer kënnen d'Alexa Erfarung verbesseren andeems se Alexa "Fäegkeeten" installéieren (), zousätzlech Funktiounen entwéckelt vun Drëttubidder, méi heefeg als Apps bezeechent wéi Wieder- an Audioprogrammer an aneren Astellungen. Déi meescht Alexa Apparater erlaben Iech Äre virtuellen Assistent mat engem Wake-up Passwuert ze aktivéieren, genannt .

Amazon dominéiert definitiv de Smart Speaker Maart haut (5). IBM, deen am Mäerz 2018 en neie Service agefouert huet, probéiert déi Top véier anzeginn Watson Assistent, entwéckelt fir Firmen déi hir eege Systemer vu virtuellen Assistenten mat Stëmmkontrolle erstellen wëllen. Wat ass de Virdeel vun der IBM Léisung? No Firmevertrieder, éischtens, op vill méi grouss Méiglechkeeten fir Personaliséierung a Privatsphärschutz.

Als éischt ass Watson Assistant net markéiert. Firme kënnen hir eege Léisungen op dëser Plattform erstellen an se mat hirer eegener Mark markéieren.

Zweetens, si kënnen hir Hëllefssystemer mat hiren eegene Datesets trainéieren, wat IBM seet, et mécht et méi einfach Features a Kommandoen zu deem System ze addéieren wéi aner VUI (Stëmm User Interface) Technologien.

Drëttens, Watson Assistant liwwert IBM keng Informatioun iwwer d'Benotzeraktivitéit - Entwéckler vu Léisungen op der Plattform kënnen nëmme wäertvoll Daten fir sech selwer halen. Mëttlerweil soll jiddereen deen Apparater baut, zum Beispill mat Alexa, bewosst sinn datt hir wäertvoll Donnéeën op Amazon kommen.

Watson Assistant huet scho verschidde Implementatiounen. De System gouf zum Beispill vum Harman benotzt, deen e Stëmmassistent fir de Maserati Konzeptauto (6) erstallt huet. Um Münchener Fluchhafen, en IBM Assistent dréit e Pepper Roboter fir d'Passagéier ze hëllefen ronderëm ze beweegen. Dat drëtt Beispill ass Chameleon Technologies, wou Stëmm Technologie an engem Smart Home Meter benotzt gëtt.

6. Watson Assistent an engem Maserati Konzept Auto

Et ass derwäert derbäi ze sinn datt déi Basisdaten Technologie hei och net nei ass. Watson Assistant enthält Verschlësselungsfäegkeeten fir existent IBM Produkter, Watson Conversation, a Watson Virtual Agent, souwéi APIs fir Sproochanalyse an Chat.

Amazon ass net nëmmen e Leader an der Smart Stëmm Technologie, mee mécht et an en direkten Geschäft. Wéi och ëmmer, e puer Firmen hu vill méi fréi mat Echo Integratioun experimentéiert. Sisense, eng Firma an der BI an der Analyseindustrie, huet d'Echo Integratioun am Juli 2016 agefouert. Am Tour, Startup Roxy decidéiert seng eege Stëmm-kontrolléiert Software an Hardware fir Gaaschtfrëndlechkeet Industrie ze schafen. Virdrun dëst Joer huet Synqq eng Notizapplikatioun agefouert déi Stëmm an natierlech Sproochveraarbechtung benotzt fir Notizen a Kalennerentréeën ze addéieren ouni se op enger Tastatur ze tippen.

All dës kleng Entreprisen hunn héich Ambitiounen. Virun allem hunn se awer geléiert, datt net all Benotzer hir Donnéeën op Amazon, Google, Apple oder Microsoft iwwerdroe wëll, déi déi wichtegst Akteuren am Bau vu Stëmmkommunikatiounsplattformen sinn.

Amerikaner wëllen kafen

Am Joer 2016 huet d'Stëmm Sich 20% vun all Google Mobile Sich ausgemaach. Leit, déi dës Technologie alldeeglech benotzen, zitéieren seng Komfort a Multitasking zu senge gréisste Virdeeler. (zum Beispill d'Fäegkeet fir eng Sichmotor ze benotzen wann Dir en Auto fiert).

Visiongain Analysten schätzen den aktuelle Maartwäert vun intelligenten digitalen Assistenten op $ 1,138 Milliarden Et gi méi a méi esou Mechanismen. Laut Gartner, bis Enn 2018 schonn 30% vun eisen Interaktiounen mat Technologie wäert duerch Gespréicher mat Stëmm Systemer ginn.

Déi britesch Fuerschungsfirma IHS Markit schätzt datt de Maart fir AI-ugedriwwen digital Assistenten bis Enn vun dësem Joer 4 Milliarden Apparater wäert erreechen, an dës Zuel kéint bis 2020 op 7 Milliarde eropgoen.

Laut Berichter vun eMarketer a VoiceLabs hunn 2017 Milliounen Amerikaner Stëmmkontroll op d'mannst eemol am Mount am Joer 35,6 benotzt. Dat heescht eng Hausse vu bal 130% am Verglach zum Joer virdrun. Den digitale Assistentmaart eleng gëtt erwaart ëm 2018% am 23 ze wuessen. Dëst bedeit datt Dir se scho benotzt. 60,5 Milliounen Amerikaner, wat konkret Sue fir hir Produzenten entstinn. RBC Capital Markets schätzt datt d'Alexa Interface bis zu 2020 Milliarden Dollar u Recetten fir Amazon bis 10 generéiert.

Wäschen, baken, botzen!

Stëmm Schnëttplazen ginn ëmmer méi fett an d'Hausapparaten a Konsumentelektronik Mäert. Dat konnt ee scho bei der Ausstellung vun der IFA 2017 vum leschte Joer gesinn. Déi amerikanesch Firma Neato Robotics huet zum Beispill e Roboter Staubsauger agefouert, deen un eng vun e puer Smart Home Plattforme verbënnt, dorënner den Amazon Echo System. Andeems Dir mam Echo Smart Speaker schwätzt, kënnt Dir d'Maschinn instruéieren Äert ganzt Haus zu spezifeschen Zäiten vum Dag oder Nuecht ze botzen.

Aner Stëmm-aktivéiert Produkter goufen op der Show gewisen, rangéiert vu Smart TVs, déi ënner der Mark Toshiba vun der tierkescher Firma Vestel verkaaft ginn, bis gehëtzt Decken vun der däitscher Firma Beurer. Vill vun dësen elektroneschen Apparater kënnen och op afstand mat Smartphones aktivéiert ginn.

Wéi och ëmmer, laut Bosch Vertrieder, ass et ze fréi ze soen wéi eng vun den Heemassistentoptiounen dominant ginn. Op IFA 2017 huet en däitschen technesche Grupp Wäschmaschinnen (7), Uewen a Kaffismaschinnen gewisen, déi mam Echo verbannen. Bosch wëll och datt seng Geräter an Zukunft mat Google an Apple Stëmmplattformen kompatibel sinn.

7. Bosch Wäschmaschinn déi mat Amazon Echo verbënnt

Firmen wéi Fujitsu, Sony a Panasonic entwéckelen hir eege AI-baséiert Stëmmassistentléisungen. Sharp füügt dës Technologie un Uewen a kleng Roboteren, déi op de Maart kommen. Nippon Telegraph & Telephone stellt Hardware- a Spillsaacher fir e Stëmmkontrolléierte kënschtlechen Intelligenz System unzepassen.

Alt Konzept. Huet hir Zäit endlech komm?

Tatsächlech ass d'Konzept vu Voice User Interface (VUI) zënter Joerzéngte ronderëm. Jiddereen, deen Star Trek oder 2001: A Space Odyssey viru Joeren nogekuckt huet, huet wahrscheinlech erwaart datt mir ëm d'Joer 2000 all Computer mat eise Stëmme géife kontrolléieren. Och et waren net nëmmen Science Fiction Schrëftsteller déi d'Potenzial vun dëser Aart vun Interface gesinn. Am Joer 1986 hunn Nielsen Fuerscher IT Fachleit gefrot wat se geduecht hunn déi gréissten Ännerung vun de Benotzerinterfaces bis d'Joer 2000 wier. Si hunn am meeschten op d'Entwécklung vu Stëmminterfaces uginn.

Et gi Grënn op esou eng Léisung ze hoffen. Verbal Kommunikatioun ass schliisslech den natierlechste Wee fir d'Leit bewosst Gedanken auszetauschen, sou datt et fir Mënsch-Maschinn Interaktioun ze benotzen schéngt wéi déi bescht Léisung bis elo.

Ee vun den éischte VUIs, genannt Schongkëscht, gouf am fréie 60er vun IBM geschaf. Et war de Virleefer vun den haitegen Stëmmerkennungssystemer. Wéi och ëmmer, d'Entwécklung vu VUI Geräter war limitéiert duerch d'Limite vun der Rechenkraaft. D'Analyse an d'Interpretatioun vun der mënschlecher Ried an Echtzäit erfuerdert vill Effort, an et huet méi wéi fofzeg Joer gedauert bis zum Punkt wou et tatsächlech méiglech gouf.

Apparater mat enger Stëmm Interface ugefaang an der Mass Produktioun an der Mëtt vun den 90er ze erschéngen, awer net Popularitéit gewannen. Den éischten Telefon mat Stëmm Kontroll (wielen) war Philips Spark1996 verëffentlecht. Wéi och ëmmer, dësen innovativen an einfach ze benotzen Apparat war net fräi vun technologeschen Aschränkungen.

Aner Telefone equipéiert mat Forme vu Stëmm Interface (erstallt vu Firmen wéi RIM, Samsung oder Motorola) reegelméisseg op de Maart kommen, wat d'Benotzer erlaabt mat Stëmm ze ruffen oder SMSen ze schécken. All vun hinnen awer erfuerdert d'Erënnerung vun spezifesche Kommandoen an d'Aussoen an enger gezwongener, kënschtlecher Form, ugepasst un d'Fähigkeiten vun den Apparater vun där Zäit. Dëst generéiert eng grouss Zuel vu Feeler, déi, am Tour, zu Benotzer Onzefriddenheet gefouert.

Wéi och ëmmer, mir ginn elo eng nei Ära vum Informatik an, an där Fortschrëtter am Maschinnléieren an der Entwécklung vu kënschtlecher Intelligenz d'Potenzial vum Gespréich als en neie Wee fir mat Technologie ze interagéieren (8). D'Zuel vun Apparater déi Stëmm Interaktioun ënnerstëtzen ass e wichtege Faktor ginn, deen e groussen Impakt op d'Entwécklung vu VUI hat. Haut besëtzt bal 1/3 vun der Weltbevëlkerung schonn Smartphones, déi fir dës Zort Verhalen benotzt kënne ginn. Et gesäit aus wéi déi meescht Benotzer endlech prett sinn hir Stëmm Interfaces unzepassen.

8. Modern Geschicht vun der Entwécklung vun der Stëmm Interface

Ier mer awer fräi mat engem Computer kënne schwätzen, wéi d'Personnagen vun A Space Odyssey dat gemaach hunn, musse mir eng Rei Problemer iwwerwannen. Maschinnen sinn nach ëmmer net ganz gutt am Ëmgang mat sproochleche Nuancen. Ausserdeem vill Leit fillen sech nach ëmmer onwuel fir Stëmmbefehle fir eng Sichmotor ze ginn.

Statistike weisen datt Stëmmassistenten haaptsächlech doheem oder ënner gudde Frënn benotzt ginn. Keen vun deenen Interviewten huet zouginn Stëmm Sich op ëffentleche Plazen ze benotzen. Wéi och ëmmer, dës Blockade wäert méiglecherweis mat der Verbreedung vun dëser Technologie verschwannen.

technesch schwéier Fro

De Problem deen Systemer (ASR) konfrontéiert ass, ass nëtzlech Daten aus engem Riedssignal extrahéiert an et mat engem bestëmmte Wuert assoziéiert dat eng gewësse Bedeitung fir eng Persoun huet. Déi produzéiert Kläng sinn all Kéier anescht.

Speech Signal Variabilitéit ass seng natierlech Eegentum, duerch déi mir zum Beispill en Akzent oder Intonatioun erkennen. All Element vum Riederkennungssystem huet eng spezifesch Aufgab. Baséierend op de veraarbechte Signal a sengen Parameteren gëtt en akustesche Modell erstallt, dee mam Sproochemodell assoziéiert ass. Den Unerkennungssystem kann op der Basis vun enger klenger oder enger grousser Zuel vu Mustere funktionnéieren, wat d'Gréisst vum Vocabulaire bestëmmt, mat deem et funktionnéiert. Si kënne sinn kleng Dictionnairen am Fall vu Systemer déi eenzel Wierder oder Kommandoen erkennen, wéi och grouss Datenbanken déi den Äquivalent vum Sproochset enthält an de Sproochemodell (Grammatik) berücksichtegt.

Problemer mat Stëmm Schnëttplazen an der éischter Plaz konfrontéiert Ried richteg verstoen, an deenen zum Beispill ganz grammatesch Sequenzen oft ewech gelooss ginn, sproochlech a phonetesch Feeler, Feeler, Ausléisungen, Riedsfehler, Homonyme, ongerechtfäerdegt Wiederholungen, asw.All dës ACP-Systemer mussen séier an zouverlässeg funktionnéieren. Op d'mannst sinn dat d'Erwaardungen.

D'Quell vu Schwieregkeeten sinn och akustesch Signaler aner wéi déi unerkannt Ried, déi an den Input vum Unerkennungssystem erakommen, d.h. all Zorte Stéierungen a Kaméidi. Am einfachsten Fall braucht Dir se ausfilteren. Dës Aufgab schéngt routinéiert an einfach - schliisslech gi verschidde Signaler gefiltert an all Elektronikingenieur weess wat an esou enger Situatioun ze maachen. Dëst muss awer ganz virsiichteg a virsiichteg gemaach ginn, wann d'Resultat vun der Riederkennung eis Erwaardungen entsprécht.

Déi aktuell benotzt Filterung mécht et méiglech, zesumme mam Riedssignal, den externen Kaméidi, deen vum Mikro opgeholl gëtt, an déi intern Eegeschafte vum Riedssignal selwer ze läschen, wat et schwéier mécht et z'erkennen. Wéi och ëmmer, e vill méi komplexe technesche Problem entsteet wann d'Interferenz vum analyséierte Riedssignal ... en anert Riedssignal ass, dat ass zum Beispill haart Diskussiounen ronderëm. Dës Fro ass an der Literatur bekannt als de sougenannte . Dëst erfuerdert schonn d'Benotzung vu komplexe Methoden, de sougenannte. deconvolution (enraveling) d'Signal.

D'Problemer mat der Riederkennung sinn net do. Et ass derwäert ze realiséieren datt Ried vill verschidden Aarte vun Informatioun bréngt. D'mënschlech Stëmm proposéiert d'Geschlecht, den Alter, verschidde Charaktere vum Besëtzer oder den Zoustand vu senger Gesondheet. Et gëtt eng extensiv Departement vun der biomedizinescher Ingenieur, déi sech mat der Diagnostik vu verschiddene Krankheeten beschäftegt op Basis vun de charakteristesche akustesche Phänomener, déi am Riedssignal fonnt ginn.

Et ginn och Uwendungen wou den Haaptzweck vun der akustescher Analyse vun engem Riedssignal ass de Spriecher z'identifizéieren oder z'iwwerpréiwen datt hien ass wien hie behaapt ze sinn (Stëmm amplaz Schlëssel, Passwuert oder PUK Code). Dëst kann wichteg sinn, besonnesch fir Smart Building Technologien.

Den éischte Bestanddeel vun engem Riederkennungssystem ass микрофон. Wéi och ëmmer, d'Signal, déi vum Mikrofon opgeholl gëtt, bleift normalerweis vu wéineg Notzung. D'Studien weisen datt d'Form an d'Verlaf vun der Tounwell immens variéieren jee no der Persoun, der Geschwindegkeet vun der Ried an deelweis d'Stëmmung vum Gespréichspartner - während se zu engem klengen Deel den Inhalt vun de geschwatene Kommandoen reflektéieren.

Dofir muss d'Signal richteg veraarbecht ginn. Modern Akustik, Phonetik an Informatik bidden zesummen e räiche Set vun Tools, déi benotzt kënne fir e Riedsignal ze veraarbechten, analyséieren, erkennen a verstoen. Den dynamesche Spektrum vum Signal, de sougenannte dynamesch Spektrogramme. Si sinn zimlech einfach ze kréien, a Ried presentéiert a Form vun engem dynamesche Spektrogramm ass relativ einfach ze erkennen mat Techniken ähnlech wéi déi, déi an der Bilderkennung benotzt ginn.

Einfach Elementer vu Ried (zum Beispill Kommandoen) kënnen duerch déi einfach Ähnlechkeet vu ganz Spektrogramme erkannt ginn. Zum Beispill, e Stëmm-aktivéierten Handy Dictionnaire enthält nëmmen e puer Zénger bis e puer honnert Wierder an Ausdréck, normalerweis virgestackelt sou datt se einfach an effizient identifizéiert kënne ginn. Dëst ass genuch fir einfach Kontrollaufgaben, awer et limitéiert d'Gesamtapplikatioun staark. Systemer gebaut no dem Schema, als Regel, ënnerstëtzen nëmmen spezifesch Spriecher fir déi Stëmmen speziell trainéiert sinn. Also wann et een Nei ass, deen hir Stëmm benotze wëll fir de System ze kontrolléieren, wäerte se héchstwahrscheinlech net ugeholl ginn.

D'Resultat vun dëser Operatioun gëtt genannt 2-W Spektrogramm, dat heescht en zweedimensionalen Spektrum. Et gëtt eng aner Aktivitéit an dësem Block op déi derwäert ass opmierksam ze maachen - Segmentatioun. Am allgemengen schwätze mir iwwer d'Opdeelung vun engem kontinuéierleche Riedssignal an Deeler déi separat erkannt kënne ginn. Nëmmen aus dësen individuellen Diagnosen gëtt d'Unerkennung vum Ganzen gemaach. Dës Prozedur ass néideg, well et net méiglech ass eng laang a komplex Ried an engem Wee z'identifizéieren. Ganz Bänn si scho geschriwwe ginn iwwer wéi eng Segmenter an engem Riedssignal z'ënnerscheeden, also wäerte mir elo net entscheeden ob déi ënnerscheet Segmenter Phoneme (Tounekvivalenter), Silben oder vläicht Allophone solle sinn.

De Prozess vun der automatescher Unerkennung bezitt sech ëmmer op e puer Features vun Objeten. Honnerte vu Sätze vu verschiddene Parameteren goufen fir d'Riedsignal getest.D'Riedssignal huet an unerkannten Rummen opgedeelt an hunn ausgewielt Funktiounenwoubäi dës Rummen am Unerkennungsprozess presentéiert ginn, kënne mir ausféieren (fir all Frame separat) Kategoriséierung, d.h. en Identifizéierer fir de Frame ze ginn, deen et an Zukunft wäert representéieren.

Nächst Etapp Versammlung vu Rummen an getrennte Wierder - meeschtens baséiert op de sougenannte. Modell vun implizit Markov Modeller (HMM-). Da kënnt d'Montage vu Wierder komplett Sätz.

Mir kënnen elo fir e Moment op den Alexa System zréckkommen. Säi Beispill weist e Multi-Etapp Prozess vum Maschinn "Verstoe" vun enger Persoun - méi präzis: e Kommando vun him oder eng Fro gefrot.

Wierder verstoen, Bedeitung verstoen, a Benotzer Absicht verstoen si komplett verschidde Saachen.

Dofir ass de nächste Schrëtt d'Aarbecht vum NLP Modul (), d'Aufgab vun deem ass Benotzer Absicht Unerkennung, d.h. d'Bedeitung vum Kommando/Fro am Kontext an deem se geäntwert gouf. Wann d'Intent identifizéiert gëtt, dann Aufgab vu sougenannte Fäegkeeten a Fäegkeeten, dh déi spezifesch Feature ënnerstëtzt vum Smart Assistent. Am Fall vun enger Fro iwwer d'Wieder ginn d'Wiederdatenquelle genannt, déi nach a Ried veraarbecht ginn (TTS - Mechanismus). Als Resultat héiert de Benotzer d'Äntwert op d'Fro.

Stëmm? Grafiken? Oder vläicht béid?

Déi meescht bekannt modern Interaktiounssystemer baséieren op engem Tëschestatioun genannt grafesch User Interface (grafesch Interface). Leider ass d'GUI net de offensichtlechste Wee fir mat engem digitale Produkt ze interagéieren. Dëst erfuerdert datt d'Benotzer als éischt léiere wéi se d'Interface benotzen an dës Informatioun mat all spéider Interaktioun erënneren. A ville Situatiounen ass d'Stëmm vill méi bequem, well Dir kënnt mat der VUI interagéieren andeems Dir einfach mam Apparat schwätzt. En Interface deen d'Benotzer net forcéiert fir bestëmmte Kommandoen oder Interaktiounsmethoden ze memoriséieren an ze memoriséieren verursaacht manner Probleemer.

Natierlech bedeit d'Expansioun vu VUI net méi traditionell Schnëttplazen opzeginn - éischter, Hybrid Schnëttplazen wäerten verfügbar sinn déi verschidde Weeër fir ze interagéieren.

D'Stëmm-Interface ass net gëeegent fir all Aufgaben an engem mobilen Kontext. Mat et wäerte mir e Frënd ruffen, deen en Auto dreift, a schécken him souguer eng SMS, awer d'Kontroll vun de leschten Transfere kann ze schwéier sinn - wéinst der Quantitéit vun Informatioun, déi an de System iwwerdroen gëtt () a vum System (System) generéiert. Wéi d'Rachel Hinman an hirem Buch Mobile Frontier seet, gëtt d'Benotzung vu VUI am effektivsten wann Dir Aufgaben ausféiert wou d'Quantitéit vun Input- an Outputinformatioun kleng ass.

E Smartphone verbonne mam Internet ass bequem awer och onbequem (9). All Kéier wann e Benotzer eppes wëllt kafen oder en neie Service benotzen, muss se eng aner App eroflueden an en neie Kont erstellen. E Feld fir d'Benotzung an d'Entwécklung vu Stëmminterfaces ass hei erstallt ginn. Amplaz d'Benotzer ze forcéieren fir vill verschidden Apps z'installéieren oder separat Konten fir all Service ze kreéieren, soen Experten VUI wäert d'Belaaschtung vun dësen ëmständlechen Aufgaben op en AI-ugedriwwen Stëmmassistent verréckelen. Et wäert him bequem sinn ustrengend Aktivitéiten auszeféieren. Mir ginn him nëmmen Uerder.

9. Stëmm Interface via Smart Telefon

Haut si méi wéi nëmmen en Telefon an e Computer mam Internet ugeschloss. Smart Thermostate, Luuchten, Kettel a vill aner IoT-integréiert Geräter sinn och mam Netz verbonnen (10). Sou ginn et drahtlose Geräter ronderëm eis, déi eist Liewen fëllen, awer net all passen natierlech an d'grafesch User-Interface. VUI benotzen hëlleft Iech se einfach an eis Ëmfeld z'integréieren.

10. Stëmm Interface mam Internet vun Saachen

Eng Stëmm User Interface erstellen wäert geschwënn eng Schlëssel Designer Fäegkeet ginn. Dëst ass e richtege Problem - d'Bedierfnes fir Stëmmsystemer ëmzesetzen wäert Iech encouragéieren méi op proaktiven Design ze fokusséieren, dat ass, probéiert déi initial Intentioune vum Benotzer ze verstoen, hir Bedierfnesser an Erwaardungen op all Etapp vum Gespréich virauszesoen.

Voice ass en effiziente Wee fir Daten anzeginn - et erlaabt d'Benotzer séier Kommandoen un de System op hiren eegene Konditiounen auszeginn. Op der anerer Säit bitt den Ecran en effiziente Wee fir Informatioun ze weisen: et erlaabt Systemer eng grouss Quantitéit un Informatioun zur selwechter Zäit ze weisen, wat d'Belaaschtung op d'Erënnerung vun de Benotzer reduzéiert. Et ass logesch datt se an ee System kombinéieren encouragéiert kléngt.

Smart Spriecher wéi den Amazon Echo a Google Home bidden guer kee visuellen Display. Bedeitend d'Genauegkeet vun der Stëmmerkennung bei moderéierten Distanzen verbesseren, si erlaben Handfräi Operatioun, wat hir Flexibilitéit an Effizienz erhéicht - si wënschenswäert och fir Benotzer déi scho Smartphones mat Stëmmkontroll hunn. Wéi och ëmmer, de Mangel un engem Écran ass eng grouss Begrenzung.

Nëmmen Piep kann benotzt ginn fir d'Benotzer iwwer méiglech Kommandoen z'informéieren, an d'Ausgab haart ze liesen gëtt langweileg ausser fir déi meescht Basis Aufgaben. En Timer mat engem Stëmmbefehl setzen beim Kachen ass super, awer fir Iech ze froen wéi vill Zäit bleift ass net néideg. Eng reegelméisseg Wiederprevisioun ze kréien gëtt en Erënnerungstest fir de Benotzer, deen d'ganz Woch eng Serie vu Fakten muss nolauschteren an absorbéieren, anstatt se op ee Bléck vum Écran opzehuelen.

D'Designer hu schonn Hybrid Léisung, Echo Show (11), déi e Displaybildschierm zum Basis Echo Smart Speaker bäigefüügt huet. Dëst erweidert d'Funktionalitéit vun der Ausrüstung staark. Wéi och ëmmer, d'Echo Show ass nach ëmmer vill manner fäeg fir d'Basisfunktiounen auszeféieren déi laang op Smartphones a Pëllen verfügbar sinn. Et kann (nach) net um Internet surfen, Rezensiounen weisen oder den Inhalt vun engem Amazon Shopping Weenchen, zum Beispill.

E visuellen Affichage ass inherent eng méi effektiv Manéier fir de Leit e Räichtum vun Informatioun ze bidden wéi nëmmen Toun. Design mat Stëmm Prioritéit kann Stëmm Interaktioun immens verbesseren, mä op laang Siicht, arbiträr net de visuellen Menü fir d'Wuel vun Interaktioun benotzen wäert wéi mat enger Hand ze kämpfen hannert Ärem Réck gebonnen. Wéinst der dreiwender Komplexitéit vun end-to-end intelligente Stëmm- a Display-Interfaces, sollten d'Entwéckler eng Hybrid Approche fir Interfaces eescht berücksichtegen.

D'Erhéijung vun der Effizienz an der Geschwindegkeet vun der Riedgeneratioun an der Unerkennungssystemer huet et méiglech gemaach se an esou Uwendungen a Beräicher ze benotzen wéi zum Beispill:

• Militär (Stëmmbefehl a Fligeren oder Helikopteren, zum Beispill F16 VISTA),

• automatesch Texttranskriptioun (Ried op Text),

• interaktiv Informatiounssystemer (Prime Speech, Stëmmportaler),

• mobilen Apparater (Telefonen, Smartphones, Pëllen),

• Robotik (Cleverbot - ASR Systemer kombinéiert mat kënschtlecher Intelligenz),

• automobile (handfräi Kontroll vun Autoskomponenten, wéi Blue & Me),

• doheem Uwendungen (Smart doheem Systemer).

Opgepasst op Sécherheet!

Automotive, Hausgeräter, Heizung / Ofkillen an Heemsécherheetssystemer, an eng ganz Partie Hausgeräter fänken u Stëmminterfaces ze benotzen, dacks AI-baséiert. Op dëser Etapp ginn d'Donnéeën aus Millioune vu Gespréicher mat Maschinnen geschéckt Rechenwolleken. Et ass kloer datt d'Marketer an hinnen interesséiert sinn. An net nëmmen si.

E rezente Bericht vu Symantec Sécherheetsexperten recommandéiert datt d'Stëmmbefehl Benotzer keng Sécherheetsfeatures wéi Dierspären kontrolléieren, loosst se doheem Sécherheetssystemer. Datselwecht gëlt fir Passwierder oder vertraulech Informatioun ze späicheren. D'Sécherheet vu kënschtlecher Intelligenz a Smart Produkter ass nach net genuch studéiert.

Wann Apparater uechter d'Haus all Wuert lauschteren, gëtt de Risiko vum Hacking a Mëssbrauch vum System en extrem wichtegt Thema. Wann en Ugräifer Zougang zum lokalen Netzwierk oder seng assoziéiert E-Mail-Adressen kritt, kënnen d'Smart-Apparat-Astellunge geännert ginn oder op d'Fabrécksastellungen zréckgesat ginn, wat zu de Verloscht vu wäertvoll Informatioun an d'Läsche vun der Benotzergeschicht féiert.

An anere Wierder, Sécherheetsfachleit fäerten datt Stëmm-ugedriwwen AI a VUI nach net schlau genuch sinn fir eis vu potenziellen Bedrohungen ze schützen an eise Mond zou ze halen wann e Friemen eppes freet.

Setzt e Commentaire