Колькасць прыкладанняў і важнасць галасавых інтэрфейсаў хутка расце

Змест

Вялікая чацвёрка
амерыканцы хочуць купіць
Сціраць, пячы, прыбіраць!
Старая канцэпцыя. Няўжо яе час нарэшце нетутэйша?
Тэхнічна складанае пытанне
Голас? Графіка? Ці, можа, абодва?
Сачыце за бяспекай!

Амерыканская сям'я ў Портлендзе, штат Арэгон, нядаўна даведалася, што галасавы памочнік Алекса запісаў іх асабістыя чаты і адправіў іх сябру. Гаспадыня дома, якую СМІ празвалі Даніэль, заявіла журналістам, што "ніколі больш не будзе падключаць гэтую прыладу, таму што ёй нельга давяраць".

Alexa, які прадстаўляецца дынамікамі Echo (1) і іншымі гаджэтамі ў дзясятках мільёнаў хат у ЗША, пачынае запіс пасля таго, як пачуе сваё імя або «заклічнае слова», вымаўленае карыстачом. Гэта азначае, што нават калі слова "Alexa" згадваецца ў тэлевізійнай рэкламе, прылада можа пачаць запіс. Менавіта гэта і адбылося ў дадзеным выпадку, кажа Amazon, дыстрыбутар абсталявання.

"Астатняя частка размовы была інтэрпрэтаваная галасавым памочнікам як каманда адправіць паведамленне", – гаворыцца ў паведамленні кампаніі. «У нейкі момант Алекса гучна спытала: «Каму?» Працяг сямейнай гутаркі аб паркеце з цвёрдай драўніны павінна было быць успрынята машынай як пункт у спісе кантактаў кліента». Прынамсі, так лічыць Amazon. Такім чынам, перавод зводзіцца да чарады няшчасных выпадкаў.

Трывога, аднак, застаецца. Таму што з якой прычыны ў доме, дзе мы да гэтага часу адчувалі сябе ў сваёй талерцы, даводзіцца ўводзіць нейкі «галасавы рэжым», глядзець, што мы кажам, што транслюе тэлевізар і, вядома ж, што распавядае гэты новы дынамік на камодзе. . нас.

тым не менш, нягледзячы на недасканаласць тэхналогій і асцярогі з нагоды прыватнасці, з ростам папулярнасці такіх прылад, як Amazon Echo, людзі пачынаюць абвыкаць да ідэі ўзаемадзеяння з кампутарамі з дапамогай голасу..

Як адзначыў Вернер Фогельс, тэхнічны дырэктар Amazon, падчас сваёй сесіі AWS re: Invent ў канцы 2017 года, да гэтага часу тэхналогіі абмяжоўвалі нашы магчымасці ўзаемадзеяння з кампутарамі. Мы набіраем ключавыя словы ў Google з дапамогай клавіятуры, бо гэта ўсё яшчэ самы распаўсюджаны і просты спосаб уводу інфармацыі ў машыну.

- сказаў Фогельс. -

Вялікая чацвёрка

Пры выкарыстанні пошукавай сістэмы Google на тэлефоне мы напэўна даўно заўважылі тамака знак мікрафона з заклікам казаць. Гэты Google цяпер (2), з дапамогай якога можна прадыктаваць пошукавы запыт, увесці паведамленне голасам і т. д. За апошнія гады Google, Apple і Amazon значна палепшылі тэхналогіі распазнання голасу. Галасавыя памагатыя, такія як Alexa, Siri і Google Assistant, не толькі запісваюць ваш голас, але і разумеюць, што вы ім кажаце, і адказваюць на пытанні.

Google Now даступны бясплатна для ўсіх карыстальнікаў Android. Прыкладанне можа, напрыклад, ставіць будзільнік, правяраць прагноз надвор'я і маршрут на картах Google. Размоўнае пашырэнне станаў Google Now Google Асістэнт () - віртуальная дапамога карыстачу абсталявання. Ён даступны ў асноўным на мабільных прыладах і прыладах разумнага дома. У адрозненне ад Google Now, ён можа ўдзельнічаць у двухбаковым абмене. Памочнік дэбютаваў у маі 2016 года як частка прыкладання Google для абмену паведамленнямі Allo, а таксама ў галасавым дынаміцы Google Home (3).

3. Галоўная старонка Google

У сістэме IOS таксама ёсць свой віртуальны памагаты, Siri, гэта значыць праграма, якая ўваходзіць у склад аперацыйных сістэм Apple – iOS, watchOS, tvOS homepod і macOS. Siri дэбютавала з аперацыйнай сістэмай iOS 5 і смартфонам iPhone 4s у кастрычніку 2011 года на канферэнцыі "Пагаворым аб iPhone".

Праграмнае забеспячэнне заснавана на дыялогавым інтэрфейсе: яно распазнае натуральную гаворку карыстальніка (з iOS 11 таксама магчымы ўвод каманд уручную), адказвае на пытанні і выконвае заданні. Дзякуючы ўкараненню машыннага навучання памочнік з часам аналізуе асабістыя перавагі карыстачу для прадастаўлення больш рэлевантных вынікаў і рэкамендацый. Для Siri патрабуецца сталае падлучэнне да Інтэрнэту - асноўныя крыніцы інфармацыі тут Bing і Wolfram Alpha. У iOS 10 з'явілася падтрымка іншых пашырэнняў.

Яшчэ адзін з вялікай чацвёркі Картана. Гэта інтэлектуальны асабісты памагаты, створаны Microsoft. Ён падтрымліваецца платформамі Windows 10, Windows 10 Mobile, Windows Phone 8.1/2, Xbox One, Skype, Microsoft Band, Microsoft Band 2014, Android і iOS. Упершыню Cortana была прадстаўлена на канферэнцыі Microsoft Build Developer у красавіку XNUMX года ў Сан-Францыска. Назва праграмы паходзіць ад імя персанажа з серыі гульняў Halo. Cortana даступная на англійскай, італьянскай, іспанскай, французскай, нямецкай, кітайскай і японскай мовах.

Карыстальнікі ўжо згаданай праграмы Alexa яны таксама павінны ўлічваць моўныя абмежаванні - лічбавы памочнік гаворыць толькі на англійскай, нямецкай, французскай і японскай мовах.

Віртуальны памагаты Amazon упершыню быў выкарыстаны ў разумных калонках Amazon Echo і Amazon Echo Dot, распрацаваных Amazon Lab126. Ён забяспечвае галасавое ўзаемадзеянне, прайграванне музыкі, стварэнне спісаў спраў, настройку будзільніка, струменевую перадачу подкаст, прайграванне аўдыёкніг і прадастаўленне ў рэальным часе інфармацыі аб надвор'і, корках, спорце і іншай навіннай інфармацыі, такі як навіны (4). Alexa можа кіраваць некалькімі інтэлектуальнымі прыладамі для стварэння сістэмы хатняй аўтаматызацыі. Яго таксама можна выкарыстоўваць для здзяйснення зручных пакупак у краме Amazon.

4. Для чаго карыстальнікі выкарыстоўваюць Рэха (згодна з даследаваннямі)

Карыстальнікі могуць пашырыць магчымасці Alexa, усталяваўшы "навыкі" Alexa (), дадатковыя функцыі, распрацаваныя іншымі пастаўшчыкамі, часцей за званыя праграмамі, такімі як надвор'е і аўдыёпраграмы ў іншых наладах. Большасць прылад Alexa дазваляюць актываваць віртуальнага памагатага з дапамогай пароля абуджэння, так званага .

Сёння Amazon вызначана дамінуе на рынку разумных дынамікаў (5). IBM, якая прадставіла новую паслугу ў сакавіку 2018 года, спрабуе ўвайсці ў чацвёрку лідэраў, Памочнік Ватсана, Прызначаны для кампаній, якія хочуць самі ствараць сістэмы віртуальных памочнікаў з галасавым кіраваннем. У чым перавага рашэння IBM? Па словах прадстаўнікоў кампаніі, у першую чаргу, на значна большыя магчымасці персаналізацыі і абароны прыватнасці.

Па-першае, Watson Assistant не мае навязанай гандлёвай маркі. Кампаніі могуць ствараць свае ўласныя рашэнні на гэтай платформе і маркіраваць іх сваім уласным брэндам.

Па-другое, яны могуць навучаць свае дапаможныя сістэмы, выкарыстоўваючы свае ўласныя наборы дадзеных, якія, па словах IBM, лягчэй дадаваць функцыі і каманды ў гэтую сістэму, чым іншыя тэхналогіі VUI (галасавы карыстацкі інтэрфейс).

Па-трэцяе, Watson Assistant не дае IBM інфармацыю аб актыўнасці карыстальнікаў – распрацоўшчыкі рашэнняў на платформе могуць захоўваць каштоўныя дадзеныя толькі пры сабе. Тым часам, усе, хто стварае прылады, напрыклад, з дапамогай Alexa, павінны ўлічваць, што іх каштоўныя дадзеныя ў канчатковым выніку патрапяць у Amazon.

У Watson Assistant ужо ёсць некалькі рэалізацый. Сістэму выкарыстала, напрыклад, кампанія Harman, якая стварыла галасавога памагатага для канцэпт-кара Maserati (6). У аэрапорце Мюнхена асістэнт IBM прыводзіць у дзеянне робата Pepper, які дапамагае наведвальнікам перасоўвацца. Трэці прыклад – Chameleon Technologies, дзе галасавая тэхналогія выкарыстоўваецца ў разумным хатнім лічыльніку.

6. Watson Assistant у канцэпт-кары Maserati

Варта дадаць, што базавая тэхналогія тут таксама не новая. Watson Assistant уключае магчымасці шыфравання для існуючых прадуктаў IBM, Watson Conversation і Watson Virtual Agent, а таксама API-інтэрфейсы для моўнага аналізу і чата.

Amazon не толькі з'яўляецца лідэрам у галіне інтэлектуальных галасавых тэхналогій, але і ператварае іх у прамы бізнэс. Аднак некаторыя кампаніі эксперыментавалі з інтэграцыяй Echo нашмат раней. Sisense, кампанія з індустрыі BI і аналітычных інструментаў, прадставіла інтэграцыю Echo у ліпені 2016 года. У сваю чаргу, стартап Roxy вырашыў стварыць уласнае праграмнае і апаратнае забеспячэнне з галасавым кіраваннем для індустрыі гасціннасці. Раней у гэтым годзе Synqq прадставіла прыкладанне для нататак, якое выкарыстоўвае апрацоўку голасу і натуральнай мовы для дадання нататак і запісаў календара без неабходнасці набіраць іх на клавіятуры.

Усе гэтыя невялікія прадпрыемствы маюць высокія амбіцыі. Аднак больш за ўсё яны даведаліся, што не кожны карыстач жадае перадаваць свае дадзеныя ў Amazon, Google, Apple або Microsoft, якія з'яўляюцца найболей важнымі гульцамі ў стварэнні платформаў галасавой сувязі.

амерыканцы хочуць купіць

У 2016 годзе на галасавы пошук прыпадала 20% усіх мабільных пошукавых запытаў Google. Людзі, якія выкарыстоўваюць гэтую тэхналогію штодня, адзначаюць яе зручнасць і шматзадачнасць сярод самых вялікіх пераваг. (напрыклад, магчымасць выкарыстоўваць пошукавую сістэму падчас кіравання аўтамабіля).

Аналітыкі Visiongain ацэньваюць бягучы кошт рынку разумных лічбавых памагатых у $1,138 млрд. Такіх механізмаў становіцца ўсё больш і больш. Па дадзеных Gartner, да канца 2018 г. ужо 30% нашых узаемадзеянняў з тэхналогіяй будзе праз размовы з галасавымі сістэмамі.

Паводле ацэнак брытанскай даследчай кампаніі IHS Markit, да канца гэтага года рынак лічбавых памочнікаў на базе ІІ (штучнага інтэлекту) дасягне 4 прылад, а да 2020 года гэты лік можа павялічыцца да 7 млрд.

Паводле справаздач eMarketer і VoiceLabs, у 2017 годзе 35,6 амерыканцаў выкарыстоўвалі галасавое кіраванне як мінімум раз у месяц. Гэта азначае павелічэнне амаль на 130 працэнтаў у параўнанні з папярэднім годам. Чакаецца, што толькі рынак лічбавых памагатых вырасце на 2018% у 23 годзе. Гэта азначае, што вы ўжо будзеце выкарыстоўваць іх 60,5 мільёнаў амерыканцаў, Што выльецца ў канкрэтныя грошы для іх вытворцаў. Паводле ацэнак RBC Capital Markets, да 2020 інтэрфейс Alexa прынясе Amazon да $ 10 млрд выручкі.

Сціраць, пячы, прыбіраць!

Галасавыя інтэрфейсы ўсё больш смела выходзяць на рынак бытавой тэхнікі і спажывецкай электронікі. У гэтым ужо можна было пераканацца падчас леташняй выставы IFA 2017. Амерыканская кампанія Neato Robotics прадставіла, напрыклад, робата-пыласоса, які падключаецца да адной з некалькіх платформ разумнай хаты, уключаючы сістэму Amazon Echo. Пагаварыўшы з разумным дынамікам Echo, вы можаце даручыць машыне прыбраць усю хату ў вызначаны час дня ці ночы.

На выставе былі прадстаўлены і іншыя прадукты з галасавым кіраваннем, пачынаючы ад смарт-тэлевізараў, якія прадаюцца пад брэндам Toshiba турэцкай кампаніяй Vestel, і заканчваючы коўдрамі з падагрэвам нямецкай кампаніі Beurer. Многія з гэтых электронных прылад таксама можна актываваць выдалена з дапамогай смартфонаў.

Аднак, па словах прадстаўнікоў Bosch, пакуль рана казаць аб тым, які з варыянтаў хатняга памагатага стане дамінантным. Нямецкая тэхнічная група прадэманстравала на IFA 2017 пральныя машыны (7), духоўкі і кофемашіны, якія падключаюцца да Echo. Bosch таксама хацела б, каб у будучыні яе прылады былі сумяшчальныя з галасавымі платформамі Google і Apple.

7. Пральная машына Bosch, якая падключаецца да Amazon Echo

Такія кампаніі, як Fujitsu, Sony і Panasonic, распрацоўваюць уласныя рашэнні для галасавога памагатага на аснове штучнага інтэлекту. Sharp дадае гэтую тэхналогію да печаў і невялікім робатам, якія выходзяць на рынак. Nippon Telegraph & Telephone наймае вытворцаў абсталявання і цацак для адаптацыі сістэмы штучнага інтэлекту з галасавым кіраваннем.

Старая канцэпцыя. Няўжо яе час нарэшце нетутэйша?

Насамрэч канцэпцыя галасавога карыстацкага інтэрфейсу (VUI) існуе ўжо некалькі дзесяцігоддзяў. Любы, хто глядзеў "Зорны шлях" ці "2001: Касмічная адысея" шмат гадоў таму, верагодна, чакаў, што прыкладна ў 2000 годзе мы ўсё будзем кіраваць кампутарамі з дапамогай голасу. Акрамя таго, не толькі аўтары навуковай фантастыкі бачылі патэнцыял гэтага тыпу інтэрфейсу. У 1986 году даследнікі Nielsen спыталі ІТ-адмыслоўцаў, што, па іх меркаванні, будзе самай вялікай зменай у карыстацкіх інтэрфейсах да 2000 году. Яны часцей за ўсё паказвалі на распрацоўку галасавых інтэрфейсаў.

Ёсць падставы спадзявацца на такое рашэнне. Вербальнае зносіны - гэта, у выніку, найболей натуральны спосаб свядомага абмену думкамі паміж людзьмі, таму яго выкарыстанне для ўзаемадзеяння чалавека з машынай здаецца пакуль лепшым рашэннем.

Адзін з першых VUI, названы маленечкая каморка, быў створаны ў пачатку 60-х гадоў кампаніяй IBM. Ён быў папярэднікам сённяшніх сістэм распазнання голасу. Аднак распрацоўка прылад VUI была абмежавана межамі вылічальнай магутнасці. Разбор і інтэрпрэтацыя чалавечай гаворкі ў рэжыме рэальнага часу патрабуе шмат сіл, і спатрэбілася больш за пяцьдзесят гадоў, каб дабрацца да таго моманту, калі гэта сапраўды стала магчымым.

Прылады з галасавым інтэрфейсам пачалі з'яўляцца ў масавай вытворчасці ў сярэдзіне 90-х, але папулярнасці не набылі. Першы тэлефон з магчымасцю галасавога кіравання (набор нумара) быў Філіпс Спарк, выпушчаны ў 1996 годзе. Аднак гэтая наватарская і простая ў выкарыстанні прылада не было вольна ад тэхналагічных абмежаванняў.

Іншыя тэлефоны, абсталяваныя формамі галасавога інтэрфейсу (створаныя такімі кампаніямі, як RIM, Samsung ці Motorola), рэгулярна з'яўляліся на рынку, дазваляючы карыстачам набіраць нумар голасам ці адпраўляць тэкставыя паведамленні. Усе яны, аднак, патрабавалі запамінання пэўных каманд і вымаўленні іх у змушанай, штучнай форме, прыстасаванай да магчымасцяў прылад таго часу. Гэта спараджала вялікую колькасць памылак, што, у сваю чаргу, прыводзіла да незадаволенасці карыстальнікаў.

Аднак у наш час мы ўступаем у новую эру вылічальнай тэхнікі, у якой дасягненні ў вобласці машыннага навучання і развіцці штучнага інтэлекту адчыняюць патэнцыял гутаркі як новага спосабу ўзаемадзеяння з тэхналогіямі (8). Колькасць прылад, якія падтрымліваюць галасавое ўзаемадзеянне, стала важным фактарам, якія аказалі вялікі ўплыў на развіццё VUI. Сёння амаль 1/3 насельніцтвы свету ўжо валодае смартфонамі, якія можна выкарыстаць для такога тыпу паводзін. Падобна, большасць карыстачоў нарэшце гатовы адаптаваць свае галасавыя інтэрфейсы.

8. Сучасная гісторыя развіцця галасавога інтэрфейсу

Аднак перш чым мы зможам свабодна размаўляць з кампутарам, як гэта зрабілі героі "Касмічнай адысеі", мы павінны пераадолець шэраг праблем. Машыны да гэтага часу не вельмі добра спраўляюцца з лінгвістычнымі нюансамі. Акрамя таго многія людзі да гэтага часу адчуваюць сябе некамфортна, аддаючы галасавыя каманды пошукавай сістэме.

Статыстыка паказвае, што галасавыя памочнікі выкарыстоўваюцца пераважна дома ці сярод блізкіх сяброў. Ніводзін з апытаных не прызнаўся ў выкарыстанні галасавога пошуку ў грамадскіх месцах. Аднак гэтая блакада, хутчэй за ўсё, знікне з распаўсюджваннем гэтай тэхналогіі.

Тэхнічна складанае пытанне

Праблема, з якой сутыкаюцца сістэмы (ASR), складаецца ў здабыванні карысных дадзеных з маўленчага сігналу і злучэнні яго з вызначаным словам, мелым вызначанае значэнне для чалавека. Вымаўляемыя гукі кожны раз розныя.

Зменлівасць маўленчага сігналу з'яўляецца яго натуральнай уласцівасцю, дзякуючы якому мы, напрыклад, распазнаем акцэнт ці інтанацыю. Кожны элемент сістэмы распазнання прамовы мае пэўную задачу. На аснове апрацаванага сігналу і яго параметраў ствараецца акустычная мадэль, якая злучана з моўнай мадэллю. Сістэма распазнання можа працаваць на аснове малой ці вялікай колькасці патэрнаў, што вызначае памер слоўніка, з якім яна працуе. Яны могуць быць маленькія слоўнікі у выпадку сістэм, якія распазнаюць асобныя словы ці каманды, а таксама вялікія базы дадзеных якія змяшчаюць эквівалент моўнага мноства і ўлічваюць моўную мадэль (граматыку).

Праблемы, з якімі сутыкаюцца галасавыя інтэрфейсы, у першую чаргу правільна разумець гаворку, У якіх, напрыклад, часта апускаюцца цэлыя граматычныя паслядоўнасці, сустракаюцца лінгвістычныя і фанетычныя памылкі, памылкі, пропускі, маўленчыя дэфекты, амонімы, неапраўданыя паўторы і г. д. Усё гэта сістэмы АСР павінны працаваць хутка і надзейна. Прынамсі, такія чаканні.

Крыніцай цяжкасцяў таксама з'яўляюцца акустычныя сігналы, выдатныя ад распазнанай гаворкі, якія трапляюць на ўваход сістэмы распазнання, г.зн. разнастайныя перашкоды і шум. У найпростым выпадку яны вам патрэбны адфільтроўваць. Гэта задача здаецца руціннай і лёгкай - бо фільтруюцца розныя сігналы і кожны электроншчык ведае, што рабіць у такой сітуацыі. Аднак гэта трэба рабіць вельмі ўважліва і старанна, калі вынік распазнання прамовы павінен адпавядаць нашым чаканням.

Выкарыстоўваная ў наш час фільтраванне дазваляе выдаліць разам з маўленчым сігналам вонкавы шум, які ўлоўліваецца мікрафонам, і ўнутраныя ўласцівасці самага маўленчага сігналу, якія абцяжарваюць яго распазнанне. Аднак значна больш складаная тэхнічная праблема ўзнікае, калі перашкодай для аналізаванага маўленчага сігналу з'яўляецца… іншы маўленчы сігнал, гэта значыць, напрыклад, гучныя дыскусіі навокал. Гэтае пытанне вядома ў літаратуры як так званае. Гэта ўжо патрабуе прымянення складаных метадаў, т.зв. дэканвалюцыя (разблытванне) сігналу.

На гэтым праблемы з распазнаннем гаворкі не сканчаюцца. Варта ўсвядоміць, што гаворка нясе ў сабе мноства розных тыпаў інфармацыі. Чалавечы голас падказвае пол, узрост, розныя характары ўладальніка ці стан яго здароўя. Існуе шырокі аддзел биомедицинской інжынерыі, які займаецца дыягностыкай розных захворванняў на аснове характэрных акустычных з'яў, якія выяўляюцца ў маўленчым сігнале.

Таксама існуюць прыкладанні, дзе асноўнай мэтай акустычнага аналізу маўленчага сігналу з'яўляецца ідэнтыфікацыя размаўлялага або праверка таго, што ён той, за каго сябе выдае (голас замест ключа, пароля або PUK-кода). Гэта можа мець важнае значэнне, асабліва для інтэлектуальных будаўнічых тэхналогій.

Першым кампанентам сістэмы распазнання прамовы з'яўляецца мікрафон. Аднак сігнал, які ўлоўліваецца мікрафонам, звычайна застаецца малапрыдатным. Даследаванні паказваюць, што форма і ход гукавой хвалі вельмі моцна змяняюцца ў залежнасці ад чалавека, хуткасці гаворкі, а збольшага і настроі суразмоўцы – пры гэтым у малой ступені яны адлюстроўваюць сам змест якія вымаўляюцца каманд.

Таму сігнал павінен быць правільна апрацаваны. Сучасная акустыка, фанетыка і інфарматыка ў сукупнасці падаюць багаты набор прылад, якія можна ўжываць для апрацоўкі, аналізу, распазнанні і разуменні маўленчага сігналу. Дынамічны спектр сігналу, так званы дынамічныя спектраграмы. Яны даволі лёгка атрымліваюцца, а гаворка, прадстаўленая ў выглядзе дынамічнай спектраграмы, параўнальна лёгка распазнаецца з дапамогай прыёмаў, аналагічных тым, якія выкарыстоўваюцца пры апазнанні малюнкаў.

Простыя элементы гаворкі (напрыклад, каманды) можна распазнаць па простым падабенстве цэлых спектраграм. Напрыклад, слоўнік мабільнага тэлефона з галасавым кіраваннем утрымоўвае ўсяго ад некалькіх дзясяткаў да некалькіх сотняў слоў і словазлучэнняў, звычайна загадзя накладзеных, каб іх можна было лёгка і эфектыўна ідэнтыфікаваць. Гэтага дастаткова для простых задач кіравання, але гэта моцна абмяжоўвае агульнае дадатак. Сістэмы, пабудаваныя па схеме, як правіла, падтрымліваюць толькі канкрэтных дыктараў, для якіх спецыяльна навучаны галасы. Так што калі ёсць нехта новы, хто хоча выкарыстоўваць свой голас для кіравання сістэмай, яго, хутчэй за ўсё, не прымуць.

Вынік гэтай аперацыі называецца спектраграма 2-W, гэта значыць двухмерны спектр. У гэтым блоку ёсць яшчэ адзін занятак, на які варта звярнуць увагу. сегментацыя. Наогул кажучы, гаворка ідзе аб разбіцці бесперапыннага маўленчага сігналу на часткі, якія можна распазнаваць па асобнасці. Толькі з гэтых асобных дыягназаў складаецца распазнанне цэлага. Такая працэдура неабходна, таму што немагчыма ідэнтыфікаваць доўгую і складаную гаворку за адзін раз. Пра тое, якія сегменты варта адрозніваць у маўленчым сігнале, ужо напісаны цэлыя тамы, таму мы не будзем зараз вырашаць, ці павінны вылучаемыя сегменты быць фанемамі (гукавымі эквівалентамі), складамі ці, можа быць, алафонамі.

Працэс аўтаматычнага распазнання заўсёды звяртаецца да некаторых прыкмет аб'ектаў. Для маўленчага сігналу пратэставаны сотні набораў розных параметраў.У распараджэнні маўленчага сігналу падзелены на распазнаныя кадры і маючы выбраныя функцыіз дапамогай чаго гэтыя кадры прадстаўлены ў працэсе распазнання, мы можам выканаць (для кожнага кадра асобна) класіфікацыя, г.зн. прысваенне фрэйму ідэнтыфікатара, які будзе яго прадстаўляць у далейшым.

наступны этап зборка фрэймаў у асобныя словы - часцей за ўсё на аснове т.зв. мадэль няяўных маркаўскіх мадэляў (НММ-). Затым ідзе мантаж са слоў поўныя прапановы.

Цяпер мы можам ненадоўга вярнуцца да сістэмы Alexa. На яго прыкладзе паказаны шматэтапны працэс машыннага "разумення" чалавека - дакладней: аддаецца ім каманды або зададзенага пытання.

Разуменне слоў, разуменне значэння і паняцце намеру карыстальніка - зусім розныя рэчы.

Такім чынам, наступным крокам з'яўляецца праца модуля НЛП (), задача якога распазнанне намераў карыстальніка, г.зн. сэнс каманды/пытання ў тым кантэксце, у якім яна была вымаўлена. Калі намер ідэнтыфікаваны, варта прызначэнне так званага навыкі і ўменні, гэта значыць канкрэтная функцыя, якая падтрымліваецца інтэлектуальным памагатым. У выпадку пытання аб надвор'і выклікаюцца крыніцы дадзеных аб надвор'і, якія застаецца апрацаваць у гаворка (механізм TTS -). У выніку карыстач чуе адказ на зададзенае пытанне.

Голас? Графіка? Ці, можа, абодва?

Большасць вядомых сучасных сістэм узаемадзеяння заснаваны на пасярэдніку, званым графічны карыстацкі інтэрфейс (графічны інтэрфейс). Нажаль, графічны інтэрфейс – не самы відавочны спосаб узаемадзеяння з лічбавым прадуктам. Гэта патрабуе, каб карыстачы спачатку навучыліся выкарыстоўваць інтэрфейс і запаміналі гэтую інфармацыю пры кожным наступным узаемадзеянні. У шматлікіх сітуацыях голас значна зручней, таму што для ўзаемадзеяння з VUI дастаткова проста звярнуцца да прылады. Інтэрфейс, які не прымушае карыстальнікаў запамінаць і запамінаць пэўныя каманды ці метады ўзаемадзеяння, выклікае менш праблем.

Вядома, пашырэнне VUI не азначае адмову ад больш традыцыйных інтэрфейсаў - хутчэй будуць даступныя гібрыдныя інтэрфейсы, якія спалучаюць у сабе некалькі спосабаў узаемадзеяння.

Галасавы інтэрфейс падыходзіць не для ўсіх задач у мабільным кантэксце. З ім мы патэлефануем аднаму за рулём аўтамабіля, і нават адправім яму смс, але праверка апошніх перакладаў можа апынуцца занадта складанай з-за колькасці інфармацыі, якая перадаецца ў сістэму () і генераванай сістэмай (сістэма). Як мяркуе Рэйчэл Хинман у сваёй кнізе Mobile Frontier, выкарыстанне VUI становіцца найболей эфектыўным пры выкананні задач, у якіх колькасць уваходнай і выходнай інфармацыі невяліка.

Смартфон, падлучаны да Інтэрнэту, зручны, але ў той жа час дастаўляе нязручнасці (9). Кожны раз, калі карыстач жадае штосьці купіць або скарыстацца новай паслугай, яму даводзіцца спампоўваць іншае прыкладанне і ствараць новы ўліковы запіс. Тут створана поле для выкарыстання і развіцця галасавых інтэрфейсаў. На думку экспертаў, замест таго, каб прымушаць карыстальнікаў усталёўваць мноства розных прыкладанняў або ствараць асобныя ўліковыя запісы для кожнага сэрвісу, VUI дазволіць перакласці цяжар гэтых цяжкіх задач на галасавога памочніка, абсталяванага штучным інтэлектам. Менавіта яму будзе зручна выконваць напружаную дзейнасьць. Мы будзем толькі аддаваць яму загады.

9. Галасавы інтэрфейс з дапамогай смартфона

Цяпер да Інтэрнэта падключаны не толькі тэлефон і камп'ютар. Разумныя тэрмастаты, свяцільні, чайнікі і многія іншыя прылады, інтэграваныя з Інтэрнэтам рэчаў, таксама падключаны да сеткі (10). Такім чынам, вакол нас ёсць прылады з бесправадным падключэннем, якія напаўняюць наша жыццё, але не ўсе з іх натуральным чынам упісваюцца ў графічны інтэрфейс карыстальніка. Выкарыстанне VUI дапаможа вам лёгка інтэграваць іх у наша асяроддзе.

10. Галасавы інтэрфейс з Інтэрнэтам рэчаў

Стварэнне галасавога карыстацкага інтэрфейсу хутка стане ключавым навыкам дызайнера. Гэта сапраўдная праблема — неабходнасць укаранення галасавых сістэм заахвоціць вас больш засяродзіцца на папераджальным дызайне, гэта значыць спрабаваць зразумець першапачатковыя намеры карыстача, апярэджваючы яго запатрабаванні і чаканні на кожным этапе гутаркі.

Голас - эфектыўны спосаб уводу дадзеных - ён дазваляе карыстальнікам хутка аддаваць каманды сістэме на сваіх умовах. З іншага боку, экран забяспечвае эфектыўны спосаб адлюстравання інфармацыі: ён дазваляе сістэмам адначасова адлюстроўваць вялікі аб'ём інфармацыі, памяншаючы нагрузку на памяць карыстальнікаў. Лагічна, што аб'яднанне іх у адну сістэму гучыць абнадзейліва.

Разумныя калонкі, такія як Amazon Echo і Google Home, увогуле не прапануюць візуальны дысплей. Значна падвышаючы дакладнасць распазнання голасу на ўмераных адлегласцях, яны дазваляюць працаваць без дапамогі рук, што, у сваю чаргу, падвышае іх гнуткасць і эфектыўнасць – яны пажаданыя нават для карыстачоў, у якіх ужо ёсць смартфоны з галасавым кіраваннем. Аднак адсутнасць экрана з'яўляецца вялізным абмежаваннем.

Для інфармавання карыстальнікаў аб магчымых камандах можна выкарыстоўваць толькі гукавыя сігналы, і чытанне вываду ўслых становіцца стомным, за выключэннем самых простых задач. Ўстаноўка таймера з дапамогай галасавой каманды падчас падрыхтоўкі - гэта выдатна, але прымушаць вас пытаць, колькі часу засталося, не абавязкова. Атрыманне звычайнага прагнозу надвор'я становіцца выпрабаваннем памяці для карыстача, якому даводзіцца ўвесь тыдзень слухаць і засвойваць шэраг фактаў, а не збіраць іх з экрана з першага погляду.

Дызайнеры ўжо распрацавалі гібрыднае рашэнне, Echo Show (11), у якім да базавай разумнай калонцы Echo быў дададзены экран дысплея. Гэта значна пашырае функцыянальныя магчымасці абсталявання. Аднак Echo Show па-ранейшаму значна менш здольнае выконваць базавыя функцыі, якія ўжо даўно даступныя на смартфонах і планшэтах. Ён не можа (пакуль), напрыклад, праглядаць вэб-старонкі, паказваць агляды ці адлюстроўваць змесціва кошыка пакупак Amazon.

Візуальны дысплей па сваёй сутнасці з'яўляецца больш эфектыўным спосабам падавання людзям вялікага аб'ёму інфармацыі, чым проста гук. Праектаванне з прыярытэтам голасу можа значна палепшыць галасавое ўзаемадзеянне, але ў доўгатэрміновай перспектыве адвольнае невыкарыстанне візуальнага меню дзеля ўзаемадзеяння будзе падобна на барацьбу з адной рукой, звязанай за спіной. З-за якая насоўваецца складанасці скразных інтэлектуальных галасавых і дысплейных інтэрфейсаў распрацоўнікі павінны сур'ёзна разгледзець гібрыдны падыход да інтэрфейсаў.

Падвышэнне эфектыўнасці і хуткасці працы сістэм генерацыі і распазнанні прамовы дазволіла выкарыстаць іх у такіх прыкладаннях і абласцях, як, напрыклад:

• ваенныя (галасавыя каманды ў самалётах або верталётах, напрыклад, F16 VISTA),

• аўтаматычная транскрыпцыя тэксту (гаворка ў тэкст),

• інтэрактыўныя інфармацыйныя сістэмы (Прайм-Гаворка, галасавыя парталы),

• мабільныя прылады (тэлефоны, смартфоны, планшэты),

• робататэхніка (Cleverbot – сістэмы ASR у спалучэнні са штучным інтэлектам),

• аўтамабільны (кіраванне кампанентамі аўтамабіля без дапамогі рук, напрыклад Blue & Me),

• хатнія прыкладанні (сістэмы разумнага дома).

Сачыце за бяспекай!

Аўтамабілі, бытавая тэхніка, сістэмы апалу/астуджэнні і хатняй бяспекі, а таксама мноства бытавых прыбораў пачынаюць выкарыстоўваць галасавыя інтэрфейсы, часта на аснове ІІ. На гэтым этапе дадзеныя, атрыманыя ў выніку мільёнаў размоваў з машынамі, адпраўляюцца ў вылічальныя аблокі. Зусім відавочна, што імі цікавяцца маркетолагі. І не толькі яны.

У нядаўняй справаздачы экспертаў Symantec па бяспецы рэкамендуецца, каб карыстачы галасавых каманд не кіравалі функцыямі бяспекі, такімі як дзвярныя замкі, не кажучы ўжо пра хатнія сістэмы бяспекі. Тое ж самае тычыцца захоўвання пароляў ці канфідэнцыйнай інфармацыі. Бяспека штучнага інтэлекту і інтэлектуальных прадуктаў яшчэ недастаткова вывучана.

Калі прылады па ўсёй хаце прыслухоўваюцца да кожнага слова, рызыка ўзлому і неправамернага выкарыстання сістэмы становіцца надзвычай важнай праблемай. Калі зламыснік атрымае доступ да лакальнай сеткі або звязаных з ёй адрасам электроннай пошты, настройкі смарт-прылады могуць быць зменены або вернуты да завадскіх налад, што прывядзе да страты каштоўнай інфармацыі і выдаленні карыстацкай гісторыі.

Іншымі словамі, адмыслоўцы па бяспецы асцерагаюцца, што штучны інтэлект, кіраваны голасам і VUI, яшчэ нядосыць інтэлектуальны, каб абараніць нас ад патэнцыйных пагроз і трымаць рот на замку, калі пра што-то пытаецца незнаёмец.