Гласовен кориснички интерфејс

Гласовниот кориснички интерфејс (ГКИ) (англиски: voice-user interface -VUI) овозможува говорна интеракција на луѓето со компјутерите, со користење на препознавање говор за разбирање на изговорените команди и одговарање на прашања, и обично текст во говор за репродукција на одговор. Уред за гласовна команда е уред контролиран со гласовен кориснички интерфејс.

Гласовните кориснички интерфејси се додадени на автомобили, системи за домашна автоматизација, компјутерски оперативни системи, домашни апарати како машини за перење и микробранови печки и далечински управувачи на телевизија. Тие се примарен начин за интеракција со виртуелни асистенти на паметни телефони и паметни звучници . Постарите автоматски придружници (кои ги насочуваат телефонските повици без контакт со оператор) и интерактивните системи за гласовен одговор - ИСГО (кои вршат покомплицирани задачи преку телефон) можат да одговорат на притискање на копчињата на тастатурата преку тонови DTMF, но оние со целосен гласовен кориснички интерфејс им дозволуваат на повикувачите да ги изговараат барањата и одговорите без притискање на кое било копче.

Поновите уреди за гласовни команди се независни од звучниците, така што тие можат да одговорат на повеќе гласови, без оглед на акцентот или дијалектното влијание. Тие исто така се способни да одговорат на неколку команди одеднаш, да ги одвојат гласните пораки и да дадат соодветни повратни информации, прецизно имитирајќи природен разговор.[1]

ГКИ е интерфејс за која било апликација за говор. До пред некое време, контролирањето на компјуетрот дури и со едноставен разговор беше незамисливо. До неодамна, оваа област се сметаше за вештачка интелигенција . Сепак, напредокот во технологиите како текст-во-говор, говор-во-текст, обработка на природен јазик и облак услуги придонесоа за масовно усвојување на овие типови интерфејси. ГКИ станаа повообичаени, а луѓето ја користат услугата што ја прават овие интерфејси без раце во многу ситуации.

Историја

[уреди | уреди извор]

Раните апликации за ГКИ вклучуваа гласовно активирано бирање на телефони, директно или преку слушалки (обично Bluetooth ) или аудио систем на возилото.

Во 2007 година, деловен напис на CNN објави дека гласовната команда е индустрија од милијарда долари и дека компаниите како Google и Apple се обидуваат да создадат функции за препознавање говор.[2] Дополнително, Google создаде мотор за препознавање говор наречен Pico TTS и Apple го објави Siri. Уредите за гласовни команди стануваат се пошироко достапни и секогаш се создаваат иновативни начини за користење на човечкиот глас. На пример, Business Week сугерира дека идниот далечински управувач ќе биде човечкиот глас. Во моментов Xbox Live дозволува такви функции и Џобс навести таква функција на новиот Apple телевизор.[3]

Софтверски производи со гласовна команда на компјутерски уреди

[уреди | уреди извор]

И Apple Mac и Windows PC обезбедуваат вградени функции за препознавање говор за нивните најнови оперативни системи .

Microsoft Windows

[уреди | уреди извор]

Два оперативни системи на Microsoft, Windows 7 и Windows Vista, обезбедуваат можности за препознавање говор. Мајкрософт внесува гласовни команди во своите оперативни системи за да обезбеди механизам за луѓе кои сакаат да ја ограничат нивната употреба на глувчето и тастатурата, но сепак сакаат да ја одржат или зголемат нивната севкупна продуктивност.[4]

Гласовна команда на мобилни уреди

[уреди | уреди извор]

Сите мобилни уреди со оперативни системи Android, Microsoft Windows Phone, iOS 9 или понова верзија или Blackberry OS обезбедува можности за гласовни команди. Покрај вградениот софтвер за препознавање говор за секој оперативен систем на мобилниот телефон, корисникот може да преземе апликации за гласовни команди од трета страна од продавницата за апликации на секој оперативен систем: Apple App Store, Google Play, Windows Phone Marketplace (првично Windows Marketplace for Mobile ), или BlackBerry App World .

Google разви оперативен систем со отворен код наречен Андроид, кој му овозможува на корисникот да извршува гласовни команди како што се: испраќање текстуални пораки, слушање музика, добивање насоки, повикување бизниси, повикување контакти, испраќање е-пошта, прегледување мапа, одење на мрежни места, напишете белешка и пребарувајте на Google.[5] Софтверот за препознавање говор е достапен за сите уреди од Android 2.2 „Froyo“, но поставките мора да бидат поставени на англиски.[5] Google му дозволува на корисникот да го промени јазикот, а корисникот е известен кога првпат ја користи функцијата за препознавање говор доколку сака неговите гласовни податоци да бидат ставени на неговата сметка на Google. Ако корисникот одлучи да се вклучи во оваа услуга, тоа му дозволува на Google да го тренира софтверот за да го препознае гласот на корисникот.[6]

ГКИ систем на Google е Google Assistant со Android 7.0 „Nougat“ . Таа е доста понапредна од постарата верзија.

Amazon.com го воведува Echo што ја користи прилагодената верзија на Android на Amazon за да обезбеди гласовен интерфејс.

Систем на Windows 10 е Cortana, кој е за гласовна контрола што ја заменува порано користената гласовна контрола на телефоните со Windows.

Apple додаде Voice Control во семејството на iOS уреди како нова карактеристика на iPhone OS 3 . iPhone 4S, iPad 3, iPad Mini 1G, iPad Air, iPad Pro 1G, iPod Touch 5G и понови, сите доаѓаат со понапреден гласовен асистент наречен Siri . Гласовната контрола сè уште може да се овозможи преку менито Поставки на поновите уреди. Siri е вграден за препознавање говор кој му овозможува на корисникот да издава гласовни команди. Со помош на Siri, корисникот може да издава команди како, испраќање текстуална порака, проверка на времето, поставување потсетник, наоѓање информации, закажување состаноци, испраќање е-пошта, наоѓање контакт, поставување аларм, добивање насоки, следење на вашите акции, поставување тајмер и побарување примери на барања за говорни команди.[7] Покрај тоа, Siri може да работи и со Bluetooth и жичени слушалки.[8]

Амазон Алекса

[уреди | уреди извор]

Во 2014 година Amazon го претстави паметниот домашен уред Alexa . Неговата главна цел беше само паметен звучник, кој му дозволуваше на потрошувачот да го контролира уредот со својот глас. На крајот, тој се претвори во нов уред кој имаше можност да контролира домашни апарати со глас. Сега речиси сите апарати се контролираат со Alexa, вклучувајќи ги и светилките и температурата. Дозволувајќи гласовна контрола, Alexa може да се поврзе со технологија за паметен дом што ви овозможува да ја заклучите вашата куќа, да ја контролирате температурата и да активирате различни уреди. Оваа форма на вештачка интелигенција овозможува некој и да му постави прашање, а како одговор Alexa го бара, го наоѓа и ви го рецитира одговорот.[9]

Препознавање на говор во автомобили

[уреди | уреди извор]

Со подобрување технологијата на автомобилот, се додаваат повеќе функции на автомобилите и овие карактеристики може потенцијално да го одвлечат вниманието на возачот. Гласовните команди за автомобили, според CNET, треба да му овозможат на возачот да издава команди и да не му се одвлекува вниманието. CNET изјави дека Nuance сугерира дека во иднина ќе создадат софтвер кој наликува на Siri, но за автомобили.[10] Повеќето софтвери за препознавање говор на пазарот во 2011 година имаа само околу 50 до 60 гласовни команди, но Ford Sync имаше 10.000.[10] Сепак, CNET сугерираше дека дури 10.000 гласовни команди не се доволни со оглед на сложеноста и разновидноста на задачите што корисникот можеби сака да ги направи додека вози.[10] Гласовната команда за автомобили е различна од гласовната команда за мобилни телефони и компјутери бидејќи возачот може да ја користи функцијата за да бара ресторани во близина, да бара бензин, насоки за возење, условите на патот и локацијата на најблискиот хотел.[10] Во моментов, технологијата му овозможува на возачот да издава гласовни команди и на пренослив GPS како Garmin и на навигацискиот систем на производителот на автомобили.[11]

Неколку системи за гласовни команди за во автомобилите:

  • Ford Sync
  • Гласовна команда на Lexus
  • Крајслер UConnect
  • Хонда Акорд
  • GM IntelliLink
  • BMW
  • Мерцедес
  • Пионер
  • Харман
  • Хјундаи

Невербален внес (инпут)

[уреди | уреди извор]

Како што се развива технологијата, се развива и невербалниот внес. Додека повеќето гласовни кориснички интерфејси се дизајнирани да поддржуваат интеракција преку говорен човечки јазик, исто така има неодамнешни истражувања во дизајнирањето интерфејси кои земаат невербални човечки звуци како влез.[12][13] Во овие системи, корисникот го контролира интерфејсот со емитување не-говорни звуци како што се потпевнување, свиркање или дување во микрофон.[14]

Еден таков пример на невербален гласовен кориснички интерфејс е Blendie.[15][16] Пример за тоа е класичен блендер од ерата на 1950-тите, кој беше реконструиран за да реагира на влезот на микрофонот. За да го контролира блендерот, корисникот мора да ги имитира вртечките механички звуци што вообичаено ги испушта блендерот: блендерот ќе се врти бавно како одговор на тивкото режење на корисникот и ќе се зголеми брзината додека корисникот испушта гласни звуци со повисок и побрз тон.

Друг пример е VoiceDraw,[17] истражувачки систем кој овозможува дигитално цртање на луѓе со ограничени моторни способности. VoiceDraw им овозможува на корисниците да „сликаат“ потези на дигитално платно со модулирање на звуците на самогласки, кои се мапирани на насоките на четката. Модулирањето на други паралингвистички карактеристики (на пр. колку е гласен неговиот глас) му овозможува на корисникот да контролира различни карактеристики на цртежот, како што е дебелината на потегот на четката.

Негативни страни и предизвици

[уреди | уреди извор]

Иако денес ГКИ се доста развиени, сепак постојат некои предизвици за употребливоста. За разлика од графичките кориснички интерфејси (GUI), сè уште се појавуваат најдобрите практики за дизајнирање на гласовен интерфејс.[18]

Откритие

[уреди | уреди извор]

Со чисто аудио-базирана интеракција, гласовните кориснички интерфејси имаат тенденција да страдаат од мала откриеност :[18] на корисниците им е тешко да го разберат опсегот на можностите на системот. За да може системот да го пренесе она што е можно без визуелен приказ, ќе треба да ги наброи достапните опции, кои можат да станат неостварливи. Ниската способност за откривање често резултира со конфузија околу тоа што им е „дозволено“ да кажат или неусогласеност во очекувањата за широчината на разбирањето на системот.[19][20]

Транскрипција

[уреди | уреди извор]

Иако технологијата за препознавање говор значително се подобри во последниве години, гласовните кориснички интерфејси сè уште страдаат од грешки при транскрипција во кои говорот на корисникот не се толкува правилно.[21] Овие грешки најчесто настануваат кога говорната содржина користи технички речник (на пр. медицинска терминологија) или неконвенционален правопис, како што се имиња на музички изведувачи или песни.[22]

Разбирање

[уреди | уреди извор]

Гласовните кориснички интерфејси се некогаш и предизвик поради тешкотија за да се интегрираат сложените задачи за обработка на природен јазик, како што се резолуција на кореференци, препознавање на именуван човек, пронаоѓање информации и управување со дијалог .[23] Повеќето гласовни асистенти денес се способни да извршуваат единечни команди многу добро, но се ограничени во нивната способност да управуваат со дијалог надвор од полесна и поедноставна задача или неколку промени во разговорот.[24]

Идни употреби

[уреди | уреди извор]

Уредите со џебна големина, како што се PDA или мобилни телефони, моментално се потпираат на мали копчиња за внесување на корисникот. Овие се или вградени во уредот или се дел од интерфејсот со екран на допир, како што е оној на Apple iPod Touch и iPhone Siri апликацијата. Лесен за употреба, прецизен и сигурен ГКИ потенцијално би бил голем напредок во леснотијата на нивното користење. Како и да е, таков VUI исто така ќе им користи на корисниците на компјутери (лаптоп и десктоп), бидејќи ќе реши бројни проблеми кои моментално се поврзани со употребата на тастатурата и глувчето, предизвиците на навигацијата и внесување текст во дигиталните интерфејси од лица со оштетен вид,[25] и бавна брзина на пишување од страна на неискусните корисници на тастатура. Покрај тоа, употребата на тастатура обично подразбира седење или стоење пред поврзаниот дисплеј; Спротивно на тоа, ГКИ ќе го ослободи корисникот да биде многу помобилен, бидејќи внесувањето говор ја елиминира потребата да се гледа во тастатура.

За да продолжи развојот на ГКИ, треба да се надминат бројни предизвици. Прво, VUI би требало да биде доволно софистициран за да прави разлика помеѓу внес (како што се командите) и разговор во заднина. Разбирливо, ГКИ исто така може да вклучува и човечка претстава: глас или дури и лик на екранот, на пример, кој одговара назад (пр. „Да, Пеце?“) и продолжува да комуницира напред-назад со корисникот со цел да се разјасни примениот влез и да се обезбеди точност.

Второ, ГКИ ќе мора да работи заедно со високо софистициран софтвер со цел прецизно да обработи информации. На пример, ако Марија бара информации од одреден весник и ако сака информациите да бидат сумирани во форма на точка, таа може да каже: „Компјутер, најди ми информации за пожарите во Македонија минатата ноќ“; како одговор, ГКИ (компјутерот), кој е запознаен со преференциите на „соговорникот“ (во случајов Марија) ќе „најде“ факти за „пожарите“ во „Македонија“ од тој извор, ќе ја претвори во форма на точка (текст) и ќе и ја прикаже на екранот, а може и/или во гласовна форма.

  1. „Washing Machine Voice Control“. Appliance Magazine. Архивирано од изворникот на 2011-11-03. Посетено на 2024-08-13.
  2. Borzo, Jeanette (8 February 2007). „Now You're Talking“. CNN Money. Посетено на 25 April 2012.
  3. „Voice Control, the End of the TV Remote?“. Bloomberg.com. Business Week. 9 December 2011. Архивирано од изворникот на December 8, 2011. Посетено на 1 May 2012.
  4. „Windows Vista Built In Speech“. Windows Vista. Посетено на 25 April 2012.
  5. 5,0 5,1 „Voice Actions“.
  6. „Google Voice Search For Android Can Now Be "Trained" To Your Voice“. 14 December 2010. Посетено на 24 April 2012.
  7. „Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features“. Apple. Посетено на 27 April 2012.
  8. „Siri FAQ“. Apple.
  9. „How Amazon's Echo went from a smart speaker to the center of your home“. Business Insider.
  10. 10,0 10,1 10,2 10,3 „Siri Like Voice“. CNET.
  11. „Portable GPS With Voice“. CNET.
  12. Blattner, Meera M.; Greenberg, Robert M. (1992). „Communicating and Learning Through Non-speech Audio“. Multimedia Interface Design in Education (англиски). стр. 133–143. doi:10.1007/978-3-642-58126-7_9. ISBN 978-3-540-55046-4.
  13. Hereford, James; Winn, William (October 1994). „Non-Speech Sound in Human-Computer Interaction: A Review and Design Guidelines“. Journal of Educational Computing Research (англиски). 11 (3): 211–233. doi:10.2190/mkd9-w05t-yj9y-81nm. ISSN 0735-6331.
  14. „Voice augmented manipulation | Proceedings of the 15th international conference on Human-computer interaction with mobile devices and services“ (англиски). doi:10.1145/2493190.2493244. Посетено на 2019-02-27. Наводот journal бара |journal= (help)
  15. „Blendie | Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques“ (англиски). doi:10.1145/1013115.1013159. Посетено на 2019-02-27. Наводот journal бара |journal= (help)
  16. „Kelly Dobson: Blendie“. web.media.mit.edu. Архивирано од изворникот на 2022-05-10. Посетено на 2019-02-27.
  17. „Voicedraw | Proceedings of the 9th international ACM SIGACCESS conference on Computers and accessibility“ (англиски). doi:10.1145/1296843.1296850. Посетено на 2019-02-27. Наводот journal бара |journal= (help)
  18. 18,0 18,1 „Design guidelines for hands-free speech interaction | Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct“ (англиски). doi:10.1145/3236112.3236149. Посетено на 2019-02-27. Наводот journal бара |journal= (help)
  19. „Designing SpeechActs | Proceedings of the SIGCHI Conference on Human Factors in Computing Systems“ (англиски). doi:10.1145/223904.223952. Посетено на 2019-02-27. Наводот journal бара |journal= (help)
  20. „What can I say? | Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services“ (англиски). doi:10.1145/2935334.2935386. Наводот journal бара |journal= (help)
  21. „Patterns for How Users Overcome Obstacles in Voice User Interfaces | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems“ (англиски). doi:10.1145/3173574.3173580. Посетено на 2019-02-27. Наводот journal бара |journal= (help)
  22. "Play PRBLMS" | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems“ (англиски). doi:10.1145/3173574.3173870. Посетено на 2019-02-27. Наводот journal бара |journal= (help)
  23. Galitsky, Boris (2019). Developing Enterprise Chatbots: Learning Linguistic Structures (англиски) (1st. изд.). Cham, Switzerland: Springer. стр. 13–24. doi:10.1007/978-3-030-04299-8. ISBN 978-3-030-04298-1.
  24. Pearl, Cathy (2016-12-06). Designing Voice User Interfaces: Principles of Conversational Experiences (англиски) (1st. изд.). Sebastopol, CA: O'Reilly Media. стр. 16–19. ISBN 978-1-491-95541-3.
  25. Messaoudi, Mohamed Dhiaeddine; Menelas, Bob-Antoine J.; Mcheick, Hamid (2022-10-17). „Review of Navigation Assistive Tools and Technologies for the Visually Impaired“. Sensors (англиски). 22 (20): 7888. Bibcode:2022Senso..22.7888M. doi:10.3390/s22207888. ISSN 1424-8220. PMC 9606951 Проверете ја вредноста |pmc= (help). PMID 36298237 Проверете ја вредноста |pmid= (help).