Co to jest Rozpoznawanie mowy?

Rozpoznawanie mowy jest technologią umożliwiającą wprowadzanie mowy do systemów. Rozmawiasz ze swoim komputerem, telefonem lub urządzeniem i używasz tego, co powiedziałeś jako wejścia, aby wywołać pewne działanie. Technologia zastępuje inne metody wprowadzania, takie jak pisanie, klikanie lub wybieranie w inny sposób. Jest to sposób na uczynienie urządzeń i oprogramowania bardziej przyjaznymi dla użytkownika i zwiększenie produktywności.

Istnieje wiele aplikacji i obszarów, w których wykorzystuje się rozpoznawanie mowy, w tym wojsko, jako pomoc dla osób upośledzonych (wyobraź sobie osobę z kalectwem lub bez dłoni lub palców), w medycynie, w robotyce itp. W najbliższej przyszłości prawie wszyscy będą narażeni na rozpoznawanie mowy z powodu rozprzestrzeniania się wśród popularnych urządzeń, takich jak komputery i telefony komórkowe.

Niektóre smartfony w ciekawy sposób wykorzystują rozpoznawanie mowy. Przykładami są iPhone i urządzenia z Androidem. Za ich pośrednictwem można zainicjować połączenie z kontaktem, uzyskując jedynie instrukcje mówione, takie jak "Biuro połączeń". Inne polecenia mogą być również odbierane, np. "Włącz Bluetooth".

Problemy z rozpoznawaniem mowy

Rozpoznawanie mowy, w wersji znanej jako Mowa na tekst (STT), było również używane przez długi czas do tłumaczenia wypowiedzianych słów na tekst. "Mówisz, to jest typ", jak powiedziałby ViaVoice na swoim pudełku. Ale jest jeden problem ze STT, jaki znamy. ViaVoice jest jednym z najlepszych w branży, więc wyobraź sobie resztę. Technologia dojrzała i poprawiła się, ale mowa w tekście wciąż sprawia, że ludzie zadają pytania. Jedną z głównych trudności jest ogromna różnorodność wśród ludzi wymawiających słowa.

Nie wszystkie języki mają rozpoznawanie mowy, a te, które są często obsługiwane, nie są obsługiwane tak dobrze jak angielski. W rezultacie większość urządzeń, które uruchamiają oprogramowanie do rozpoznawania mowy, działa rozsądnie tylko w języku angielskim.

Zestaw wymagań sprzętowych utrudnia rozpoznawanie mowy w niektórych przypadkach. Potrzebujesz mikrofonu, który jest wystarczająco inteligentny, aby odfiltrować hałas w tle, ale jednocześnie wystarczająco silny, by naturalnie odbierać głos.

Mówiąc o szumie tła, może to spowodować awarię całego systemu. W rezultacie rozpoznawanie mowy w wielu przypadkach nie udaje się z powodu szumów, które nie są kontrolowane przez użytkownika.

Rozpoznawanie mowy okazuje się lepszym rozwiązaniem jako metoda wprowadzania nowych telefonów i technologii komunikacyjnych, takich jak VoIP, niż jako narzędzie zwiększające produktywność przy masowym wprowadzaniu tekstu.

Zastosowania rozpoznawania mowy

Technologia zyskuje popularność w wielu dziedzinach i odnosi sukcesy w następujących dziedzinach:

Kontrola urządzenia. Powiedzenie "OK Google" na telefonie z Androidem uruchamia system, który jest uszy dla poleceń głosowych.
Samochodowe systemy Bluetooth. Wiele samochodów jest wyposażonych w system, który łączy swój mechanizm radiowy ze smartfonem poprzez Bluetooth. Następnie możesz nawiązywać i odbierać połączenia bez dotykania smartfona, a nawet wybierać numery, po prostu je wypowiadając.
Transkrypcja głosu. W obszarach, gdzie ludzie muszą pisać dużo, niektóre inteligentne oprogramowanie przechwytuje ich wypowiadane słowa i przepisuje je na tekst. Jest to aktualne w niektórych programach do edycji tekstu. Transkrypcja głosu działa również z wizualną pocztą głosową.