Stan Linux Voice Recognition

Spędzam dużo czasu na poszukiwaniu artykułów i dość często myślę o temacie artykułu podczas spaceru do stacji kolejowej lub ogólnie.

Pewnego wieczoru podczas spaceru z mojej pracy na odległość 1,5 mil od stacji myślałem, że "nie byłoby dobrze, gdybym mógł nagrać to, co chciałem powiedzieć, a następnie automatycznie przepisać go na plik tekstowy, który później mógłbym edytować i sformatować" .

Spędziłem wiele długich godzin oglądając różne opcje rozpoznawania głosu i dyktowania, w tym nagrywanie bezpośrednio przez mikrofon za pomocą oprogramowania dyktującego w Linuksie, nagrywanie pliku do formatu MP3 lub WAV i konwertowanie za pomocą wiersza poleceń, a także za pomocą Chrome i aplikacje na Androida.

W tym artykule podkreślam moje odkrycia po dniach ciężkiej pracy.

Opcje systemu Linux

Próba znalezienia oprogramowania do dyktowania i rozpoznawania głosu w systemie Linux nie jest tak łatwa, jak to tylko możliwe, a dostępne opcje nie są tak sprytne.

Ta strona wikipedii zawiera listę potencjalnych opcji, w tym CMU Sphinx, Julius i Simon.

Używam SparkyLinux, który jest oparty na testach Debiana i mogę powiedzieć, że jedynym pakietem rozpoznawania głosu dostępnym w repozytoriach jest Sphinx.

Rodzimymi programami Linuxa, które próbowałem, były PocketSphinx, które służyłem do konwersji plików WAV do tekstu i Freespeech-VR, który jest aplikacją pythonową, która pozwala nagrywać bezpośrednio z mikrofonu.

Wypróbowałem też kilka aplikacji Chrome, w tym VoiceNote II i Dictanote.

W końcu próbowałem aplikacji "Dictation and Email" i "Talk And Talk Dictation" na Androida.

Freespeech-VR

Freespeech-VR nie jest dostępny w standardowych repozytoriach. Pobrałem pliki tutaj.

Po pobraniu i wyodrębnieniu zawartości pliku zip otworzyłem terminal i przeszedłem do folderu, z którego pliki zostały wyodrębnione. Wprowadziłem następujące polecenie, aby otworzyć freespeech-vr.

sudo python freespeech-vr

Mam słuchawki z dość przyzwoitym mikrofonem i dość wyraźnym akcentem z południowego angielskiego.

W oknie freespeech-vr pojawił się następujący tekst:

Witajcie na psach z wynikami Dzisiaj Upewnij się, jak zarządzać testami Musisz przetestować Kiedy do tekstu Używasz sposobu systemowego Mowa I do Do każdego Do tylko w A Aby mieć nadzieję na pozostanie I Do środka Jednej kurki złotej jako system Ea, gdy to moje imię, następny dzwonek dzwoni telefon Ten plik Wkrótce telefon skrzynki do Hands-Space sfinks Going To nie telefony będą udostępniane Wyszkoleni i narzędzia Używaj mówienia Kiedy skończysz Powiedz Użyty plik Ostatni opowiadanie A i używanie przez Kiedy to jest jak sukces Ten Linux był taki, jak Ty unikasz

Chciałbym teraz powiedzieć, że to nie jest strona Unit Of Dogs iw żadnym momencie nie wspomniałem nic wspólnego ze złotymi kurczakami. Próbowałem opisać proces korzystania z oprogramowania do rozpoznawania głosu.

Kilka razy wypróbowałem oprogramowanie, w tym zmienną wysokość i prędkość, ale dokładność była słaba.

PocketSphinx

PocketSphinx jest w stanie pobrać plik WAV i przekonwertować go na tekst za pomocą wiersza poleceń. PocketSphinx jest dostępny za pośrednictwem repozytoriów Debiana i powinien być dostępny dla większości dystrybucji.

Głównym problemem, który znalazłem w PocketSphinx jest to, że praktycznie potrzebujesz dyplomu z zakresu rozpoznawania głosu, plików językowych, słowników i sposobu szkolenia systemu.

Po zainstalowaniu PocketSphinx powinieneś udać się na stronę CMU Sphinx i przeczytać jak najwięcej informacji. Należy również pobrać następujący plik modelu.

Angielski angielski model ogólny

(Jeśli nie jesteś native speakerem języka angielskiego, wybierz odpowiedni model językowy).

Dokumentacja dla PocketSphinx i Sphinx ogólnie jest trudna do zrozumienia dla świeckich, ale z tego, co mogłem wyczytać, pliki słowników są używane w celu zapewnienia listy możliwych słów, a modele językowe mają listę potencjalnych wymowy.

Do przetestowania PocketSphinx wykorzystałem nagranie mojego własnego głosu, fragment Al Pacino w "The Devils Advocate" oraz fragment z "Morgan Freeman". Chodziło o to, by wypróbować różne głosy, a dla mnie nie ma nikogo, kto potrafiłby opowiedzieć historię tak jasno, jak Morgan Freeman i nikt nie przedstawiłby takiej linii jak Al Pacino.

Aby PocketSphinx działał, potrzebuje pliku WAV i musi mieć określony format. Jeśli plik jest w formacie MP3, użyj polecenia ffmpeg, aby przekonwertować go do formatu WAV:

ffmpeg -i nazwa pliku wejściowego.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Aby uruchomić PocketSphinx, użyj następującego polecenia:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous pobiera plik WAV i konwertuje go na tekst.

W powyższym poleceniu, pocketsphinx ma użyć pliku słownika o nazwie "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" z modelem językowym "cmusphinx-5.0-en-us.lm". Plik konwertowany na tekst nazywa się voice2.wav (jest to nagranie wykonane moim głosem). Wreszcie 2> umieszcza wszystkie pełne dane wyjściowe, które niekoniecznie są potrzebne w pliku o nazwie voice2.log. Rzeczywiste wyniki testu są wyświetlane w oknie terminala.

Wyniki z wykorzystaniem mojego głosu są następujące:

witaj w kolejnej o dobrze no nie w tym tygodniu temat, o który program rozpoznawania za minutę

Rezultaty nie są tak przerażające jak w przypadku freespeech-vr, ale wciąż nie nadają się do użytku. Potem próbowałem używać PocketSphinx z Al Pacino, ale to nie zwróciło żadnych wyników.

W końcu spróbowałem użyć głosu Morgana Freemana z filmu "Bruce Wszechmogący" i oto wyniki:

000000000: będziemy na niej000000001: wszystko to jest tak trudne w dniu, w którym teraz, tak, to najbardziej żyjemy, jestem częścią gorącego000000002: w windzie, który jest kluczem do gry w baseball lub wie, co robić w życiu000000003: jakie są te, które zostaną odzyskane000000004: nie napisali tego000000005: mają mnie na wyciągnięcie ręki000000006: musisz być zasadami000000007: Spodziewałem się ciebie000000008: i nauczył się tutaj, że była ilustracją, było zabójcze przyjęcie świąteczne000000009: okazuje się jednym ze sposobów pisania o. tyłek myślałem, że niewielu zawsze nosi jeden000000010: jak ten problem zjednoczony nie da mu dobra, oceniam je w tym momencie, kiedy nie wszystko, co myślisz, że jestem na świecie, będzie domem i widziałem to000000011: ojciec, który to ma000000012: co za dużo na ten temat000000013: robi to podając000000014: wszystko, co Ci się nie podoba000000015: tuż przy upadku000000016: trzymaj się tylko dla mnie000000017: to nieszczęśliwy, jeśli myślę, że oni będą mieli to, że to wszystko, co będzie żonaty na nie było, nie lubię, w przeciwieństwie do sposobu

Mój test nie może być uznany za naukowy, a twórcy PocketSphinx mogą stwierdzić, że nie używam poprawnie oprogramowania. Istnieje również technika nazywana szkoleniem głosowym, która może być wykorzystana do tworzenia lepszych słowników i plików językowych.

Moją nadrzędną opinią jest jednak to, że jest zbyt trudne do standardowego codziennego użytku.

VoiceNote II

VoiceNote II to aplikacja Chrome korzystająca z interfejsu API rozpoznawania Google Voice.

Jeśli korzystasz z przeglądarki Chrome lub Chromium, możesz zainstalować VoiceNote II za pośrednictwem sklepu internetowego.

Ikony na VoiceNote II są ułożone w dziwny sposób, ponieważ musisz ustawić język w dolnej części okna, a przycisk edycji jest również na dole, jednak przycisk nagrywania znajduje się w prawym górnym rogu.

Pierwszą rzeczą, którą musisz zrobić, to wybrać język i można to osiągnąć, klikając ikonę świata.

Aby rozpocząć nagrywanie, kliknij ikonę mikrofonu i zacznij mówić do mikrofonu. Dla uzyskania najlepszych wyników stwierdziłem, że mówienie powoli było kluczowe, aby oprogramowanie miało szansę nadążyć.

Wyniki nie były wspaniałe, jak można zobaczyć poniżej:

Witam i zapraszam do podłączenia. Go-Travels.com dzisiejsze artykuły na temat konwersji głosu na tekst dunelm recesja w Farrell 2008 jako konwersje i powiedział, że jest obsługiwany najlepszy sposób, w jaki znalazłem dodatek tekstowy do wyświetlenia pakietu 2014debian lub rpm, otwórz go, głosowy, na mowę, do tekstu, otwórz go, jeśli chcesz wybrać vs wybrał w Edynburgu francuski niemiecki dostać czas w Zjednoczonym Królestwie na morzu na microphonewhat skończyłeś pisać swój tekst jako plik tekstowy do itsuccess dobrze to jest bardzo standardowy angielski akcent z południowej Anglii najlepiej dla niego, ale idę do textvia tego torrentalong z faktycznym dokumentem i możesz zobaczyć błędy, które zmuszają cię do słuchania

Dictanote

Dictanote to kolejna aplikacja Chrome, która może być używana do celów dyktowania i okazała się być bardziej intuicyjna, ale wyniki nie były lepsze niż VoiceNote II.

Użyłem tylko wersji demonstracyjnej Dictanote, która uniemożliwia tworzenie nowych dokumentów, ale pozwala mówić o tekście, który jest już w edytorze. Udało mi się przetestować rozpoznawanie głosu, ale wyniki nie były lepsze niż VoiceNote II, więc nie zapisałem się do wersji pro.

Dyktando i poczta

"Dictation And Mail" to aplikacja dla systemu Android, która korzysta z natywnego interfejsu API rozpoznawania głosu Google.

Wyniki z "Dictation and Mail" były znacznie lepsze niż jakikolwiek inny program, do tej pory próbowany.

witam serdecznie w Linuksie. Dziś mówimy o konwersji dźwięku na tekst

Sztuczka z "Dictation and Mail" polega na tym, aby mówić powoli i wymawiać tak dobrze, jak potrafisz, z jednakowym akcentem.

Po zakończeniu rozmowy możesz przesłać wyniki do siebie.

Dictation Talk and Talk

Drugą aplikacją Android, którą wypróbowałem, była "Dyskusja mów i mów".

Interfejs tej aplikacji był najlepszy w tej grupie, a rozpoznawanie głosu działało bardzo dobrze. Po nagraniu dyktanda mogłem podzielić się wynikami na różne sposoby, w tym pocztą elektroniczną.

witamy na stronie linux Go-Travels.com, dzisiaj mówimy o konwersji mowy na tekst

Jak widać powyższy tekst jest tak czysty, jak można się spodziewać. Mówienie powoli jest kluczem.

streszczenie

Natywny Linux ma wiele do zrobienia w odniesieniu do rozpoznawania głosu, a konkretnie dyktowania. Niektóre aplikacje używają interfejsu API Google Voice, ale nie są jeszcze wymienione w repozytoriach.

Aplikacje na ChromeOS są trochę lepsze, ale zdecydowanie najlepsze wyniki uzyskano przy użyciu mojego telefonu z Androidem. Może telefon ma lepszy mikrofon i dlatego oprogramowanie do rozpoznawania głosu ma większą szansę na konwersję.

Aby rozpoznawanie głosu stało się naprawdę użyteczne, musi być bardziej intuicyjne przy mniejszej wymaganej konfiguracji. Nie powinieneś zajmować się modelami językowymi i słownikami, aby uczynić je zrozumiałym.

Doceniam jednak to, że cała sztuka rozpoznawania głosu jest bardzo trudna, ponieważ każdy ma inny głos i jest tak wiele dialektów z regionu do regionu w jednym kraju, nie martwiąc się o setki języków używanych na całym świecie.

Moją analizą jest zatem to, że oprogramowanie do rozpoznawania głosu jest nadal w toku.