Ngram, nazywany potocznie N-gramem, to analiza statystyczna treści tekstowej lub mowy do znalezienia n (liczba) jakiegoś elementu w tekście.
Przedmiotem wyszukiwania mogą być różne rzeczy, takie jak fonemy, przedrostki, wyrażenia lub litery. Chociaż N-gram jest nieco niejasny poza środowiskiem badawczym, jest wykorzystywany w wielu dziedzinach i ma wiele implikacji dla programistów kodujących programy komputerowe, które rozumieją i odpowiadają na naturalny język mówiony.
W przypadku Google Books Ngram Viewer, tekst do analizy pochodzi z ogromnej liczby książek, które Google zeskanowało z bibliotek publicznych w celu zapełnienia ich wyszukiwarki Google Books. W przypadku przeglądarki Ngram w Książkach Google odnoszą się one do tekstu, który zamierzasz wyszukać jako ciało . Przeglądarka Ngram agreguje według języka, chociaż można osobno analizować brytyjski i amerykański angielski lub połączyć je razem.
Jak działa Ngram
-
Przejdź do Google Book Ngram Viewer na books.google.com/ngrams.
-
Wpisz dowolną frazę lub frazy, które chcesz przeanalizować. Oddziel każdą frazę przecinkiem. Google sugeruje, "Albert Einstein, Sherlock Holmes, Frankenstein", aby zacząć. W elementach uwzględniana jest wielkość liter, w przeciwieństwie do wyszukiwania w Internecie Google.
-
Wpisz zakres dat. Wartość domyślna to 1800 do 2000.
-
Wybierz korpus. Możesz wyszukiwać teksty w języku obcym lub angielski, a oprócz standardowych opcji możesz zauważyć na przykład "Angielski (2009) lub amerykański angielski (2009)". Są to starsze korporacje od czasu aktualizacji Google, ale możesz mieć powody, by dokonywać porównań ze starymi zestawami danych. Większość użytkowników może je zignorować i skupić się na najnowszych ciałach.
-
Ustaw poziom wygładzania. Wygładzanie odnosi się do tego, jak gładki jest wykres na końcu. Najdokładniejszą reprezentacją będzie poziom wygładzania równy 0, ale ustawienie to może być trudne do odczytania. Ustawienie domyślne to 3. W większości przypadków nie trzeba go dostosowywać.
-
wciśnij Szukaj wielu książek przycisk.
Google pozwala ci trochę drążyć z Ngram Viewer. Jeśli chcesz szukać ryb, czasownik zamiast ryb rzeczownik, możesz to zrobić za pomocą tagów. W takim przypadku musisz wyszukać hasło "fish_VERB"
Google udostępnia pełną listę poleceń, których możesz użyć, oraz inną zaawansowaną dokumentację na swojej stronie internetowej.
Co pokazuje Ngram?
Przeglądarka Ngram w Książkach Google wyświetli wykres ilustrujący wykorzystanie określonej frazy w książkach w czasie. Jeśli wprowadziłeś więcej niż jedno słowo lub frazę, zobaczysz kolorowe linie do kontrastowania różnych wyszukiwanych terminów. Jest to bardzo podobne do Google Trends, tylko wyszukiwanie obejmuje dłuższy okres.
Case Study
Rozważmy studium przypadku ciast octowych. Wspominają je Laura Ingalls Wilder's Mały dom na prerii seria. Odkrywanie za pomocą wyszukiwarki Google, aby dowiedzieć się więcej o ciastkach z octu, ujawnia, że są one uważane za część amerykańskiej kuchni południowej i naprawdę są zrobione z octu. Usłyszeli powrót do czasów, gdy nie wszyscy mieli dostęp do świeżych produktów o każdej porze roku. Ale czy to wszystko?
Wyszukaj Google Ngram Viewer dla ocet kołowy i napotkacie pewne wzmianki na temat tortu zarówno we wczesnych, jak i późnych latach 1800, wiele wzmianek w latach czterdziestych i coraz więcej wzmianek w ostatnim czasie. Jednak z poziomem wygładzania 3 zobaczysz płaskowyż nad wzmiankami z XIX wieku. Ponieważ w tym czasie nie ma zbyt wielu książek, a nasze dane są wygładzone, zniekształcają obraz. Prawdopodobnie była jedna książka, która wspomniała o occie, a to zostało uśrednione, by uniknąć kolca. Ustawiając wygładzenie na 0, widzimy, że tak właśnie jest. Spike Center w 1869 roku, a jest inny skok w 1897 i 1900 roku.
Jest mało prawdopodobne, aby nikt nie mówił o ciastkach z octem przez resztę czasu: Prawdopodobnie przepisy były pływające w całym miejscu, ale ludzie po prostu nie pisać o nich w książkach i jest to ważne ograniczenie tych wyszukiwań Ngram.




