Zastosowanie klasyfikacji w eksploracji danych

Klasyfikacja jest techniką eksploracji danych, która przypisuje kategorie do zbioru danych w celu ułatwienia dokładniejszych prognoz i analiz. Zwany także czasami nazywany a Drzewo decyzyjne , klasyfikacja jest jedną z kilku metod mających na celu sprawdzenie skuteczności analizy bardzo dużych zbiorów danych.

Dlaczego klasyfikacja?

Bardzo duże bazy danych stają się normą we współczesnym świecie duże dane . Wyobraź sobie bazę danych z wieloma terabajtami danych - terabajt to jeden kwintylion bajty danych.

Sam serwis Facebook codziennie przesyła 600 terabajtów nowych danych (dane z 2014 r., Kiedy ostatnio podawały te specyfikacje). Podstawowym wyzwaniem dużych zbiorów danych jest to, jak nadać im sens.

I sama objętość nie jest jedynym problemem: duże zbiory danych również są zróżnicowane, nieustrukturyzowane i szybko się zmieniają. Zastanów się nad danymi audio i wideo, postami w mediach społecznościowych, danymi 3D lub danymi geoprzestrzennymi. Tego rodzaju danych nie można łatwo kategoryzować ani organizować.

Aby sprostać temu wyzwaniu, opracowano szereg automatycznych metod wyodrębniania użytecznych informacji Klasyfikacja .

Jak działa klasyfikacja

Niebezpieczeństwo przesuwania się zbyt daleko w stronę technologii mówią, jak działa klasyfikacja. Celem jest stworzenie zestawu reguł klasyfikacji, które odpowiedzą na pytanie, podejmą decyzję lub przewidują zachowanie. Na początek opracowano zestaw danych szkoleniowych, który zawiera pewien zestaw atrybutów, jak również prawdopodobny wynik.

Zadaniem algorytmu klasyfikacji jest odkrycie, jak ten zbiór atrybutów dochodzi do końca.

Scenariusz: Być może firma wydająca karty kredytowe próbuje ustalić, którzy potencjalni klienci powinni otrzymać ofertę kart kredytowych.

Może to być zestaw danych szkoleniowych:

**Dane treningowe**

Imię	Wiek	Płeć	Roczny dochód	Oferta kart kredytowych
nieznany z nazwiska	25	M	$39,500	Nie
Jane Doe	56	fa	$125,000	tak

Kolumny "predykator" Wiek , Płeć , i Roczny dochód określić wartość "atrybutu predykcyjnego" Oferta kart kredytowych . W zbiorze treningowym znany jest atrybut predykcyjny. Algorytm klasyfikacji próbuje następnie ustalić, w jaki sposób osiągnięto wartość atrybutu predykcyjnego: jakie istnieją zależności między predyktorami a decyzją? Opracuje zestaw reguł predykcyjnych, zwykle instrukcje IF / THEN, na przykład:

IF (wiek> 18 lat lub wiek <75) i roczny dochód> 40 000 THEN oferty karty kredytowej = tak

Oczywiście jest to prosty przykład, a algorytm wymagałby znacznie większego próbkowania danych niż dwa pokazane tutaj pliki. Co więcej, reguły przewidywania będą prawdopodobnie znacznie bardziej złożone, w tym podpozycje w celu przechwycenia szczegółów atrybutu.

Następnie algorytm otrzymuje "zestaw prognoz" danych do analizy, ale w tym zestawie brakuje atrybutu przewidywania (lub decyzji):

**Dane predykcyjne**

Imię	Wiek	Płeć	Roczny dochód	Oferta kart kredytowych
Dziadek Mróz	42	M	$88,000
Mary Murray	16	fa	$0

Dane tego predyktora pomagają oszacować dokładność reguł przewidywania, a reguły są następnie modyfikowane, dopóki programista nie uzna, że prognozy są skuteczne i użyteczne.

Codzienne przykłady klasyfikacji

Klasyfikacja i inne techniki eksploracji danych stanowią podstawę wielu naszych codziennych doświadczeń jako konsumentów.

Prognozy pogody mogą wykorzystywać klasyfikację do zgłaszania, czy dzień będzie deszczowy, słoneczny czy pochmurny. Lekarze mogą analizować warunki zdrowotne, aby przewidzieć wyniki leczenia. Typ metody klasyfikacji, Naive Bayesian, wykorzystuje prawdopodobieństwo warunkowe do kategoryzacji spamu. Od wykrywania oszustw po oferty produktów - codziennie analizuje dane i tworzy prognozy za kulisami.