Eksploracja danych za pomocą klastrowania K-średnich

The k- oznacza algorytm skupienia to narzędzie do eksploracji danych i uczenia maszynowego służące do grupowania obserwacji w grupy powiązanych obserwacji bez uprzedniej znajomości tych zależności. Przez próbkowanie algorytm próbuje pokazać, do której kategorii lub klastra należą dane, z liczbą klastrów określoną przez wartość k.

The k- oznacza, że algorytm jest jedną z najprostszych technik grupowania i jest powszechnie stosowany w obrazowaniu medycznym, biometrii i dziedzinach pokrewnych. Zaleta k- oznacza, że klastrowanie polega na tym, że mówi o twoich danych (używając jego nienadzorowanej formy), zamiast o tym, że musisz poinstruować algorytm o danych na początku (używając nadzorowanej postaci algorytmu).

Czasami określa się go mianem algorytmu Lloyda, szczególnie w kręgach informatycznych, ponieważ standardowy algorytm został po raz pierwszy zaproponowany przez Stuarta Lloyda w 1957 r. Termin "k-means" został ukuty w 1967 r. Przez Jamesa McQueena.

Jak działają funkcje algorytmu K-średnich

The k- oznacza algorytm ewolucyjny, który zyskuje swoją nazwę od metody działania. Algorytm gromadzi obserwacje w k grupy, gdzie k jest podawany jako parametr wejściowy. Następnie przypisuje każdą obserwację do klastrów w oparciu o bliskość obserwacji do średniej klastra. Średnia klastra jest następnie przeliczana, a proces rozpoczyna się od nowa. Oto, jak działa algorytm:

Algorytm wybiera dowolnie k wskazuje jako początkowe centra skupienia (środki).
Każdy punkt w zestawie danych jest przypisywany do zamkniętego klastra, w oparciu o odległość euklidesową między każdym punktem a każdym centrum skupienia.
Każde centrum klastrów jest obliczane jako średnia punktów w tym klastrze.
Kroki 2 i 3 powtarzaj, aż klastry się zbiegną. Zbieżność może być różnie definiowana w zależności od implementacji, ale normalnie oznacza to, że żadne obserwacje nie zmieniają klastrów po powtórzeniu kroków 2 i 3 lub że zmiany nie powodują istotnej różnicy w definicji klastrów.

Wybór liczby klastrów

Jedną z głównych wad k- oznacza klastrowanie to fakt, że musisz podać liczbę klastrów jako dane wejściowe do algorytmu. Zgodnie z projektem algorytm nie jest w stanie określić odpowiedniej liczby klastrów i zależy od użytkownika, aby z góry to zidentyfikować.

Na przykład, jeśli masz grupę osób, które mają być grupowane na podstawie binarnej tożsamości płciowej jako mężczyzna lub kobieta, wywołanie k- oznacza algorytm używający wejścia k = 3 zmusiłoby ludzi do trzech klastrów, gdy tylko dwa, lub wejście k = 2, zapewni bardziej naturalne dopasowanie.

Podobnie, jeśli grupa osób była łatwo zgrupowana w oparciu o stan domowy, a Ty zadzwoniłeś do k- oznacza algorytm z wejściem k = 20, wyniki mogą być zbyt ogólne, aby były skuteczne.

Z tego powodu często warto eksperymentować z różnymi wartościami k określić wartość, która najlepiej pasuje do danych. Możesz także chcieć zbadać wykorzystanie innych algorytmów eksploracji danych w poszukiwaniu wiedzy o maszynach.