To tylko jedna z 6 stron tej notatki. Zaloguj się aby zobaczyć ten dokument.
Zobacz
całą notatkę
Rozmiar największej operacyjnej bazy danych w roku 2005 osiągnął 23 TB. Największa
hurtownia danych to 100 TB (YAHOO). Prognozowany dalszy wzrost baz danych np. CERN
stworzył bazę dla składowania niemal 1Exabajta danych (1EB=1024PB=1018TB)
KDD- Knowledge Discovery In Databases.
DBMS- Database Management System
Dana- ciąg znaków np. 100®C
Wiedza- informacja powiązana relacjami
Bardzo duże rozmiary gromadzonych danych z góry, wykluczają możliwość ręcznej analizy
pozyskiwanych informacji. Techniki analizy statystycznej również zawodzą w obliczu ilości
danych i nie są w stanie zapewnić zadowalającej szybkości przetwarzania i analizy. Pozostają
metody automatycznego lub półautomatycznego pozyskiwania wiedzy z ogromnych
wolumenów danych.
Eksploracja danych-proces odkrywania nowych, wcześniej nieznanych, potencjalnie
użytecznych, zrozumiałych i poprawnych wzorców w bardzo dużych wolumenach danych.
Celem eksploracji danych jest analiza danych i procesów w celu lepszego ich zrozumienia.
Eksploracja danych nie jest:
Procesem odkrywania wiedzy-jest ona jednym z etapów tego procesu
Klasycznym narzędziem do raportowania
Procesem automatycznym prowadzonym bez nadzoru
Procesem, który szuka przyczyny problemów bieżących
Łatwym i szybkim procesem
Przykłady zapytań do depozytoriów danych:
Do bazy danych (zapytanie operacyjne); Ile sztuk soku sprzedano w kwartale 2009
roku w sklepie…
Do hurtowni danych (zapytanie analityczne). Ile sprzedano sztuk soków w sieci
sklepów.
Przykłady zapytań eksploracyjnych:
Jakie jeszcze inne produkty kupują klienci, którzy zakupili soki ?
Czym różnią się koszyki klientów kupujących soki i wodę mineralną ?
W jaki sposób pogrupować klientów kupujących soki ?
Czy można dokonać predykcji, że dany klient kupi sok ?
Etapy odkrywania wiedzy z danych:
1. Definiowanie celu
2. Czyszczenie danych
3. Integracja danych
4. Selekcja
5. Transformacja
6. Data mining- eksploracja danych
7. Oszacowanie modeli
8. Prezentacja wiedzy
CRISP-DM (Cross-Industry Standard Piecess for Data Mining)
Twórcami modelu CRISP-DM są NCR System Engineering Copenhagen (Dania).
CRISP-DM:
1. Zrozumienie uwarunkowań biznesowych
2. Zrozumienie danych (wstępna analiza EDA)
3. Przygotowanie danych
4. Modelowanie
5. Ewaluacja
6. Wdrożenie
SEMMA (Sample, Explore, Modify, Model, Asses)
Został zaprojektowany przez SAS Institute. Wyróżnia 5 etapów eksploracji danych:
1. Próbkowanie
2. Eksploracja
3. Modyfikowanie
4. Modelowanie
5. Ocena
DMAIC:
1. Definiowanie
2. Pomiar
3. Analiza
4. Usprawnienia
5. Kontrola
Model VCofDM (Vittous Cycle of Data Mining) zmodyfikowany został przez wybranych
specjalistów z dziedziny eksploracji danych M.J.A. Beriego iG. Linoffa.
Etapy:
1. Zidentyfikowanie problemów biznesowych
2. Przekształcenie danych w informacje
3. Podjęcie działań
4. Mierzenie i ocena wyników
Porównanie modeli eksploracji danych:
CRISP-DM- wskazanie podmiotów realizujących projekt klienta i analityka danych,;
minus pełna autonomia podmiotu realizującego
... zobacz całą notatkę
Komentarze użytkowników (0)