Wprowadzanie do Data Mining

Laboratorium w semestrze letnim 2020/2021 odbywa się zdalnie za pośrednictwem platformy Moodle.

Zaliczenie zajęć odbywa się na podstawie rozwiązań zadań z laboratoriów. Samodzielnie wykonane rozwiązania, w postaci notatników Jupyter (pliki *.ipynb), należy terminowo deponować na stronie kursu w Moodle. W celu uzyskania zaliczenia należy rozwiązać min. 50% zadań.

  • Robert Layton, Learning Data Mining with Python, 2015 (2017 wydanie 2) - dostęp on-line z biblioteki z sieci UMK
  • Pang-Ning Tan, Michael Steinbach, Anuj Karpatne, Introduction to Data Mining (Second Edition), WWW
  1. Przegląd metod Data Mining
  2. Nie za długi wstęp do python, jupyter, numpy, pandas, matlibplot, scikit-learn
  3. Preprocessing, analiza statystyczna danych, wizualizacja danych
    1. wykrywanie anomalii, braki w danych, dane odstające
  4. Regresja
    • Liniowa oraz wielomianowa
    • problem przeuczenia: underfitting/overfitting
  5. Klasyfikacja i ocena klasyfikatorów
    • kNN
    • drzewa decyzyjne
    • SVM
    • kroswalidacja
  6. Analiza skupień
    • k-means
  7. Text mining
  8. Przetwarzanie obrazów
  9. Analiza szeregów czasowych

Zajęcia realizowane są w języku Python z wykorzystaniem notatników Jupyter. W celu realizacji zadań można zainstalować na swoim komputerze środowisko programistyczne lub skorzystać z usług sieciowych umożliwiających edycje i uruchamianie notatników (Google Colab). Python oraz jupyter-notebook dostępne są również na serwerze studenckim polon7.fizyka.umk.pl

Google Colab lub Binder (zalecane)

  • maszyna wirtualna w chmurze
  • wymagane konto Google
  • notatniki przechowywane na Dysku Google
  • Notatniki można tez uruchomić w Binder, nie wymaga założonego konta

Lokalnie na własnym sprzęcie

Notatniki z zajęć można uruchamiać lokalnie na własnych komputerach. Należy w tym celu skonfigurować środowisko Python i Jupyter Notebook lub JupyterLab Wygodnie w tym celu użyć gotowej dystrybucji Anaconda, która zawiera Pythona, Jupyter oraz wiele przydatnych pakietów.

Serwery wydziałowe

Notatniki można również uruchamiać korzystając z serwera polon7. Dostęp z zewnątrz sieci LAN wymaga aktualnego certyfikatu OpenVPN. Usługę notatnika można uruchomić w środowisku graficznym logując się za pomocą VNC lub w terminalu (np. Putty) bez uruchamiania przeglądarki (opcja –no-browser) i tunelując transmisję z portu notatnika (domyślny port to 8888) do lokalnej maszyny.

Przy logowaniu na serwer via ssh można przetunelować port, na którym Jupyter hostuje notatnik (domyślnie 8888') tak aby możliwe było wyświetlenie wyników w przeglądarce internetowej. Polecenie, które tuneluje usługę działającą na porcie 8888 na serwerze polon7 i wystawią ja lokalnie na porcie 8888

ssh -L 8888:localhost:8888 user@polon7.fizyka.umk.pl

Po zalogowaniu przechodzimy do katalogu, w którym znajdują się notatniki.
Notatniki z laboratorium dostępne są w repozytorium GitHub.
Klonowanie repozytorium:

git clone https://github.com/IS-UMK/WDM_2021/

Uruchamianie usługi hostującej notatniki z bieżącego katalogu:

jupyter-notebook --no-browser --port 8888

Domyślnie notatnik uruchamia się na porcie 8888. W przypadku, gdy port ten jest zajęty należy wybrać inny, pamiętając o odpowiedniej zmianie tunelowanego portu przy połączeniu (-L port:localhost:8888').

Następnie w przeglądarce (lokalnie) otwieramy adres http://localhost:8888