Spis treści

Wprowadzanie do Data Mining

Laboratorium w semestrze letnim 2022/23 odbywa się w poniedziałki w godz. 12-14 w PK1 WFAiIS.

Strona kursu w Moodle: https://moodle.umk.pl/WFAIIS/course/view.php?id=40

Zaliczenie zajęć

Zaliczenie zajęć odbywa się na podstawie rozwiązań zadań z laboratoriów.
Rozwiązania, w postaci notatników Jupyter (pliki *.ipynb), należy terminowo deponować na stronie kursu w Moodle lub w prywatnych repozytoriach GitHub utworzonych poprzez adresy podane na stronie kursu Moodle.
Warunkiem zaliczenia laboratorium jest zaliczenie co najmniej 6 z 10 zadań.

Rozwiązanie muszą być wykonane samodzielnie. Nie jest dozwolone udostępnianie rozwiązań innym osobom

Literatura

Plan

  1. Nie za długi wstęp do python, jupyter, numpy, pandas, matlibplot, scikit-learn, seaborn
  2. Analiza statystyczna danych, wizualizacja danych
    • preprocessing: wykrywanie anomalii, braki w danych, dane odstające
  3. Regresja
    • Liniowa oraz wielomianowa
    • problem przeuczenia: underfitting/overfitting
  4. Klasyfikacja i ocena klasyfikatorów
    • regresja logistyczna
    • kNN
    • drzewa decyzyjne
    • SVM
    • walidacja krzyżowa (cross validation)
  5. Analiza skupień
    • k-means
    • metody hierarchiczne, dendrogramy
    • DBSCAN
  6. Text mining
    • worek słów (BOW)
  7. Przetwarzanie obrazów
    • PCA do kodowania obrazów
  8. Analiza szeregów czasowych (?)

Laboratoria: notatniki i zadania

Lab. WDM 2025

Lab 1. Wprowadzenie do Python i Jupyter

Moodle: Zadanie 1
GitHub: wdm_lab_01

Lab 2. Numpy i matplotlib

Moodle: Zadanie 2
GitHub: wdm_lab_02

Lab. 3 Pandas i Seaborn

Moodle: Zadanie 3
GitHub: wdm_lab_03

Lab. 4 Preprocessing

Moodle: Zadanie 4
GitHub: wdm_lab_04

Lab. 5 Regresja

Moodle: Zadanie 5
GitHub: wdm_lab_05

Lab. 6 Klasyfikacja

Moodle: Zadanie 6
GitHub: wdm_lab_06

Lab. 7 Ocena klasyfikacji

Moodle: Zadanie 7
GitHub: wdm_lab_07

Lab. 8 Analiza skupień

Moodle: Zadanie 8
GitHub: wdm_lab_08

Lab. 9 Analiza tesktu

Moodle: Zadanie 9
GitHub: wdm_lab_09

Lab. 10 Redukcja wymiarowości

Moodle: Zadanie 10
GitHub: wdm_lab_10

Środowisko pracy

Laboratoria realizowane są w języku Python z wykorzystaniem notatników Jupyter. Na pracowni komputerowej dostępna jest dystrybucja Anaconda (zalecane środowisko na zajęciach) zawierająca wszystkie niezbędne biblioteki i narzędzia. Możliwe jest również wykorzystanie usług sieciowych umożliwiających edycję i uruchamianie notatników, jak Google Colab lub Binder. Python oraz jupyter-notebook dostępne są również na serwerze studenckim polon7.fizyka.umk.pl

Praca lokalnie (na pracowni lub własnym komputerze)

  1. Jeśli chcesz korzystać z repozytoriów GitHub do przesyłania rozwiązań to utwórz prywatną kopie repozytorium klikając na adres podany w Moodle
  2. Pobierz notatnik ipynb, np. klonując repozytorium GitHub
  3. Otwórz wiersz poleceń Anaconda i przejdź do katalogu zawierającego pobrane pliki
  4. Uruchom serwer Jupyter poleceniem
    jupyter-notebook

    lub

    jupyter-lab
  5. Po wykonaniu zadań zapisz notatnik
  6. Umieść rozwiązanie w Moodle lub w repozytorium GitHub

Google Colab (lub Binder)

Google colaboratory umożliwia zapis notatników do prywatnych repozytoriów GitHub, usługa Binder umożliwia wyłącznie import publicznych repozytoriów GitHub.

  1. Utwórz kopie repozytorium z notatnikiem poprzez link podany w Moodle
    https://moodle.umk.pl/WFAIIS/course/view.php?id=41#section-1
  2. Uruchom notatnik w Google Colab klikając
  3. Po wykonaniu zadania zapisz notatnik w repozytorium GitHub
    PlikZapisz notatnik w usłudze GitHub

Zajęcia realizowane są w języku Python z wykorzystaniem notatników Jupyter. W celu realizacji zadań można zainstalować na swoim komputerze środowisko programistyczne lub skorzystać z usług sieciowych umożliwiających edycję i uruchamianie notatników (Google Colab). Python oraz jupyter-notebook dostępne są również na serwerze studenckim polon7.fizyka.umk.pl

Google Colab lub Binder (zalecane)

Lokalnie na własnym sprzęcie

Notatniki z zajęć można uruchamiać lokalnie na własnych komputerach. Należy w tym celu skonfigurować środowisko Python i Jupyter Notebook lub JupyterLab Wygodnie w tym celu użyć gotowej dystrybucji Anaconda, która zawiera Pythona, Jupyter oraz wiele przydatnych pakietów.

Kilka przydatnych odnośników