Spis treści

Wstęp do Data Mining

Laboratorium w semestrze letnim 2023/24 odbywa się we wtorki w godz. 10-12 w PK4 WFAiIS.

Strona kursu w Moodle: https://moodle.umk.pl/WFAIIS/course/view.php?id=40

Zaliczenie zajęć

Warunki zaliczenia zajęć:

Rozwiązanie muszą być wykonane samodzielnie. Nie jest dozwolone udostępnianie rozwiązań innym osobom do skopiowania oraz wykorzystywanie narzędzi AI do generowania rozwiązań

Literatura

Plan

  1. Nie za długi wstęp do python, jupyter, numpy, pandas, matlibplot, scikit-learn, seaborn
  2. Analiza statystyczna danych, wizualizacja danych
    • preprocessing: wykrywanie anomalii, braki w danych, dane odstające
  3. Regresja
    • Liniowa oraz wielomianowa
    • problem przeuczenia: underfitting/overfitting
  4. Klasyfikacja i ocena klasyfikatorów
    • regresja logistyczna
    • kNN
    • drzewa decyzyjne
    • SVM
    • walidacja krzyżowa (cross validation)
  5. Analiza skupień
    • k-means
    • metody hierarchiczne, dendrogramy
    • DBSCAN
  6. Text mining
    • worek słów (BOW)
  7. Przetwarzanie obrazów
    • PCA do kodowania obrazów
  8. Analiza szeregów czasowych (?)

Laboratoria: notatniki i zadania

Lab 1. Wprowadzenie do Python i Jupyter

Moodle: Zadanie 1
GitHub: wdm_lab_01

Lab 2. Numpy i matplotlib

Moodle: Zadanie 2
GitHub: wdm_lab_02

Lab. 3 Pandas i Seaborn

Moodle: Zadanie 3
GitHub: wdm_lab_03

Lab. 4 Preprocessing

Moodle: Zadanie 4
GitHub: wdm_lab_04

Lab. 5 Regresja

Moodle: Zadanie 5
GitHub: wdm_lab_05

Lab. 6 Klasyfikacja

Moodle: Zadanie 6
GitHub: wdm_lab_06

Lab. 7 Ocena klasyfikacji

Moodle: Zadanie 7
GitHub: wdm_lab_07

Lab. 8 Analiza skupień

Moodle: Zadanie 8
GitHub: wdm_lab_08

Lab. 9 Analiza tesktu

Moodle: Zadanie 9
GitHub: wdm_lab_09

Lab. 10 Redukcja wymiarowości

Moodle: Zadanie 10
GitHub: wdm_lab_10

Środowisko pracy

Laboratoria realizowane są w języku Python z wykorzystaniem notatników Jupyter. Na pracowni komputerowej dostępna jest dystrybucja Anaconda (zalecane środowisko na zajęciach) zawierająca wszystkie niezbędne biblioteki i narzędzia. Możliwe jest również wykorzystanie usług sieciowych umożliwiających edycję i uruchamianie notatników, jak Google Colab lub Binder. Python oraz jupyter-notebook dostępne są również na serwerze studenckim polon7.fizyka.umk.pl

Praca lokalnie (na pracowni lub własnym komputerze)

  1. Jeśli chcesz korzystać z repozytoriów GitHub do przesyłania rozwiązań to utwórz prywatną kopie repozytorium klikając na adres podany w Moodle
  2. Pobierz notatnik ipynb, np. klonując repozytorium GitHub
  3. Otwórz wiersz poleceń Anaconda i przejdź do katalogu zawierającego pobrane pliki
  4. Uruchom serwer Jupyter poleceniem
    jupyter-notebook

    lub

    jupyter-lab
  5. Po wykonaniu zadań zapisz notatnik
  6. Umieść rozwiązanie w Moodle lub w repozytorium GitHub

Google Colab (lub Binder)

Google colaboratory umożliwia zapis notatników do prywatnych repozytoriów GitHub, usługa Binder umożliwia wyłącznie import publicznych repozytoriów GitHub.

  1. Utwórz kopie repozytorium z notatnikiem poprzez link podany w Moodle
    https://moodle.umk.pl/WFAIIS/course/view.php?id=41#section-1
  2. Uruchom notatnik w Google Colab klikając
  3. Po wykonaniu zadania zapisz notatnik w repozytorium GitHub
    PlikZapisz notatnik w usłudze GitHub

Kilka przydatnych odnośników