Spis treści

Wstęp do Data Mining 2026

Strona kursu w Moodle: https://moodle.umk.pl/course/view.php?id=9852

Zaliczenie zajęć

Warunki zaliczenia zajęć:

Zadania z laboratorium

Warunkiem zaliczenia zajęć jest rozwiązanie co najmniej 6 zadań z laboratorium.
Rozwiązania zadań, w postaci notatników Jupyter (pliki *.ipynb), należy terminowo deponować w prywatnych repozytoriach GitHub utworzonych poprzez adresy podane na stronie kursu Moodle. Zadania będą realizowane podczas laboratorium. Możliwe jest dokończenie zadań po zajęciach i przesłanie rozwiązania w terminie do końca tygodnia, w którym odbyły się zajęcia. Zadania przesłane po tym terminie nie będą oceniane. Zadanie uzyskuje zaliczenie, jeżeli rozwiązanie realizuje co najmniej 50% treści zadania.

Skala ocen:

Uwaga: zadania muszą być wykonane samodzielnie. Nie jest dozwolone udostępnianie rozwiązań innym osobom w celu ich skopiowania ani wykorzystywanie narzędzi AI do generowania rozwiązań. W przypadku wątpliwości dotyczących samodzielności rozwiązania, prowadzący zajęcia zastrzega sobie prawo do przeprowadzenia dodatkowej rozmowy w celu weryfikacji wiedzy i umiejętności studenta.

Projekt zaliczeniowy

Uzyskanie oceny „dobra z plusem” lub „bardzo dobra”, oprócz wykonania zadań z laboratorium, wymaga zrealizowania projektu w postaci aplikacji demonstrującej zastosowanie wybranych metod Data Mining. Termin zgłaszania tematów projektów mija 31 maja 2026 r. Do tego czasu należy umieścić krótki opis projektu w pliku README.md w repozytorium GitHub.

Propozycje tematów projektów

Zaliczenie projektu odbywa się na podstawie prezentacji projektu podczas indywidualnej rozmowy z prowadzącym zajęcia. Realizacja projektu podnosi ocenę o jeden stopień.

Skala ocen:

Literatura

Plan

  1. Krótki kurs wstępny do Pythona, Jupyter, NumPy, Pandas, matplotlib, scikit-learn i Seaborn
  2. Analiza statystyczna danych i wizualizacja danych
    • preprocessing: wykrywanie anomalii, braki w danych, wartości odstające
  3. Regresja
    • liniowa oraz wielomianowa
    • problem przeuczenia: underfitting/overfitting
  4. Klasyfikacja i ocena klasyfikatorów
    • regresja logistyczna
    • kNN
    • drzewa decyzyjne
    • SVM
    • walidacja krzyżowa (cross-validation)
  5. Analiza skupień
    • k-means
    • metody hierarchiczne, dendrogramy
    • DBSCAN
  6. Text mining
    • worek słów (bag-of-words, BOW)
  7. Przetwarzanie obrazów
    • PCA do kodowania obrazów

Laboratoria: notatniki i zadania

Lab 1. Wprowadzenie
Moodle: Zadanie 1
GitHub: wdm_lab_01

Lab 2. Numpy i matplotlib
Moodle: Zadanie 2
GitHub: wdm_lab_02

Lab. 3 Pandas i Seaborn
Moodle: Zadanie 3
GitHub: wdm_lab_03

Środowisko pracy

Laboratoria realizowane są w języku Python z wykorzystaniem notatników Jupyter. Na pracowni komputerowej dostępna jest dystrybucja Anaconda (zalecane środowisko na zajęciach), zawierająca wszystkie niezbędne biblioteki i narzędzia. Możliwe jest również korzystanie z usług umożliwiających edycję i uruchamianie notatników w chmurze, takich jak Google Colab czy Binder.

Praca lokalna w środowisku Anaconda (na pracowni lub własnym komputerze)

  1. Utwórz prywatne repozytorium GitHub za pomocą adresu aktywującego podanego w Moodle
    https://moodle.umk.pl/course/section.php?id=109215
  2. Sklonuj repozytorium GitHub na swój komputer
  3. Otwórz wiersz poleceń Anaconda i przejdź do lokalizacji repozytorium
  4. Uruchom serwer Jupyter poleceniem
    jupyter-notebook

    lub

    jupyter-lab


    Notatniki można również uruchomić bezpośrednio z poziomu Anaconda Navigator lub w Visual Studio Code.

  5. Po wykonaniu zadań zapisz notatnik (PlikZapisz)
  6. Wyślij rozwiązanie (plik notatnika .ipynb) do repozytorium na GitHub

Google Colab (lub Binder)

Google Colaboratory umożliwia zapis notatników do prywatnych repozytoriów GitHub. Usługa Binder umożliwia wyłącznie import publicznych repozytoriów GitHub.

  1. Utwórz prywatną kopię repozytorium z notatnikiem poprzez link podany w Moodle
    https://moodle.umk.pl/course/section.php?id=109215
  2. Uruchom notatnik w Google Colab, klikając
  3. Po wykonaniu zadania zapisz notatnik w repozytorium GitHub
    PlikZapisz notatnik w usłudze GitHub
    lub pobierz notatnik z Google Colab: PlikPobierzPobierz plik IPYNB z rozwiązaniem i wyślij go do repozytorium GitHub

Kilka przydatnych odnośników