Wstęp do Data Mining
Laboratorium w semestrze letnim 2023/24 odbywa się we wtorki w godz. 10-12 w PK4 WFAiIS.
Strona kursu w Moodle: https://moodle.umk.pl/WFAIIS/course/view.php?id=40
Zaliczenie zajęć
Warunki zaliczenia zajęć:
zadania z laboratorium:
Rozwiązania zadań, w postaci notatników Jupyter (pliki *.ipynb), należy terminowo deponować na stronie
kursu w Moodle lub w prywatnych repozytoriach GitHub utworzonych poprzez adresy podane na stronie kursu Moodle.
Zaliczenie co najmniej 6 z 10 zadań wystarczy do uzyskania oceny dostatecznej.
projekt zaliczeniowy:
Uzyskanie oceny wyższej niż dostateczna, oprócz wykonania zadań z laboratorium, wymaga zrealizowania projektu w postaci aplikacji lub notatnika Jupyter demonstrującego zastosowanie wybranych metod Data Mining w praktycznych zagadnieniach.
Propozycje tematów projektów
Rozwiązanie muszą być wykonane samodzielnie. Nie jest dozwolone udostępnianie rozwiązań innym osobom do skopiowania oraz wykorzystywanie narzędzi AI do generowania rozwiązań
Literatura
Plan
Nie za długi wstęp do python, jupyter, numpy, pandas, matlibplot, scikit-learn, seaborn
Analiza statystyczna danych, wizualizacja danych
Regresja
Klasyfikacja i ocena klasyfikatorów
Analiza skupień
Text mining
Przetwarzanie obrazów
Analiza szeregów czasowych (?)
Laboratoria: notatniki i zadania
Środowisko pracy
Laboratoria realizowane są w języku Python z wykorzystaniem notatników Jupyter. Na pracowni komputerowej dostępna jest dystrybucja Anaconda (zalecane środowisko na zajęciach) zawierająca wszystkie niezbędne biblioteki i narzędzia. Możliwe jest również wykorzystanie usług sieciowych umożliwiających edycję i uruchamianie notatników, jak Google Colab lub Binder. Python oraz jupyter-notebook dostępne są również na serwerze studenckim polon7.fizyka.umk.pl
Praca lokalnie (na pracowni lub własnym komputerze)
Jeśli chcesz korzystać z repozytoriów GitHub do przesyłania rozwiązań to utwórz prywatną kopie repozytorium klikając na adres podany w Moodle
Pobierz notatnik ipynb
, np. klonując repozytorium GitHub
Otwórz wiersz poleceń Anaconda i przejdź do katalogu zawierającego pobrane pliki
Uruchom serwer Jupyter poleceniem
jupyter-notebook
lub
jupyter-lab
Po wykonaniu zadań zapisz notatnik
Umieść rozwiązanie w Moodle lub w repozytorium GitHub
Google Colab (lub Binder)
Google colaboratory umożliwia zapis notatników do prywatnych repozytoriów GitHub, usługa Binder umożliwia wyłącznie import publicznych repozytoriów GitHub.
-
Uruchom notatnik w Google Colab klikając

Po wykonaniu zadania zapisz notatnik w repozytorium GitHub
Plik
→ Zapisz notatnik w usłudze GitHub
-
dostęp do GPU
wymagane konto Google i autoryzacja
edytowane notatniki można zapisać na Dysku Google lub w GitHub (także w prywatnych repozytoriach)
sesja aktywna dopóki jest otworzona w przeglądarce (max. 12h.)
-
tylko CPU, min. 1GB RAM
nie wymaga autoryzacji
brak możliwości zachowania zmian pomiędzy sesjami
sesja do 6 h., przerywana gdy brak aktywności przez 10 min
często długotrwała procedura konfiguracji i niestabilna praca (brak zapisu może powodować utratę danych)
Kilka przydatnych odnośników
Python is a programming language that lets you work quickly and integrate systems more effectively
jupyter The Jupyter Notebook is an open-source web application that allows you to create and share documents that contain live code, equations, visualizations and narrative text.
NumPy NumPy is the fundamental package for scientific computing with Python
Pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool
scikit-learn Simple and efficient tools for predictive data analysis
matplotlib comprehensive library for creating static, animated, and interactive visualizations in Python.
seaborn: statistical data visualization