Wprowadzanie do Data Mining
Zajęcia odbywają się w semestrze letnim 2019/2020 w poniedziałek godz. 10-12 w sali PK2
Zaliczenie zajęć
Zaliczenie zajęć odbywa się na podstawie rozwiązań zadań z laboratoriów.
Literatura
- Robert Layton, Learning Data Mining with Python, 2015 (2017 wydanie 2) - dostęp on-line z binlioteki z sieci UMK
- Pang-Ning Tan, Michael Steinbach, Anuj Karpatne, Introduction to Data Mining (Second Edition), WWW
Plan
- Przegląd metod Data Mining
- Szybki wstęp do python, jupyter, numpy, pandas, matlibplot, scikit-learn
- Preprocesing, statystyki danych, wizualizacja
- Regresja
- Liniowa oraz wielomianowa
- underfitting/overfitting
- Klasyfikacja i ocena klasyfikatorów
- kNN
- drzewa decyzyjne
- SVM
- kroswalidacja
- Analiza skupień
- k-means
- Przetwarzanie obrazów
- text mining
- analiza szeregów czasowych
- wykrywanie anomalii, braki w danych, dane odstające
Środowisko pracy
Na potrzeby zajęć uruchomiony jest serwer z działającym notatnikiem jupyter.
Adres serwera notatnika: http://panda.fizyka.umk.pl:8886
Serwer dostępny jest w ramach sieci LAN wydziału. Dostęp spoza sieci wydziałowej jest możliwy dzięki VPN.
Laboratoria
Kilka przydatnych odnośników
- Python is a programming language that lets you work quickly and integrate systems more effectively
- jupyter The Jupyter Notebook is an open-source web application that allows you to create and share documents that contain live code, equations, visualizations and narrative text.
- NumPy NumPy is the fundamental package for scientific computing with Python
- Pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool
- Using Pandas and Python to Explore Your Dataset by Reka Horvath
- scikit-learn Simple and efficient tools for predictive data analysis
- matplotlib comprehensive library for creating static, animated, and interactive visualizations in Python.
- Matplotlib tutorial for beginner by Nicolas P. Rougier
- seaborn: statistical data visualization
- Python Seaborn Tutorial For Beginners by Karlijn Willems
- Visualization with Seaborn from Python Data Science Handbook by Jake VanderPlas