Edytuj stronę Odnośniki Fold/unfold all ODT export Ta strona jest tylko do odczytu. Możesz wyświetlić źródła tej strony ale nie możesz ich zmienić. ====== Wprowadzanie do Data Mining ====== Zajęcia odbywają się w semestrze letnim 2019/2020 w poniedziałek godz. 10-12 w sali PK2 ===== Zaliczenie zajęć ===== Zaliczenie zajęć odbywa się na podstawie rozwiązań zadań z laboratoriów. ===== Literatura ===== * Robert Layton, //Learning Data Mining with Python//, 2015 (2017 wydanie 2) - dostęp on-line z binlioteki z sieci UMK * Pang-Ning Tan, Michael Steinbach, Anuj Karpatne, //Introduction to Data Mining (Second Edition)//, {{https://www-users.cs.umn.edu/~kumar001/dmbook/index.php|WWW}} ===== Plan ===== - Przegląd metod Data Mining - Szybki wstęp do python, jupyter, numpy, pandas, matlibplot, scikit-learn - Preprocesing, statystyki danych, wizualizacja - Regresja * Liniowa oraz wielomianowa * underfitting/overfitting - Klasyfikacja i ocena klasyfikatorów * kNN * drzewa decyzyjne * SVM * kroswalidacja - Analiza skupień * k-means - Przetwarzanie obrazów - text mining - analiza szeregów czasowych - wykrywanie anomalii, braki w danych, dane odstające ===== Środowisko pracy ===== Na potrzeby zajęć uruchomiony jest serwer z działającym notatnikiem jupyter. \\ Adres serwera notatnika: {{http://panda.fizyka.umk.pl:8886/tree|http://panda.fizyka.umk.pl:8886}} \\ Serwer dostępny jest w ramach sieci LAN wydziału. Dostęp spoza sieci wydziałowej jest możliwy dzięki VPN. ===== Laboratoria ===== {{page>zajecia:wdm_2020_1:sidebar&noheader&nofooter}} ===== Kilka przydatnych odnośników ===== * [[https://www.python.org/|Python]] is a programming language that lets you work quickly and integrate systems more effectively * [[https://www.learnpython.org/pl/|www.learnpython.org]] * [[https://jupyter.org/|jupyter]] The Jupyter Notebook is an open-source web application that allows you to create and share documents that contain live code, equations, visualizations and narrative text. * [[https://www.dataquest.io/blog/jupyter-notebook-tutorial/|Jupyter Notebook for Beginners: A Tutorial]] * [[https://numpy.org/|NumPy]] NumPy is the fundamental package for scientific computing with Python * [[https://numpy.org/devdocs/user/quickstart.html|NumPy tutorial]] * [[https://pandas.pydata.org/|Pandas]] is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool * [[https://pandas.pydata.org/docs/getting_started/10min.html|10 minutes to pandas]] * [[https://realpython.com/pandas-python-explore-dataset/#using-the-pandas-python-library|Using Pandas and Python to Explore Your Dataset]] by Reka Horvath * [[https://scikit-learn.org/stable/|scikit-learn]] Simple and efficient tools for predictive data analysis * [[https://matplotlib.org/|matplotlib]] comprehensive library for creating static, animated, and interactive visualizations in Python. * [[https://github.com/rougier/matplotlib-tutorial|Matplotlib tutorial for beginner]] by Nicolas P. Rougier * [[https://seaborn.pydata.org/|seaborn]]: statistical data visualization * [[https://www.datacamp.com/community/tutorials/seaborn-python-tutorial|Python Seaborn Tutorial For Beginners]] by Karlijn Willems * [[https://jakevdp.github.io/PythonDataScienceHandbook/04.14-visualization-with-seaborn.html|Visualization with Seaborn]] from Python Data Science Handbook by Jake VanderPlas