Projekty zaliczeniowe
Projekty moga być zrealizowane w postaci notatnika Jupyter lub w postaci samodzielnej aplikacji napisanej w dowolnej technologii. W ramach projektu należy dostarczyć również raport (opis) zawierający:
- zwięzły opis zastosowanych metod data mining
- opis wymagań niezbednych do uruchomienia aplikacji, np. niezbędne biblioteki, jeżeli są potrzebne
- opis przeprowadzonych symulacji i analiz.
- interpretację wyników
Można zgłaszać własne propozycje tematów, lecz należy je najpierw uzgodnić z prowadzącym przed rozpoczęciem realizacji.
Propozycje tematów
Zaproponowane zbiory danych czasami moga zawierać bardzo dużo przypadków. Możesz ograniczyć rozmiar zbioru danych, np. wybierając odpowiedni podzbiór przypadków uczących tak aby ułatwić i przyspieszyć proces budowania i testowania modeli. W przypadku danych posiadających wiele zmiennych można (a nawet należy) zastosować metody redukcji wymiarowości.
Projekt 1: rozpoznawanie emocji
Aplikacja ma za zadanie rozpoznanie nastroju osoby (uśmiech, złość, itd.) ze zdjęcia (lub kamery).
Przykładowe dane uczące FER2013
Przygotuj jak najlepszy model klasyfikaujący nastrój z wykorzystaniem metod redukcji wymiarowości PCA (twarze własne) lub LDA. Przygotuj własny zbiór testowy zawierający kilkanaście Twoich zdjęć i przetestuj działanie aplikacji.
Projekt 2: rozpoznawanie pisma
Zadaniem aplikacji jest rozpoznawanie pisma odręcznego.
Przykładowe dane uczące: EMNIST
Zbuduj jak najskuteczniejszy klasyfikator rozpoznający obrazy z odręcznie pisanymi literami. Przygotuj kilkanaście obrazow testowych zawierających próbki Twojego pisma odręcznego i przetestuj na nich skuteczność działania aplikacji.
Projekt 3: rozpoznawanie sentymentu tweetów
Zadaniem jest klasyfikacja emocji tweetów
Dane uczące: emotion
Zbuduj jak najskuteczniejszy klasyfikator emocji tweetów wykorzystując odpowiednie metody reprezentacji dokumentów (np. worek słów), metody redukcji wymiarowości i metody klasyfikator. Przygotuj osobny zbiór testowy zawierający kilkanaście tweetów pewnej (dowolnej) znanej osoby i przetestuj działanie na tym zbiorze.
Projekt 4: grupowanie zdjęć
Zadaniem jest napisanie programu, który przeprowadzi analizę skupień kolekcji zdjęć. Stwórz samodzielnie zbior danych lub przygotuj zbior danych z ogólnodostępnych repozytoriów zawierający co najmniej kilkadziesiąt zdjęć przedstawiających różnorodne obiekty, ujecia i scenerie (np. panorama, portrety osób, zdjęcia grupowe, itp.) Zastosuj odpowiednia metodę redukcji wymiarowości i ekstrakcji cech (np. PCA), zbuduj model analizy skupień i przedstaw pogrupowane zdjęcia. Aplikacja powinna tez pozwolić na utworzenie listy najbardziej podobnych zdjęć do pewnego wskazanego zdjęcia.
Projekt 5: porównanie metod
Zadaniem jest przeprowadzenie analizy statystycznej skuteczności wybranych metod data mining: klasyfikacji, regresji, selekcji cech, analizy skupień. Porównaj skuteczność kilku metod na wyselekcjonowanych danych. Projekt powinien prezentować analizę statystyczną porównującą skuteczność danej metody, np. porównanie średnich wyników z wielokrotnie powtórzonej walidacji krzyżowej na zestawie danych benchmarkowych. Do porównania należy wybrać kilka metod, moga być także te, które pojawiły się na laboratorium ale do tego zbioru należy dodać przynajmniej jedna metodę, ktora na laboratorium nie była zaprezentowana (zob. metody dostepne w bibliotece scikit-learn). Parametry metod należy zoptymalizowac odpowiednimi metodami selekcji modeli (np. przeszukiwanie siatką). Przykładowe źródła danych: UCI UC Machine Learning Repository, Kaggle
Inne propozycje
- Rozpoznawanie zdjęć (obiektów na zdjęciach) i ich klasyfikacja lub analiza skupień.
Przykładowy zbiór uczący: (CIFAR, CALTECH, ImageNet, https://git-disl.github.io/GTDLBench/datasets/). - Analiza skupień dokumentów (np. artykułow Wikipedii, tweetów, wpisów na forach), pogrupowanie tematyczne dokumentów i wizualizacja nisko-wymiarowa 2D lub 3D grup dokumentów.
- Aplikacja znajdująca najbardziej podobnych do Ciebie celebrytów. Znajdź zbiór danych zawierający zdjęcia celebrytów lub inny zbiór danych z twarzami. Przygotuj też własne zdjęcie w odpowiednim formacie i wykorzystaj te dane do znalezienia celebryty (lub stworzenia rankingu celebrytów) o jak najwiekszym podobieństwie.
- inne wykorzystanie metod regresji, klasyfikacji, analizy skupień, wizualizacji w praktycznym zastosowaniu