Analityka i eksploracja danych

 

 
Kod kursu:
 INE 5318
 Autor przedmiotu:dr hab. inż. Henryk Maciejewski
 Zespół dydaktyczny: dr inż. Jacek Jarnicki
dr inż. Dariusz Caban
dr inż. Tomasz Walkowiak
dr inż. Marek Woda

 

 
Wymiar godzin
(tygodniowo)
WykładĆwiczeniaLaboratoriumProjektSeminarium
20200

 

 

 

 

Opis kursu:

 

Kurs dotyczy projektowania i budowy systemów Business Intelligence / OLAP oraz metod, algorytmów i zastosowań Data Mining, uczenia maszynowego, sztucznej inteligencji. Przedstawione są cele, struktura i metodologia budowy systemów OLAP (Online Analytical Processing), logiczne i fizyczne modele danych dla przetwarzania analitycznego (hurtowni danych), a w ramach laboratorium również narzędzia (Microsoft SSIS, SSAS do budowy kostek OLAP i procesów ETL) oraz SAS, Python scikit-learn, system R - wykorzystywane w zadaniach Data Mining. Omówiony jest proces Data Mining wg metodologii CRISP-DM / SEMMA. Przedstawione są wybrane grupy algorytmów Data Mining oraz ich zastosowania (metody modelowania predykcyjnego, grupowania, analizy reguł asocjacyjnych, modelowania szeregów czasowych, wykrywania anomalii, redukcji wymiaru). Zajęcia laboratoryjne w ramach kursu polegają na opracowaniu elementów środowiska przetwarzana i analizy danych OLAP z wykorzystaniem narzędzi MS SQL Server Integration Services oraz Analysis  Services oraz na zrealizowaniu przykładowych procesów Data Mining na rzeczywistych danych z wykorzystaniem narzędzi systemu SAS i/lub biblioteki scikit-learn, ze szczególnym uwzględnieniem danych wysokowymiarowych oraz problemu modelowania w oparciu o dane class-imbalanced.

 

 

Zawartość tematyczna wykładu:

  • Wprowadzenie - cel i struktura systemów BI / OLAP (Online Analytical Processing); OLAP a OLTP, procesy ETL
  • Repozytoria danych dla przetwarzania analitycznego: logiczny i fizyczny model danych ROLAP, MOLAP, HOLAP, język zapytań MDX
  • Data Mining - cel, przykłady i obszary zastosowań  
  • Podstawy statystycznej teorii uczenia, wybrane algorytmy klasyfikacji (NB, LDA, QDA, regresja logistyczna, perceptron, MLP, DT, RF, SVM, AdaBoost,...)
  • Algorytmy regresji, metody regularyzacji (ridge regression, lasso, elastic net)
  • Miary jakości modeli, model selection
  • Algorytmy grupowania
  • Algorytmy reguł asosjacyjnych / frequent itemset mining
  • Analiza danych wysokowymiarowych, redukcja wymiaru, PCA
  • Metody wykrywania anomalii dla różnego typu danych, problem klasyfikacji open-set, open-world
  • Analiza danych class-imbalanced

 

Literatura podstawowa:

  • J. Han, M. Kamber, Data Mining: Concepts and Techniques, Second Edition, Elsevier
  • T. Hastie, R. Tibshirani, J. H. Friedman, The Elements of Statistical Learning : Data Mining, Inference, and Prediction, Second Edition, Springer

 

Literatura uzupełniająca:

  • J. Koronacki, J. Ćwik, Statystyczne systemu uczące się, WNT
  • T. Hastie, R. Tibshirani, M. Wainwright, Statistical Learning with Sparsity. The Lasso and Generalizations. CRC Press
  • M. Krzyśko i in., Systemu uczące się. Rozpoznawanie wzorców, analiza skupień i redukcja wymiarowości. WNT
  • G. James i in., An Introduction to Statistical Learning, with Application in R, Springer
  • H.P. Langtangen, Python Scripting for Computational Science, Springer
  • D. Hand, H.Mannila, P.Smyth, Eksploracja danych, WNT
  • D.Larose, Data Mining Methods and Models, Wiley
kdnuggets.com
kaggle.com