Zadání bakalářské / diplomové práce

Moderní klasifikační metody při dobývání znalostí z dat

(klíčová slova: klasifikace, strojové učení, umělé neuronové sítě, klasifikační stromy, jádrové funkce)

Klasifikační metody jsou metody třídění empirických dat do konečného počtu tříd pomocí funkcí z předem vymezených funkčních systémů. Výběr klasifikační funkce z daného funkčního systému se provádí na základě omezeného počtu dat se známou příslušností do tříd postupem, který se obecně označuje jako učení a který může mít rozmanitou podobu, od poměrně triviálních jednokrokových výpočtů až po velmi složité iterační algoritmy. Protože zpracování empirických dat bylo původně doménou statistiky, spočívají tradiční klasifikační metody na statistických principech. Nástup počítačů a neustálý růst jejich výkonu však vedl ke vzniku a rychlému rozvoji klasifikačních metod založených na principech strojového učení – např. klasifikace pomocí umělých neuronových sítí, pomocí klasifikačních stromů, či tzv. SVM klasifikátory (support vector machines), spočívající na jádrových funkcích. Tyto metody jsou rozpracovávány v rámci samostatných disciplin, málo propojených nejenom se statistikou, ale i mezi sebou navzájem. Důsledkem je nedostatek jednotících implementací většího počtu moderních klasifikačních metod, a především velký nedostatek solidního porovnání těchto metod, které by ukazovalo výhody a nevýhody používání jednotlivých typů těchto metod pro různé druhy dat. Právě takové porovnání by mělo být cílem navrhované diplomové práce.
Diplomant se nejdříve v rámci rešeršní práce důkladně seznámí s teoretickými  základy i konkrétními algoritmy nejdůležitějších moderních klasifikačních metod. Poté se v rámci výzkumného úkolu naučí pracovat s existujícími implementacemi některých z těchto metod ve vývojovém prostředí Matlab, a tyto implementace doplní implementací několika dalších metod, které v prostředí Matlab dosud k dispozici nejsou. Diplomovou práci nakonec završí testováním všech metod na řadě mezinárodně používaných testovacích souborů a souborů dat z reálných aplikací.
 

Doporučená literatura

·        J. Anděl. Matematická statistika, kapitoly 1–6. SNTL, Praha, 1985.

·        T. Hastie, R. Tibishirani, J. Friedman. The Elements of Statistical Learning, kapitoly 4–9, 12–13. Berlin, Springer, 2001.

·        B. Schölkopf, A. Smola. Learning with Kernels, kapitoly 1–10. Cambridge, MIT Press, 2002.