Zadání diplomové práce

Dobývání znalostí z dat pomocí kopulí

(klíčová slova: data mining, vztahy mezi atributy, pravděpodobnostní vztahy, kopule, typy kopulí)

Kopule jsou zobrazení, která se od počátku 50. let používají v teorii pravděpodobnosti k popisu vztahů mezi sdruženým rozdělením náhodného vektoru a marginálními rozděleními jeho složek. V souvislosti s rostoucím významem pravděpodobnostních přistupů v informatice se kopule během posledních deseti let začaly používat i v ní, a to jednak v evolučních algoritmech odhadujících pravděpodobnostní rozdělení (EDA algoritmy), zejména ale v rychle se rozvíjející oblasti dobývání znalostí z dat (data mining). Zde kopule umožňují najít některé zajímavé vztahy mezi atributy, které není možné najít tradičními metodami. Praktické použití našlo získávání dat z kopulí zatím hlavně v oblasti finančních dat, především v souvislosti s tím, že modely vytvářené v procesu dobývání znalostí bývají v této aplikační oblasti následně často využívány i k predikcím. Kopulí ovšem existuje velmi mnoho typů, jednak v důsledku toho, že od nich někdy požadujeme některé další důležité vlastnosti (např. v případě tzv. archimedovských kopulí), jednak díky snadnému definování nových typů kopulí parametrizací. Jenom parametrizovných typů kopulí již bylo v literatuře popsáno několik desítek. Dosud však nebyla  věnována téměř žádná pozornost výzkumu rozdílů mezi různými typy kopulí z hlediska vhodnosti k dobývání znalostí z dat. Příspěvkem k takovému výzkumu by měla být právě navržená diplomová práce.

Student se nejdříve seznámí s teorií kopulí s důrazem na rodiny kopulí jež jsou používány v existujících aplikacích. Dále si nastuduje metody prokládání kopulí daty a také metriky a testy jimiž se kvalita proložení daty posuzuje. Na základě prostudované literatury vybere několik rodin kopulí, pro které ve vývojovém prostředí Matlab implementuje standardní metody prokládání daty, včetně hodnocení kvality proložení vybranými metrikami. S využitím implementovaných metod otestuje vybrané rodiny z hlediska vhodnosti k rpokládání daty, a to nejméně na dvou souborech dat používaných v publikacích a na jednom souboru dodaném vedoucím práce. 

Doporučená literatura

·         R.B. Nelsen. An Introduction to Copulas. Springer, 2006.

·         E. Diday, M. Vrac. Mixture decomposition of distributions by copulas in the symbolic data analysis framework. Discrete Applied Mathematics 147 (2005) 27-41.

·         T. Schmidt. Coping with Copulas, Copulas - From Theory to Applications in Finance, 2006.

·         D. Berg, H. Bakken. Copula Goodness-of-fit Tests: A Comparative Study. Technical Report, Norwegian Computing Center, 2006.

·         MJ Fischer, C Köck, S Schlüter, F Weigert. Multivariate Copula Models at Work: Outperforming the desert island copula. Diskussionspapiere des Lehrstuhls für Statistik und Ökonometrie, Universität Erlangen-Nürnberg, 2007.

·         S.C. Kao, A. Ganguly, K. Steinhaeuser. Motivating Complex Dependence Structures in Data Mining: A Case Study with Anomaly Detection in Climate. IEEE International Conference on Data Mining, 2009.