Zadání diplomové práce

Data mining a moderní kontingenční analýza


K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se skrývají metody umožňující z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat, extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jednou z prvních metod tohoto typu byla metoda Guha (General unary hypotheses automaton), vyvinutá v 70. letech českými matematiky. Guha je vpodstatě kombinací logiky a statistické analýzy kategoriálních dat, zejména odhadů parametrů a testování hypotéz v kontingenčních tabulkách. Pokud jde  o propracované propojení logiky a testování statistických hypotéz, nevyrovná se metodě Guha dodnes žádná z moderních metod pro data mining, jichž mezitím již existuje mnoho desítek. Proto se Guha dodnes používá, a v roce 1999 byla již počtvrté implementována. Z hlediska statistiky Guha nicméně obráží stav metod kontingenční analýzy v první polovině sedmdesátých let. Tyto metody přitom byly za posledních 25 let výrazně zdokonaleny a kromě tradičních frekventistických metod se stále více prosazují i metody založené na bayesovském přístupu a na teorii informace. Cílem navrhované diplomové práce by mělo být rozšířit metodu Guha o některé z moderních algoritmů kontingenční analýzy.

Diplomant by se měl seznámit se současným stavem kontingenční analýzy a zkoumat možnosti propojení některých jejích nových algoritmů s algoritmy logického usuzování používanými v metodě Guha. Měl by prokázat jak schopnost samostatně odvozovat jednoduché teoretické výsledky týkající se propojení nových algoritmů kontingenční analýzy s algoritmy logického usuzování, tak i schopnost rozpracovat některá z těchto propojení až do prakticky použitelné podoby. K tomu účelu by měl alespoň dvě navržená propojení implementovat.
 

Doporučená literatura

1. k moderním metodám kontingenční analýzy

2. k metodě Guha