diplomka7.html

Zadání diplomové práce

Data mining a moderní kontingenční analýza

K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se skrývají metody umožňující z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat, extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jednou z prvních metod tohoto typu byla metoda Guha (General unary hypotheses automaton), vyvinutá v 70. letech českými matematiky. Guha je vpodstatě kombinací logiky a statistické analýzy kategoriálních dat, zejména odhadů parametrů a testování hypotéz v kontingenčních tabulkách. Pokud jde o propracované propojení logiky a testování statistických hypotéz, nevyrovná se metodě Guha dodnes žádná z moderních metod pro data mining, jichž mezitím již existuje mnoho desítek. Proto se Guha dodnes používá, a v roce 1999 byla již počtvrté implementována. Z hlediska statistiky Guha nicméně obráží stav metod kontingenční analýzy v první polovině sedmdesátých let. Tyto metody přitom byly za posledních 25 let výrazně zdokonaleny a kromě tradičních frekventistických metod se stále více prosazují i metody založené na bayesovském přístupu a na teorii informace. Cílem navrhované diplomové práce by mělo být rozšířit metodu Guha o některé z moderních algoritmů kontingenční analýzy.

Diplomant by se měl seznámit se současným stavem kontingenční analýzy a zkoumat možnosti propojení některých jejích nových algoritmů s algoritmy logického usuzování používanými v metodě Guha. Měl by prokázat jak schopnost samostatně odvozovat jednoduché teoretické výsledky týkající se propojení nových algoritmů kontingenční analýzy s algoritmy logického usuzování, tak i schopnost rozpracovat některá z těchto propojení až do prakticky použitelné podoby. K tomu účelu by měl alespoň dvě navržená propojení implementovat.

Doporučená literatura

1. k moderním metodám kontingenční analýzy

J.H. Albert. Bayesian testing and estimation of association in a two-way contingency table. Journal of the American Statistical Association, 92: 685-693, 1997.
F. Bulacu. TxJxK contingency tables. Testing for partial linear dependence using the covariance weighted with fuzzy weights. Revue Roumaine de Mathematique Pures et Appliquées, 42: 203-210, 1997.
J.F. Crook, I.J. Good. The Computation of a Bayes factor against independence in contingency tables. Journal of the Royal Statistical Society. C. Applied Statistics, C45: 255-265, 1996.
D. Kim, A. Agresti. Nearly exact test of conditional independence and marginal homogenity for sparse contingency tables. Computational Statistics and Data Analysis, 24: 89-104, 1997.
C.I.C. Lee, S.Y. Shen. Convergence rates and powers of six power-divergence statistics for testing independence in 2 by 2 contingency table. Communications in Statistics. A. Theory and Methods, 23: 2113-2126, 1994.
S.R. Lipsitz, G.M. Fitzmaurice. The score test for independence in RxC contingency tables with missing data. Biometrics, 52: 751-762, 1996.
J.M.C. Ocerin, R.E. Mohedano, A.G. Segador: Automatic aggregation of categories in multivariate contingency tables using information theory. Computational Statistics and Data Analysis, 29: 285-294, 1999.
B.O. Oluyede. Test of independence against a class of ordered alternatives in an RxC contingency table. Biometrical Journal, 36: 935-951, 1994.
M.C. Pardo. An empirical investigation of Cressie and Read tests for the hypothesis of independence in three-way contingency tables. Kybernetika, 32: 175-183, 1996.

2. k metodě Guha

P. Hájek, T. Havránek. Mechanizing Hypothesis Formation. Springer-Verlag, Berlin, 1978.
P. Hájek, T. Havránek, M.K. Chytil. Metoda GUHA. Automatická Tvorba Hypotéz. Academia, Praha, 1983.