Zadání diplomové práce
Data mining a moderní kontingenční
analýza
K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny
90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se
skrývají metody umožňující z nepřehledné spousty primárních dat, s níž se dnes
člověk musí prakticky ve všech oblastech potýkat, extrahovat přehledné množiny
strukturovaných znalostí, v těchto datech latentně obsažených. Jednou z prvních
metod tohoto typu byla metoda Guha (General unary hypotheses automaton),
vyvinutá v 70. letech českými matematiky. Guha je vpodstatě kombinací logiky a
statistické analýzy kategoriálních dat, zejména odhadů parametrů a testování
hypotéz v kontingenčních tabulkách. Pokud jde  o propracované propojení
logiky a testování statistických hypotéz, nevyrovná se metodě Guha dodnes žádná
z moderních metod pro data mining, jichž mezitím již existuje mnoho desítek.
Proto se Guha dodnes používá, a v roce 1999 byla již počtvrté implementována. Z
hlediska statistiky Guha nicméně obráží stav metod kontingenční analýzy v první
polovině sedmdesátých let. Tyto metody přitom byly za posledních 25 let výrazně
zdokonaleny a kromě tradičních frekventistických metod se stále více prosazují
i metody založené na bayesovském přístupu a na teorii informace. Cílem
navrhované diplomové práce by mělo být rozšířit metodu Guha o některé z
moderních algoritmů kontingenční analýzy. 
Diplomant by se měl seznámit se současným stavem kontingenční analýzy a
zkoumat možnosti propojení některých jejích nových algoritmů s algoritmy
logického usuzování používanými v metodě Guha. Měl by prokázat jak schopnost
samostatně odvozovat jednoduché teoretické výsledky týkající se propojení
nových algoritmů kontingenční analýzy s algoritmy logického usuzování, tak i
schopnost rozpracovat některá z těchto propojení až do prakticky použitelné
podoby. K tomu účelu by měl alespoň dvě navržená propojení implementovat. 
  
Doporučená literatura
1. k moderním metodám kontingenční analýzy
 - J.H. Albert. Bayesian
     testing and estimation of association in a two-way contingency table. Journal
     of the American Statistical Association, 92: 685-693, 1997.
 
 - F. Bulacu. TxJxK
     contingency tables. Testing for partial linear dependence using the
     covariance weighted with fuzzy weights. Revue Roumaine de Mathematique
     Pures et Appliquées, 42: 203-210, 1997.
 
 - J.F. Crook, I.J. Good. The
     Computation of a Bayes factor against independence in contingency tables. Journal
     of the Royal Statistical Society. C. Applied Statistics, C45: 255-265,
     1996.
 
 - D. Kim, A. Agresti. Nearly
     exact test of conditional independence and marginal homogenity for sparse
     contingency tables. Computational Statistics and Data Analysis, 24:
     89-104, 1997.
 
 - C.I.C. Lee, S.Y. Shen.
     Convergence rates and powers of six power-divergence statistics for
     testing independence in 2 by 2 contingency table. Communications in
     Statistics. A. Theory and Methods, 23: 2113-2126, 1994.
 
 - S.R. Lipsitz, G.M.
     Fitzmaurice. The score test for independence in RxC contingency tables with missing data. Biometrics,
     52: 751-762, 1996.
 
 - J.M.C. Ocerin, R.E.
     Mohedano, A.G. Segador: Automatic aggregation of categories in
     multivariate contingency tables using information theory. Computational
     Statistics and Data Analysis, 29: 285-294, 1999.
 
 - B.O. Oluyede. Test of
     independence against a class of ordered alternatives in an RxC contingency table. Biometrical
     Journal, 36: 935-951, 1994.
 
 - M.C. Pardo. An empirical
     investigation of Cressie and Read tests for the hypothesis of independence
     in three-way contingency tables. Kybernetika, 32: 175-183, 1996.
 
2. k metodě Guha
 - P. Hájek, T. Havránek. Mechanizing
     Hypothesis Formation. Springer-Verlag, Berlin, 1978.
 
 - P. Hájek, T. Havránek, M.K.
     Chytil. Metoda GUHA. Automatická Tvorba Hypotéz. Academia, Praha,
     1983.