Zadání diplomové práce

Data mining při vágních datech


K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se skrývají metody umožňující z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat, extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jednou z prvních metod tohoto typu byla metoda Guha (General unary hypotheses automaton), vyvinutá v 70. letech českými matematiky. Guha je vpodstatě kombinací logiky a statistiky, zejména statistických odhadů parametrů a testování hypotéz. Pokud jde  o propracované propojení logiky a statistického testování hypotéz, nevyrovná se metodě Guha dodnes žádná z moderních metod pro data mining, jichž mezitím již existuje mnoho desítek. Proto se Guha dodnes používá, a v roce 1999 byla již počtvrté implementována.V jiných směrech ovšem Guha za novějšími metodami zaostává. Jedním z jejích hlavních nedostatků je, že se omezuje pouze na tzv. ostrá data, tj. data, jejichž hodnotami jsou přesná čísla nebo přesné body ve vícerozměrném prostoru. Analýza dat se však již více než 20 let rozvíjí i pro tzv. vágní data, jejichž hodnotami jsou fuzzy množiny. Vágní data jsou podstatně vhodnější než ostrá jednak pro zachycení subjektivního mínění ("velmi spokojený", "malá naděje na uzdravení"), jednak v situacích, kdy data sice zachycují vlastnosti objektivní reality, ale při jejich získávání nebylo možné takovou vlastnost popsat přesným údajem, nebo to bylo pokládáno za zbytečné  ("2-3 mm", "asi 800 diváků", "velmi mnoho", "pomalu rostoucí"). Cílem navrhované diplomové práce by mělo být obohatit metodu Guha o možnost použití na vágní data.

Diplomant by se měl seznámit s hlavními principy analýzy vágních dat, zejména se statistickým testováním hypotéz o vágních datech, a na jejich základě navrhnout a prototypově implementovat zobecnění některých ze statistických testů hypotéz používaných v metodě Guha. Přitom by měl přihlédnout zejména ke skutečnosti, že v případě testování hypotéz může být vágnost přítomna již i v samotné formulaci hypotézy. Proto by se měl zaměřit zejména na testy, k nimž již bylo v rámci metody Guha navrženo zobecnění pro vágní hypotézy. Prototypová implementace může i nemusí být začleněna do některé existující implementace metody Guha, musí ale být prakticky použitelná.
 

Doporučená literatura

1. k analýze vágních dat

2. k metodě Guha a jejímu zobecnění pro vágní hypotézy