Zadání diplomové práce

Data mining při chybějících hodnotách veličin


K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se skrývají metody umožňující z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat, extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jednou z prvních metod tohoto typu byla metoda Guha (General unary hypotheses automaton), vyvinutá v 70. letech českými matematiky. Guha je vpodstatě kombinací logiky a statistiky, zejména statistických odhadů parametrů a testování hypotéz. Pokud jde  o propracované propojení logiky a testování statistických hypotéz, nevyrovná se metodě Guha dodnes žádná z moderních metod pro data mining, jichž mezitím již existuje mnoho desítek. Proto se Guha dodnes používá, a v roce 1999 byla již počtvrté implementována.V jiných směrech ovšem Guha za novějšími metodami zaostává. Jedním z jejích hlavních nedostatků je, že poskytuje pouze nejjednodušší možnosti ošetření chybějících hodnot v datech. Dnes je naproti tomu již známa celá řad důmyslnějších metod, jak se s chybějícími hodnotami veličin vypořádat. Většina z nich je založena na statistickém přístupu, k ošetření chybějích hodnot se ale používají i umělé neuronové sítě a teorie evidence. Cílem navrhované diplomové práce by mělo být obohatit metodu Guha o některou nebo některé z důmyslnějších možností ošetřování chybějících hodnot veličin.

Diplomant by se měl seznámit s moderními metodami ošetřování chybějících hodnot veličin v datech a pro některé z nich by měl rozpracovat propojení s vybranými algoritmy extrakce znalostí z dat používanými v metodě Guha. Měl by teoreticky studovat, jak se tímto  propojením změní množina výsledků, které lze pomocí uvažovaných algoritmů získat, případně jak se změní výpočetní složitost těchto algoritmů. Alespoň pro jednu z metod by měl navržené propojení implementovat.
 

Doporučená literatura

1. k ošetřování chybějících hodnot v datech

2. k metodě Guha