Zadání diplomové práce

Získávání pravidel pro výzkum vlastností materiálů

(klíčová slova: získávání pravidel z dat, metoda Guha, klasifikační stromy, chemické složení materiálu, katalytické vlastnosti materiálu)


K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let dobývání znalostí z dat (data mining). Pod tímto názvem se skrývají metody, které z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat,  umožňují extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jedním z nejpoužívanějších způsobů strukturovaného vyjádření znalostí obsažených v datech jsou specifické typy logických tvrzení, tzv. pravidla. K nejstarším metodám získávání logických pravidel z dat patří metoda Guha, jež byla naposledy implementována v systémech LISP-Miner a Ferda, používaných na VŠE i některých dalších vysokých školách. Metodou Guha lze mimo jiné získávat asociační pravidla, která představují typ pravidel nejčastěji získávaný v komerčních systémech pro dobývání znalostí z dat. Dalšími velmi rozšířenými typy pravidel jsou klasifikační a regresní pravidla. K získávání pravidel těchto typů se nejčastěji používá klasifikačních a regresních stromů. Cílem navrhované diplomové práce je získávání pravidel o vztazích mezi chemickým složením materiálů a jejich katalytickými vlastnostmi v určitých chemických reakcích. Znalosti takového typu jsou velmi důležité pro chemický průmysl.

Student se nejdříve důkladně seznámí s implementací metody Guha v systému LISP-Miner. Pravidla bude získávat pro řadu kvantifikátorů metody Guha, a pro každý z nich pro řadu hodnot jejich nastavitelných parametrů, přičemž obojí bude vybírat v dohodě s vedoucím práce. Pro srovnání naučí na datech regresní strom maximální možné velikosti a prořeže ho na stromy o výškách odpovídajících délkám pravidel získaných pomocí metody Guha. Na závěr vyhodnotí získaná pravidla z hlediska jejich sémantiky a srovná rozdíly mezi pravidly získanými pomocí metody Guha a pomocí regresních stromů.


 

Doporučená literatura

·         M. Šimůnek, Systém LISP-Miner. Akademický systém pro dobývání znalostí z databází. SkriptaVŠE, 2011.

·         Classification Trees and Regression Trees. In Statistics Toolbox User’s Guide, Version 4. The MathWorks, 2008, 13.25–13.49.

·         P. Hájek, M. Holeňa, J. Rauch, The GUHA Method and Foundations of (Relational) Data Mining. In Theory and Application of Relational Structures as Knowledge Instruments, Springer, 2003, 17-37.

·         M. Holeňa, M.Baerns, Computer-Aided Strategies for Catalyst Development. In Handbook of Heterogeneous Catalysis. Wiley-WCH, Weinheim, 2007.