Zadání diplomové práce

Studium fuzzy ekvivalencí v kontextu získávání pravidel z dat

(klíčová slova: získávání pravidel z dat, booleovská pravidla, fuzzy pravidla, klasifikační pravidla, asociační pravidla, fuzzy ekvivalence)


Získávání pravidel, tj. specifických typů logických tvrzení, z dat představuje hlavní směr dobývání znalostí z dat, ať už z toho hlediska, jak často se s ním setkáváme v praktických aplikacích, či z hlediska počtu metod, které se k  němu používají. Tyto metody jsou přitom založeny na širokém spektru principů,  od metod čistě logických (induktivní logické programovaní, metody AQ, CN2 apod.), přes metody, v nichž hlavní roli hraje statistický nebo pravděpodobnostní přístup (metoda Guha, klasifikační a regresní stromy) až po metody spočívající na umělých neuronových sítích a genetických algoritmech. Získávaná pravidla lze ze sémantického hlediska dělit jednak podle použitých spojek v případě výrokové logiky (na implikace a ekvivalence) a použitých zobecněných kvantifikátorů v případě logiky predikátové, jednak podle přípustných pravdivostních hodnot na booleovská pravidla a pravidla některé z fuzzy logik. Kombinací obou těchto kriterií lze vymezit některé prakticky významné třídy pravidel, např. klasifikační pravidla nebo asociační pravidla. Mezi fuzzy pravidly je z takovýchto kombinací zajímavá třída ekvivalencí. Má-li totiž některý z datových atributů po případném přeškálování význam stupně pravdivosti nějakho tvrzení, vede získávání ekvivalencí s tímto tvrzením za velmi obecných předpokladů k prokládání funkce mnoha proměnných hodnotami atributu. Právě získáváním takových fuzzy ekvivalencí by se měla zabývat navržená diplomová práce.

Student se nejdříve seznámí s důležitými metodami získávání booleovských pravidel z dat, konkrétně se získáváním rúzných typů pravidel (včetně pravidel asociačních) pomocí obzervační logiky a se získáváním klasifikačních pravidel pomocí klasifikačních stromů. Současně se také seznámí s běžnými fuzzy logikami, alespoň do takové hloubky, aby mohl s dostatečným nadhledem získávat z dat formule, které jsou v těchto logikách ekvivalencemi. S využitím nabytých znalostí analyzuje získávání fuzzy ekvivalencí z dat jednak z hlediska srovnání jejich sémantiky se sémantikou booleovských pravidel, jednak z hlediska měření jejich kvality pomocí zobecnění měr kvality booleovských pravidel. Přitom zváží případnou nejednoznačnost při zobecňování některých měr kvality z booleovských pravidel na fuzzy pravidla. Na základě provedené analýzy navrhne metodu získávání fuzzy ekvivalencí z dat, srovnání jejich sémantiky se sémantikou pravidel získaných pomocí obzervační logiky a klasifikačních stromů a měření jejich kvality vybranými mírami kvality. Přitom zdůvodní svůj výběr měr kvality zahrnutých do metody, jakož i případný výběr pouze některého z možných zobecnění uvažované míry na fuzzy pravidla. Navrženou metodu student rozpracuje až do stádia prototypové implmentace. Nakonec implementaci otestuje na mezinárodně používaných testovacích souborech dat, jakož i na datech ze skutečných aplikací, která dostane od vedoucího práce.


 

Doporučená literatura

·        L. Geng, H.J. Hamilton. Choosing the right lens: Finding what is interesting in data mining. In Quality Measures in Data Mining, Springer, 2007, 3–24.

·        P. Hájek. Metamathematics of Fuzzy Logic, Kluwer, 1998, kapitoly 1–5.

·        M. Holeňa. Získávání pravidel z dat. Statistika, 83 (2003), 48–60.

·        P. Lenca, B. Vaiilant, P. Meyer, S. Lalich. Association rule interestingness measures: Experimental and theoretical studies. In Quality Measures in Data Mining, Springer, 2007, 51–76.

·        D. Nauck. Fuzzy Data Analysis with NEFCLASS. International Journal of Approximate Reasoning, 32 (2002), 103–130.