Zadání diplomové práce

Srovnávání pravidel získávaných z dat


K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let tzv. data mining ("vytěžování dat"). Pod tímto názvem se skrývají metody které z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat,  umožňují extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jedním z nejpoužívanějších způsobů strukturovaného vyjádření znalostí obsažených v datech jsou speciální typy logických implikací, tzv. pravidla. Pravidla lze získat nejjednodušším způsobem z relativních frekvencí výskytu jednotlivých kombinací hodnot atributů, lze je ale také odvodit z výsledků řady statistických metod, např. testů hypotéz v kontingenčních tabulkách nebo regresní analýzy, i metod založených na nestatistických přístupech, např. na neuronových sítích, rozhodovacích stromech či induktivní logice. Velký počet různých přístupů k extrakci pravidel z dat s sebou přináší jeden závažný problém - přístupy založenými na různých teoretických principech lze totiž i ze stejných dat extrahovat naprosto rozdílné množiny pravidel. Proto v posledních letech rychle vzrůstá význam metod umožňujících měřit a srovnávat kvalitu extrahovaných množin pravidel. Další rozvoj takových metod má velkou důležitost již i pro běžné praktické využívání existujících dataminingových systémů, neboť  dnes i ve velkých komerčních systémech bývá implementováno celé spektrum různých přístupů k extrakci pravidel z dat. Příspěvkem k rozvoji těchto metod by měla být i navrhovaná diplomová práce.
Diplomant by se měl seznámit s hlavními přístupy k extrakci pravidel z dat, jak teoreticky, tak i prakticky na konkrétním dataminingovém systému. Měl by získat dobrý přehled o dosud existujících metodách měření a srovnávání kvality extrahovaných množin pravidel. Vlastní tvůrčí přínos práce začne analýzou předností a nedostatků jedotlivých existujících metod, a to jednak teoreticky na základě vlastností těchto metod, jednak rozborem výsledků získaných při použití vybraných metod na reálná data. Završen by potom měl být návrhem a praktickým ověřením vhodných modifikací jedné či více z těchto metod s cílem posílení jejich předností nebo oslabení jejich nedostatků.
 

Doporučená literatura

1. k teoretickému seznámení s extrakcí pravidel z dat

2. k praktickému seznámení s extrakcí pravidel z dat

Manuály k použitému dataminingovému systému, např.

3. k metodám měření a srovnávání kvality extrahovaných pravidel