Zadání diplomové práce

Charakterizace anomálií pomocí pravidel získaných z dat

Od konce 80. let, kdy se dobývání znalostí z dat (data mining) vynořilo jako specifická oblast na hranici strojového učení a analýzy dat, je jedním z jeho hlavních směrům extrakce pravidel z dat. Jako pravidla se běžně označují implikace nebo ekvivalnce nějaké formální logiky, tedy výrazy typu “jestliže … pak …” nebo “… právě tehdy když …”, které jsou pokládány za snadno srozumitelný způsob reprezentace znalostí, blízký lidskému. Nejčastěji používaný druh pravidel je znám pod názvem asociační pravidla, ta jsou však pouze velmi speciálním případem implikací rozšíření booleovské logiky nazývaného observační kalkul. Tradičně se pravidla snaží popsat vztahy charakterizující celou množinu dat, z nichž jsou extrahována, a tudíž popsat rozdělení pravděpodobnosti, jímž se tato data řídí. Někdy ale uživatele zajímá, která data jsou z hlediska tohoto rozdělení anomáliemi, tj. kdyby se jím tato řídila, byl by výskyt těchto dat velmi nepravděpodobný. Taková situace se časo vyskytuje při detekci malware, detekci napadení sítě nebo při analýze medicínských dat. Výzkum a vývoj metod extrakce pravidel charakterizujících anomálie je vša teprve v začátcích. Podpořit by ho měla i navrhovaná diplomová práce.

Diplomant se seznámí s teoretickými základy asocoačních pravidel a jejich zobecnění i s nejdůležitějšími metodami extrakce pravidel charakterizujících anomálie. Na základě teoretického studia těchto metod a experimentování s nimi na reálných datech navrhne modifikace alespoň 2 z prostudovaných metod. Modifikované verze experimentálně srovná s původními, jakož i s některými dalšími ze studovaných metod. K experimentům bude používat soubory benchmarkových reálných dat z veřějně přístupného repozitáře UCI, jakož i alespoň jeden soubor dat dodaný vedoucím práce.

Anomalies characterization with rules extracted from data

Since the late 1980s, as data mining emerged as a specific area on the border between machine learning and data analysis, one of its main directions is the extraction of rules from data. As rules are commonly denoted expressions of the type “if … then …” or “… if and only if …”, which are considered an easily comprehensible way of knowledge representation, close to human. The most frequently encountered kind of rules is known under the name association rules, they however are only a very special case of implications of an extension of Boolean logic called observational calculus. Traditionally, the rules attempt to describe relationships characterizing the whole set of data from which they are extracted, hence to describe the probability distribution governing that data. Sometimes, however, the user is interested in data that are anomalies from the point of view of that distribution, i.e., if governed by it, the occurrence of that data would be very unlikely. Such a situation frequently occurs in malware detection, network intrusion detection, or in medical data analysis. In spite of that, research into and development of methods for the extraction of rules characterizing anomalies is only starting. It should be supported also by the proposed master thesis.

Doporučená literatura

· A.F. Emmot et al. Systematic construction of anomaly detection benchmarks from real data. ACM SIGKDD workshop on outlier detection and description, 2013, 16-21.

· A. Koufakou. Non-derivable itemsets for fast outlier detection in large high-dimensional categorical data. Knowledge and Information Systems, 29(2011), 697-725.

· S. Moturi et al. Frequent itemset mining algorithms: A survey. Journal of Theoretical and Applied Information Technology, 96 (2018), 744-755.

· J. Rauch, Observational Calculi and Association Rules, Springer 2013. Kapitoly 2,3,6-10.

· H. Sfar, A. Bouzeghoub, B. Raddaoui. Early anomaly detection in smart home: A causal association rule-based approach. Artificial Intelligence in Medicine, 91 (2018), 57-71.