cvika1.html

Úkol 1: vstup dat, grafické výstupy, připomenutí metod strojového učení

(i.) Načtěte přidělená data ze zdrojového formátu, v němž jste je obdrželi (ASCII soubor, tabulka databáze Access, tabulka databáze MySQL, tabulka Excel) a uložte je pro další zpracování do binárního souboru systému Matlab (´´.mat´´).

(ii.) Pomocí grafického uživatelského rozhraní „Neural Network Fitting Tool“ trénujte na datech umělé neuronové sítě s různými počty skrytých neuronů. Přitom přiřaďte klasifikační či regresní atributy výstupním neuronům a všechny zbývající atributy (vstupní atributy) vstupním neuronům sítě. Snažte se najít síť s co nejlepšími generalizačními schopnostmi (tj. s co nejmenší chybou na testovacích datech). Tuto síť uchovejte pro další použití.

(iii.) Pro průměrné hodnoty (průměrné vzhledem k celému souboru dat) atributů přiřazených vstupním neuronům sestrojte 3D-graf plochy popisující závislost hodnoty výstupního neuronu (či některého z výstupních neuronů, pokud jich síť má více) na hodnotách některé dvojice vstupních neuronů.

(iv.) Pro tytéž hodnoty atributů sestrojte řadu řezů, na nichž v úhrnu zobrazíte pomocí barevné škály závislost hodnoty výstupního neuronu (či některého z výstupních neuronů, pokud jich síť má více) na hodnotách některé trojice vstupních neuronů.

(v.) Nad daty sestrojte rozhodovací strom maximální možné velikosti. V případě klasifikačních dat sestrojte pro každý klasifikační atribut jeden klasifikační strom, v případě regresních dat sestrojte pro každý regresní atribut jeden regresní strom.

(vi.) Zjistěte optimální úroveň prořezání sestrojeného rozhodovacího stromu při výpočtu chyby klasifikace či regrese pomocí 10-násobné křížové validace.

(vii.) Graficky zobrazte sestrojený rozhodovací strom pro optimální úroveň prořezání. Poté interaktivně měňte v grafu úroveň prořezání a sledujte změnu zobrazeného stromu.

(viii.) Zaokrouhlete v grafu hodnoty spojitých atributů na 2 platné cifry.