Zadání diplomové práce

Srovnání specifických a obecných metod hodnocení použitelosti předpovědí regresních stromů

(klíčová slova: regresní stromy, spolehlivost predikce, intervaly spolehlivosti, transduktivní inference, heuristické metody)


Regrese je spolu s klasifikací jednou z hlavních metod vyhodnocování dat. Regresní modely navíc hrají klíčovou roli při nejrůznějších předpovědích. Přesnost takových předpovědí vzrůstá se vzrůstajícím množstvím dat, na jejichž základě byl regresní model konstruován. Různé regresní modely však mohou pro stejný vstup dávat i velmi odlišné předpovědi a v takovém případě je velmi žádoucí mít nějakou představu o tom, nakolik jsou jednotlivé z nich pro uvažovaný vstup použitelné. Jde o podobný problém jako když při klasifikaci přiřadí různé klasifikátory stejný vzor do různých tříd. Z toho důvodu jsou již po řadu let předmětem teoretického i aplikovaného výzkumu metody hodnocení použitelnosti klasifikátorů a regresních modelů pro uvažovaný vstup. Nejčastějí používané regresní modely zahrnují již 30 roků i modely založené na rozhodovacích stromech, tzv. regresní stromy. I v jejich případě je hodnocení použitelnosti různých stromů pro konkrétní vstup věnována velká pozornost, zejména v souvislosti se sdružováním rozhodovacích stromů do souborů, tzv. náhodných lesů. Regresních stromy jsou však velmi specifické v tom, že mají po částech konstantní regresní funkci s oblastmi různých hodnot oddělenými nadrovinami kolmými na souřadné osy, a v tom, že mají velmi blízkou obdobu mezi klasifikátory, tzv. klasifikační stromy. Proto byly i pro hodnocení jejich použitelnosti navrženy specifické metody, založené na specifických vlastnostech regresních a klasifikačních stromů. Dosud nebyla věnována žádná pozornost srovnání takových specifických metod s  metodami pro obecné regresní modely. Pokusem o srovnání specifického a obecného přístupu by měla být navržená diplomová práce.

Student se důkladně seznámí s obecnými metodami hodnocení použitelnosti různých regresních modelů pro uvažovaný vstup, i se specifickými metodami hodnocení použitelnosti regresních stromů. Metody obou typů implementuje ve vývojovém prostředí Matlab a otestuje je na regresních stromech a náhodných lesech konstruovaných na základě shodných dat, která dostane od vedoucího práce. Na základě výsledků teoretického studia a testování srovná obecné a specifické metody pro  hodnocení použitelnosti regresních stromů. Navrhne doporučení, kdy je kterou metodu vhodné používat, a případně i modifikace či kombinace různých metod.

 

Comparison of specific and general methods for assessing the usability of predictions of regression trees

Regression belongs together with classification to main data analysis methods. Moreover, regression models play a key role in various predictions. The accuracy of such predictions increases with an increasing amount of data on which the construction of the model was based. However, different regression models may yield even very different predictions for the same input, and in such a case, it is very desirable to have some idea of how much usable for the considered input the individual models are. It is a problem similar to that of classifiers assigning the same pattern to different classes. For that reason, methods for assessing the usability of classifiers and of regression models for a given input are for several years subject of both theoretical and applied research. The most frequently used regression models include since 30 years also models based on decision trees, called regression trees. Also in their case, much attention is paid to assessing the usability of different trees for a particular input, especially in connection with joining decision trees into ensembles, called random forests. However, regression trees are very specific in having a piecewise-constant regression function, and in having a very close counterpart among classifiers, called classification trees. Therefore, specific methods based on specific properties of regression and classification trees were proposed also for assessing their usability. So far, however, no attention has been paid to comparing such specific methods with methods for general regression models. A comparison of the specific and the general approach  should be attempted by the proposed master thesis.

 

Doporučená literatura

·         R.A. Berk. Statistical Learning from a Regression Perspective, kapitoly 1, 3-5. Berlin, Springer, 2008.

·         Z. Bosnić, I. Kononenko. Comparison of approaches for estimating reliability of individual regression predictions. Data & Knowledge Engineering, 67 (2008) 504–516.

·         L. Breiman. Random forests. Machine Leanring, 45 (2001) 5-32

·         A. Gammerman, V. Vovk. Hedging predictions. Computer Journal, 50 (2007) 151–163

·         G. Zech. Frequentist and Bayesian confidence intervals. European Physical Journal Direct 4 (2002) 1–81