diplomka41.html

Zadání diplomové práce

Hodnocení použitelnosti předpovědí různých regresních modelů

(klíčová slova: regresní modely, predikce, spolehlivost klasifikace a regrese, analýza citlivosti, kombinování přepovědí)

Regrese je spolu s klasifikací jednou z hlavních metod vyhodnocování dat. Regresní modely navíc hrají klíčovou roli při nejrůznějších předpovědích. Přesnost takových předpovědí vzrůstá se vzrůstajícím množstvím dat, na jejichž základě byl regresní model konstruován. Proto není divu, že od doby nástupu databází, tj. v průběhu posledních čtyř desetiletí, je věnováno velké úsilí rozvoji nových regresních modelů. K tradiční lineární a polynomiální regresi, které byly již dlouhou dobu rozvíjeny ve statistice, přibyly důležité nelineární regresní modely pocházející z oblasti strojového učení, zejména umělé neuronové sítě, rozhodovací stromy a regrese založená na jádrových funkcích. Různé regresní modely však mohou pro stejný vstup dávat i velmi odlišné předpovědi a v takovém případě je velmi žádoucí mít nějakou představu o tom, nakolik jsou jednotlivé z nich pro uvažovaný vstup použitelné. Jde o podobný problém jako když při klasifikaci přiřadí různé klasifikátory stejný vzor do různých tříd. V případě regrese má však tento problém i jeden zcela specifický rys, totiž otázku citlivosti regresního modelu na malé změny vstupů. Především díky neexistenci problému citlivosti na změny vstupů je hodnocení použitelnosti různých klasifikátorů snazší než hodnocení použitelnosti různých regresních modelů. Proto jsou metody hodnocení použitelnosti klasifikátorů pro uvažovaný vstup již po řadu let předmětem teoretického i aplikovaného výzkumu. Výzkum hodnocení použitelnosti předpovědí různých regresních modelů je naproti tomu teprve na samém začátku. Příspěvkem k němu by měla být i navržená diplomová práce.

Student se důkladně seznámí s existujícími metodami hodnocení použitelnosti různých regresních modelů pro uvažovaný vstup a v širším kontextu i s metodami hodnocení použitelnosti různých klasifikátorů. Metody hodnocení použitelnosti regresních modelů implementuje ve vývojovém prostředí Matlab a otestuje je na důležitých typech regresních modelů konstruovaných na základě shodných dat, která dostane od vedoucího práce. Výsledky teoretického studia těchto metod a jejich testování jednak shrne do závěrů o vhodnosti jednotlivých z nich pro jednotlivé typy regresních modelů, jednak je využije pro návrh modifikací jedné nebo dvou z těchto metod.

Assessing the usability of predictions of different regression models

Regression belongs together with classification to main data analysis methods. Moreover, regression models play a key role in various predictions. The accuracy of such predictions increases with an incrasing amount of data on which the construction of the model was based. Therefore, it is not surprising that since the advent of databases, i.e., during the last four decades, great efforts were devoted to the development of new regression models. To traditional linear and polynomial regression, whcih had been developed for many years in statistics, important non-linear regression models of machine-learning origin came, in particular, artificial neural networks, decision trees, and regression based on kernel functions. However, different regression models may yield even very different predictions for the same input, and in such a case, it is very desirable to have some idea of how much usable are the individual models for the considered input. It is a similar proble as with classifiers assigning the same pattern to different classes.

Doporučená literatura

Z. Bosnić, I. Kononenko. Comparison of approaches for estimating reliability of individual regression predictions. Data & Knowledge Engineering, 67 (2008) 504–516.
Z. Bosnić, I. Kononenko. Estimation of individual prediction reliability using the local sensitivity analysis. Applied Intelligence, 29 (2008) 187–203.
J.G. Carney, P. Cunnigham, U. Bhagwan. Confidence and prediction intervals for neural network ensembles. In IJCNN 1999, 1215–1218.
G. Giacinto, F. Roli. Dynamic classifier selection based on multiple classifier behaviour. Pattern Recognition, 34 (2001) 1879–1881.
M.Kukar, I. Kononenko. Reliable Classifications with Machine Learning. In ECML 2002, 219–231.
V. Vovk. Asymptotic Optimality of Transductive Confidence Machine. In ATL 2002, 336–350.