prof. Ing. RNDr. Martin Holeňa, CSc.

Pracoviště
AV ČR, Ústav informatiky, Oddělení strojového učení / ČVUT FIT, Katedra aplikované matematiky
Výzkumná skupina
Computational Intelligence Research Group
Osobní stránky
http://www2.cs.cas.cz/~martin/
E-mail
martin@cs.cas.cz

Online trénování hlubokých neuronových sítí pro klasifikaci

Online training of deep neural networks for classification

Online trénování označuje trénování modelů strojového učení když jsou jejich trénovací data online aktualizována. V takových situacích pravděpodobnostní rozdělení trénovacích dat typicky bývá nestacionární a vyvíjí se. Online trénování se používá s oběma hlavními typy strojového učení s učitelem – klasifikací a regresí, stejně tak jako v kontextu učení bez učitele. Kvůli online aktualizaci a vývoji trénovacích dat se online učení musí vypořádat s několika specifickými problémy, jako např. s možností posunu pojmů, která v případě nejčastějšího druhu online učení – inkrementálního online učení ­– vede k potřebě ladit správné množství zapomínání, např. výběrem časového horizontu. Dalším žádoucím cílem je redukce výpočetních nároků častých aktualizací modelu bez negativního dopadu na jeho prediktivní přenost. Konečně, neméně důležitý je požadavek, aby schéma opakovaného online trénování umožňovalo průběžně zahrnovat nově se vynořující třídy.

V tomto desetiletí jsou pravděpodobně nejpopulárnějším a nejrychleji se rozvíjejícím druhem modelů strojového učení hluboké neuronové sítě. Pro ně je však výzkum zabývající se online učením, zvláště pak online učením s učitelem, a výše zmíněnými problémy teprve v začátcích. To činí navržené téma velmi aktuálním, zvláště v oblastech, které poskytují vyvíjející se data ve velkých množstvích potřebných pro hluboké učení, jako je analýza obsahu webu, detekce proniknutí do sítě či detekce malware. Poslední zmíněná oblast je zamýšlenou oblastí aplikace navrženého výzkumu. Školitel specialista pracuje jako odborník na hluboké učení v detekci malware pro firmu Avast.

Online training refers to the training of machine learning models when their training data is online updated. In such situations, the probability distribution of the training data is typically non-stationary and evolving. Online training has been used with both main kinds of supervised machine learning – classification and regression, as well as in the context of unsupervised learning. Due to online updating and evolution of training data, online training has to tackle several specific problems, such as the possibility of concept shift, which in the case of the most frequent kind of online learning – incremental online learning – entails the need for tuning the right amount of forgetting via means like choice of the time horizon, for instance. Another desired goal is reducing the computational demands for the frequent updates of the model while keeping its predictive accuracy uncompromised. Last but not least, we might require the online retraining scheme to embrace newly emerging classes on the fly.

In this decade, deep neural networks are the probably most popular and most quickly developing kind of machine learning models. For them, however, research into online learning, especially supervised online learning, and into dealing with the above mentioned problems, is only starting. This makes the proposed topic very timely, particularly in areas providing evolving data in large amounts needed for deep learning, such as web content analysis, network intrusion detection, or malware detection. The last mentioned area is the intended application domain of the proposed research. The PhD co-advisor works as an expert on deep learning in malware detection for the Avast company.

Semi-supervizované učení hlubokých neuronových sítí

Semi-supervised learning of deep neural networks

Semi-supervizované učení označuje učení klasifikačních a regresních modelů, pro které je k dispozici na jedné straně množina oštítkovaných dat, na druhé straně jiná, typicky mnohem větší množina neoštítkovaných dat. Vždy spočívá ve vytvoření určitého spojení mezi jednotlivými neoštítkovanými daty a jedním nebo více oštítkovanými daty. Toto spojeni může být buď ostré nebo fuzzy a vždy spočívá na nějakém druhu podobnosti mezi jednotlivými spojenými daty. Velké množství měr podobnosti, se kterými se setkáváme v tomto kontextu, sahá od vzdáleností založených na normách v eukleidovském prostoru po sémantické podobnosti reprezentované pomocí grafů. Navíc může semi-supervizované učení buď vyjít z oštítkovanýmch dat, které iniciují shlukování neoštítkovaných dat, nebo začít vytvářením shluků neoštítkovaných dat, které jsou následně přizpůsobeny dostupným oštítkovaným datům. Konečně, výzkum semi-supervizovaného učení se vzájemně ovlivňuje s výzkumem aktivního učení, které spočívá ve výběru těch neoštítkovaných dat, jejichž oštítkování je z nějakého hlediska nejužitečnější.

V tomto desetiletí jsou pravděpodobně nejpopulárnějším a nejrychleji se rozvíjejícím druhem klasifikačních i regresních modelů hluboké neuronové sítě. S nimi semi-supervizované učení dosud používalo pouze nejběžnější varianty jak přístupu vycházejícího z oštítkovaných dat, tak i přístupu vycházejícího ze shlukování neoštítkovaných dat, druhý z nich zejména pokud i shlukování je prováděno pomocí hlubokých sítí, konkrétně autoenkoderů. Výzkum důmyslnějších metod semi-supervizovaného učení je v kontextu hlubokých neuronových sítí úplně na začátku. Zvláště žádoucí by bylo využít schopnost hlubokých sítí extrahovat v průběhu učení nové, relevantnější příznaky. Důležitost výzkumu semi-supervizovaného učení hlubokých neuronových sítí je důsledkem skutečnosti, že hluboké učení potřebuje velké množství dat. Tato důležitost je zvláště vysoká v oblastech, kde je obtížné získat oštítkovaná data, buď proto, že musí být získávána experimentálně, nebo protože vyžaduje časově náročné zapojení člověka – experta, jako např. v oblastech analýza sentimentu, detekce proniknutí do sítě či detekce malware. Poslední zmíněná oblast je zamýšlenou oblastí aplikace navrženého výzkumu. Školitel specialista pracuje jako odborník na hluboké učení v detekci malware pro firmu Avast.

Semi-supervised learning denotes learning of classification and regression models for which on the one hand a set of labelled data is available, on the other hand another, typically much larger, set of unlabelled data. It always consists in establishing some kind of connection of the items of the unlabelled data to one or more items of the labelled data. That connection can be either crisp or fuzzy and always relies on some kind of similarity between the connected data items. The plethora of similarity measures encountered in this context ranges from norm-based distances in Eucliedean spaces to graph-represented semantic similarities. Moreover, semi-supervised learning can start either from the labelled data, which initiate clustering the unlabelled data, or from forming clusters of the unlabelled data, which are subequently adapted to the available labelled data. Finally, research into semi-supervised learning mutually influences with research into active learning, which consists in choosing among the unlabelled data those that are from some point of view most useful to be labelled.

In this decade, deep neural networks are the probably most popular and most quickly developing kind of both classification and regression models. With them, semi-supervised learning has so far used only the most common variants of both the approach starting from the labelled data and the one starting from clustering the unlabelled data, the latter especially if also the clustering is performed by deep networks, in particular autoencoders. Research into more sophisticated methods of semi-supervised learning is in the context of deep neural networks only at the very beginning. Particularly desirable would be to exploit the ability of deep networks to extract new, more relevant features in the course of learning. The importance of research into semi-supervised learning of deep neural networks is a consequence of the fact that deep learning needs large amounts of data. This importance is especially high in areas where obtaining labelles is difficult, einther because they have to be obtained experimentally, or because it requires a time-consuming involvement of a human expert, such as in the areas of sentiment analysis, network intrusion detection, or malware detection. The last mentioned area is the intended application domain of the proposed research. The PhD co-advisor works as an expert on deep learning in malware detection for the Avast company.

Využití aktivního učení v optimalizaci

Making use of active learning in optimization

Evoluční algoritmy jsou v posledních 20 letech jednou z nejúspěšnějších metod pro řešení netradičních optimalizačních problémů, jako např. hledání nejvhodnějších dokumentů obsahujících požadované informace, objevování nejzajímvějších informací v dostupných datech či další typy optimalizačních úloh, při nichž lze hodnoty cílové funkce získat pouze empiricky. Protože evoluční algoritmy pracují pouze s funkčními hodnotami optimalizované funkce, blíží s k jejímu optimu podstatně pomaleji než optimalizační metody pro hladké funkce, které využívají rovněž informace o gradientu optimalizované funkce, případně o jejích druhých derivacích. Tato vlastnost evolučních algoritmů je zvláště nepříjemná ve spojení se skutečností, že empirické získání hodnoty optimalizované funkce bývá obvykle značně nákladné i časově náročné. Evoluční algoritmy však lze podstatně urychlit tím, že při vyhodnocování funkční hodnoty optimalizované funkce používají empirickou optimalizovanou funkci jen občas, zatímco většinou vyhodnocují pouze její dostatečně přesný regresní model. Právě přesnost modelu určuje, jak úspěšnou náhražkou původní empirické funkce bude. Proto se po získání každé nové generace bodů, v nichž byla empirická funkce vyhodnocena, model zpřesňuje opakovaným učením zahrnujícím tyto body. Lze však jít ještě dále a již při volbě bodů pro empirické vyhodnocení brát kromě hodnoty empirické funkce také v úvahu, jak při opakovaném učení modelu přispějí k jeho zpřesnění. Takový přístup se označuje jako aktivní učení. Používání aktivního učení k urychlení evolučních algoritmů je však teprve v úplných začátcích a měla by ho podpořit i navržená práce.

Evolutionary algorithms are, in the last 20 years, one of the most successful methods for solving non-traditional optimization problems, such as search for the most suitable documents containing required information, discovery of the most interesting knowledge in available data, or other kinds of optimization tasks in which the values of the objective function can be obtained only empirically. Because evolutionary algorithms employ only function values of the objective function, they approach its optimum much more slowly than optimization methods for smooth functions, which make use of information about the objective function gradients as well, possibly also about its second derivatives. This property of evolutionary algorithms is particularly disadvantageous in the context of costly and time-consuming empirical way of obtaining values of the objective function. However, evolutionary algorithms can be substantially speeded up if they employ the empirical objective function only sometimes when evaluating objective function values, whereas they mostly evaluate only a sufficiently accurate regression model of that function. It is the accuracy of the model that determines how successful surrogate of the original empirical function it will be. Therefore, the model is made more accurate after obtaining each new generation of points in which the empirical function has been evaluated, through re-learning including those points. However, it is possible to go even further and to consider, when choosing points for empirical evaluation, besides the value of the empirical function also how they contribute, during model re-learning, to making it more accurate. Such an approach is termed active learning. However, using active learning to accelerate evolutionary algorithms is only at a very beginning, and should be supported also by the proposed thesis.

Pokročilé metody evoluční black-box optimalizace

Advanced methods of evolutionary black-box optimization

Optimalizační úlohy, se kterými se setkáváme v reálných aplikacích, stále častěji optimalizují cíle, kterými nejsou matematické funkce, ale výsledky počítačových simulací nebo experimentálních měření. Tento druh optimalizace, označovaný jako black-box optimalizace, představuje dvě velké výzvy: 1. lze získat pouze hodnoty takového black-box cíle, nikoliv jeho gradient nebo vyšší derivace, 2. vyhodnocení cíle je typicky časově náročné a/nebo drahé. Pokud jde o první výzvu, v uplynulých desetiletích se velmi úspěšnými při otimalizaci používající pouze hodnoty cíle ukázaly být evoluční algoritmy. Ty však typicky vyžadují velké množství vyhodnocování, což je v konfliktu s druhou výzvou. Tento konflikt v uplynulém desetiletí podnítil intenzivní výzkum evoluční black-box optimalizace, který s sebou přináší široké spektrum dizertabilních témat.

Optimization tasks encountered in real-world applications more and more frequently optimize objectives that are not mathematically calculated functions, but results of computer simulations or experimental measurements. That kind of optimization, called black-box optimization, presents two great challenges: 1. it is possible to get only the values of such a black-box objective, not its gradient or higher derivatives, 2. the evaluation of the objective typically costs much time and/or money. As far as the first challenge is concerned, evolutionary algorithms have proven very successful for optimization using only the values of the objective during the last decades. However, they typically require a large number of evaluations, which conflicts with the second challenge. That conflict incited an intense reseaech into black-box evolutionary optimization during the last decade, bringing a broad spectrum of topics suitable for PhD theses.



Poslední změna: 26.4.2019, 10:11