Optimització d'hiperparàmetres

Cerca en quadrícula a través de diferents valors de dos hiperparàmetres. Per a cada hiperparàmetre, es consideren 10 valors diferents, de manera que s'avaluen i es comparen un total de 100 combinacions diferents. Els contorns blaus indiquen regions amb resultats forts, mentre que els vermells mostren regions amb resultats pobres.

En l'aprenentatge automàtic, l'optimització d'hiperparàmetres [1] o l'ajustament és el problema de triar un conjunt d'hiperparàmetres òptims per a un algorisme d'aprenentatge. Un hiperparàmetre és un paràmetre el valor del qual s'utilitza per controlar el procés d'aprenentatge. Per contra, s'aprenen els valors d'altres paràmetres (normalment els pesos dels nodes).

Cerca aleatòria entre diferents combinacions de valors per a dos hiperparàmetres. En aquest exemple, s'avaluen 100 opcions aleatòries diferents. Les barres verdes mostren que es consideren més valors individuals per a cada hiperparàmetre en comparació amb una cerca de quadrícula.

El mateix tipus de model d'aprenentatge automàtic pot requerir diferents restriccions, pesos o taxes d'aprenentatge per generalitzar diferents patrons de dades. Aquestes mesures s'anomenen hiperparàmetres i s'han d'ajustar perquè el model pugui resoldre de manera òptima el problema de l'aprenentatge automàtic. L'optimització d'hiperparàmetres troba una tupla d'hiperparàmetres que produeix un model òptim que minimitza una funció de pèrdua predefinida en dades independents donades.[2] La funció objectiu pren una tupla d'hiperparàmetres i retorna la pèrdua associada.[2] La validació creuada s'utilitza sovint per estimar aquest rendiment de generalització.[3]

La forma tradicional de realitzar l'optimització d'hiperparàmetres ha estat la cerca de graella, o un escombrat de paràmetres, que és simplement una cerca exhaustiva a través d'un subconjunt especificat manualment de l'espai d'hiperparàmetres d'un algorisme d'aprenentatge. Un algorisme de cerca de graella s'ha de guiar per alguna mètrica de rendiment, normalment mesurada per validació creuada al conjunt d'entrenament [4] o avaluació en un conjunt de validació de retenció.[5]

Mètodes com l'optimització bayesiana exploren de manera intel·ligent l'espai de les opcions potencials d'hiperparàmetres decidint quina combinació explorar a continuació basant-se en observacions anteriors.

La cerca aleatòria substitueix l'enumeració exhaustiva de totes les combinacions seleccionant-les aleatòriament. Això es pot aplicar simplement a la configuració discreta descrita anteriorment, però també es generalitza a espais continus i mixtos. Pot superar la cerca de Grid, especialment quan només un nombre reduït d'hiperparàmetres afecta el rendiment final de l'algorisme d'aprenentatge automàtic.[6] En aquest cas, es diu que el problema d'optimització té una dimensionalitat intrínseca baixa.[7] La cerca aleatòria també és paral·lelament vergonyosa i, a més, permet la inclusió de coneixements previs especificant la distribució a partir de la qual es mostren. Malgrat la seva senzillesa, la cerca aleatòria segueix sent una de les línies de base importants amb les quals comparar el rendiment dels nous mètodes d'optimització d'hiperparàmetres.

L'optimització bayesiana és un mètode d'optimització global per a funcions de caixa negra sorolloses. Aplicada a l'optimització d'hiperparàmetres, l'optimització bayesiana construeix un model probabilístic del mapeig de funcions des dels valors dels hiperparàmetres fins a l'objectiu avaluat en un conjunt de validació. Mitjançant l'avaluació iterativa d'una configuració d'hiperparàmetres prometedora basada en el model actual, i després actualitzar-la, l'optimització bayesiana pretén recollir observacions que revelin la màxima informació possible sobre aquesta funció i, en particular, la ubicació de l'òptim. Intenta equilibrar l'exploració (hiperparàmetres per als quals el resultat és més incert) i l'explotació (hiperparàmetres que s'esperen propers a l'òptim). A la pràctica, s'ha demostrat que l'optimització bayesiana[8][9][10][11] obté millors resultats en menys avaluacions en comparació amb la cerca en graella i la cerca aleatòria, a causa de la capacitat de raonar sobre la qualitat dels experiments abans d'executar-los.


Referències

  1. Matthias Feurer and Frank Hutter. Hyperparameter optimization. In: AutoML: Methods, Systems, Challenges, pages 3–38.
  2. 2,0 2,1 Hyperparameter Search in Machine Learning. 
  3. Bergstra, James; Bengio, Yoshua Journal of Machine Learning Research, 13, 2012, pàg. 281–305.
  4. Chin-Wei Hsu, Chih-Chung Chang and Chih-Jen Lin (2010). A practical guide to support vector classification. Technical Report, National Taiwan University.
  5. BioData Mining, 10, 35, 12-2017, pàg. 35. DOI: 10.1186/s13040-017-0155-3. PMC: 5721660. PMID: 29234465.
  6. Bergstra, James; Bengio, Yoshua Journal of Machine Learning Research, 13, 2012, pàg. 281–305.
  7. Ziyu, Wang; Frank, Hutter; Masrour, Zoghi; David, Matheson; Nando, de Feitas (en anglès) Journal of Artificial Intelligence Research, 55, 2016, pàg. 361–387. arXiv: 1301.1942. DOI: 10.1613/jair.4806.
  8. Learning and Intelligent Optimization, ISBN 978-3-642-25565-6, doi:10.1007/978-3-642-25566-3_40, <http://www.cs.ubc.ca/labs/beta/Projects/SMAC/papers/11-LION5-SMAC.pdf>
  9. Advances in Neural Information Processing Systems, <http://papers.nips.cc/paper/4443-algorithms-for-hyper-parameter-optimization.pdf>
  10. Snoek, Jasper; Larochelle, Hugo; Adams, Ryan Advances in Neural Information Processing Systems, 2012. arXiv: 1206.2944. Bibcode: 2012arXiv1206.2944S.
  11. Thornton, Chris; Hutter, Frank; Hoos, Holger; Leyton-Brown, Kevin Knowledge Discovery and Data Mining, 2013. arXiv: 1208.3719. Bibcode: 2012arXiv1208.3719T.