Annexe A. Quelques algorithmes d'optimisation

Table des matières

1. Descente de gradient
2. Algorithme de Levenberg Marquardt

Dans cette annexe, deux algorithmes d'optimisation qui ont servi durant les travaux présentés dans ce mémoire sont présentés. Le problème résolu par ces algorithmes est le suivant : soit une fonction, dépendant d'un vecteur de paramètres . On ne connaît pas l'expression de , mais on sait calculer numériquement quelques caractéristiques de cette fonction (valeur ou dérivée en un point par exemple). On cherche, numériquement également, le vecteur qui minimise la quantité .

Dans le contexte des réseaux de neurones, est la fonction de performance, généralement l'erreur quadratique moyenne calculée sur une base d'apprentissage, et est un vecteur regroupant tous les poids du réseau. Un algorithme d'optimisation permet d'effectuer un apprentissage du réseau, c'est à dire de trouver les poids qui minimisent l'erreur quadratique moyenne.

Les deux algorithmes ci-après ne trouveront qu'un minimum local de la fonction. Si possède plusieurs minima locaux, celui vers lequel convergera l'algorithme dépend du point de départ choisi et des paramètres de l'algorithme. On ne peut garantir de converger vers un minimum global.