Chimiométrie, analyse de données multivariées

Recherche et Développement en Chimiométrie

 

 

Définition de la chimiométrie:


La chimiométrie est une discipline qui utilise des méthodes mathématiques et statistiques pour analyser des données de manière optimale. Elle inclut les domaines de la modélisation mathématique (analyse de données multivariées) et les plans d'expériences.



Modélisation non linéaire : Support Vector Machines (SVM)

 

Contexte
Théorie
Bénéfices
Exemples d'application
Perspectives
Références bibliographiques

 

 

Contexte

 

Poussés par les contraintes de traçabilité et de contrôle total, les industriels exigent des systèmes de mesure de plus en plus performants et les méthodes de modélisation doivent s'adapter à ces nouveaux besoins. Ainsi, dans certaines applications, le recours à la modélisation non linéaire  est nécessaire :


-          Pour repousser les limites de la spectroscopie vibrationnelle : mesure de paramètres physiques (taille de particules), ou complexes (durabilité du bois), ou application à des échantillons hétérogènes (peau, poudres) ;


-          Pour fusionner de façon robuste d'immenses bases de données venant de divers spectromètres, intégrant les variabilités des équipements, conditions de mesure, échantillons, années, mesures de référence, etc ;


-          Pour modéliser des données d'origines diverses (traçabilité, suivi de procédé, etc.).


Historiquement, les modèles non linéaires les plus utilisés ont été les réseaux de neurones artificiels (ANN - Artificial Neural Networks). Provenant du même domaine du « machine learning Â», les « Support Vector Machines Â»  (SVM) viennent de faire leur apparition dans le domaine de la chimiométrie.


Concept : un peu de théorie

 

Les SVM sont basés sur :

 

-   une méthode modélisation locale, exploitant la proximité entre échantillons. Au lieu de bâtir le modèle sur les variables, comme les méthodes de modélisation classiques (PCA, PLS, ANN), les SVM remplacent la matrice X [n×p] par une « matrice noyau Â»
(kernel :
K [n×n]) de mesure de similitude des n échantillons d'étalonnage.

 


 

-   une méthode de modélisation non linéaire, grâce à un calcul de noyau non linéaire, basé sur une fonction Gaussienne, à base radiale (RBF).

 

 

 

 

Le paramètre  détermine la largeur de la Gaussienne, et donc le degré de non linéarité du noyau (C.f. figure ci-contre):

 


o faible : noyau étroit (abscisse), modélisation extrêmement non linéaire, peu de Ki,j (ordonnée) proches de 1, donc modèle basé sur peu d'échantillons  


o élevé  : noyau large, modélisation tend vers le linéaire, englobant la plupart des échantillons


Pour les LS-SVM (Least-Squares Support Vector Machines), version plus facile à optimiser que les SVM, un paramètre de régularisation γ doit aussi être optimisé, visant à réduire l'overfitting.


 

Un vecteur de régression b [n × 1] est calculé sur K [n × n] pour chaque échantillon à tester, estimant la valeur à prédire y pour chaque échantillon en fonction de sa similitude par rapport aux échantillons de la base d'étalonnage.

 


Bénéfices des méthodes non linéaires

 

- Avantages des SVM  / PLS (méthodes linéaires). Modélisation des non linéarités, gain en précision, robustesse / variabilité de larges base de données, domaines d'application plus nombreux (imagerie, automatisation, etc.)


-  Avantages des SVM / ANN : plus faciles à optimiser, plus faciles à interpréter, moins d'échantillons nécessaires pour éviter l'overfitting.


Exemples d'application -  Modélisation non linéaire

 

-  Prédiction de composés chimiques minoritaires : estimation de l'acidité des raisins avec un capteur spectroscopique portable (4)


-  Prédiction de propriétés physiques : estimation de propriétés complexes du bois (5)


-  Modélisation de signaux de capteurs innovants : Traitements des signaux de spectrométrie résolue temporellement (TRS) ou spatialement (SRS). (6) 


-  Modélisation de procédés et transfert d'étalonnage : transfert d'étalonnage entre des mesures de laboratoire et des mesures en ligne (7)


-  Classification : discrimination de particules dans les farines animales par imagerie hyperspectrale (8).


Perspectives

 

Notre service R&D reste focalisé sur les diverses techniques avancées de modélisation afin de répondre au mieux aux problématiques de faisabilité industrielles.


  Références bibliographiques


Toutes les publications de base sur la modélisation par noyaux (kernel-machines) ici

 

(1)     Chauchard F., Cogdill R. Roussel S., Roger J.M. and Bellon-Maurel V. (2004) Application of LS-SVM to non-linear phenomena in NIR spectroscopy : development of a robust and portable sensor for acidity prediction in grapes, Chemometrics and Intelligent Laboratory Systems, 71, 141-150.

 

(2)     Cogdill R.P., Schimleck L.R., Jones P.D., Peter G.F., Daniels R.F. and Clark A. III (2004). Estimation of the physical wood properties of Pinus taeda L. radial strips using Least-Squares Support Vector Machines, J.NIRS, 12, 263-269.

 

(3)     Chauchard F., Roussel S., Roger J.M., Bellon-Maurel V., Abrahamsson,S., Svensson T., Andersson- Engels, S. and Svanberg, S. (2005). Least Squares-Support Vector Machines modelling for Time Resolved Spectroscopy, Applied Optics, 44 (30), 7091-7097.

 

(4)     Barreiro P., Chauchard F., Roger J.M., Moya-Gonzales A., Bellon-Maurel V. Robust modelling for at-line / on-line calibration transfer in a NIR industrial application. Postharvest biology and technology. 2006.


(5)      Juan Antonio Fernandez-Pierna J.A., Baeten V., Michotte Renier A. Cogdill R.P., Dardenne P. (2004). Combination of SVM and NIR imaging spectroscopy for the detection on MBM in compound feeds, J. Chemom, 18 (7-8), 341-349.


 

Si vous êtes intéressé par un de ces articles, n'hésitez pas à nous en demander une copie par mail.

 

 En savoir plus sur nos services en analyse de données

 




based on Pollen CMS