Formations Pré-congrès
Plusieurs séminaires pré-congrès sont prévus pour cette édition.
Ces séminaires s'adressent essentiellement aux étudiants (doctorants, post-doctorants, etc.) mais également aux chercheurs confirmés afin de découvrir, parfaire et/ou consolider des connaissances dans le domaine de la chimiométrie.
Les thématiques suivantes seront proposées lors de séminaires de 3 heures le 26 février. Ces formations seront théoriques ou en alternance théorie/pratique (ordinateur non fourni). Les places sont limitées à 25 personnes par session.
Tarif : 100 € par personne et par formation et 50 € pour les étudiants.
Formations pré-congrès
|
|
Philippe BASTIEN (L'Oréal Recherche)
|
A little Journey through causality
|
|
L’objectif de ce cours est de présenter les concepts de base à travers les approches de Pearl et de Rubin. Après une présentation historique de la causalité on s’intéressera à résoudre certains paradoxes (Simpson) que la statistique classique ne peut expliquer. On présentera un langage graphique sous la forme de DAG (directed acyclic graph) proposé par Pearl pour exprimer et visualiser notre vision causale du monde. On s’appuiera sur les notions de v-structures et de d-separation dans la construction du DAG. On montrera comment identifier les effets causaux grâce à l’utilisation d’outils comme le back-door, le front-door, les variables instrumentales ou le do-calculus. On abordera la notion de contrefactuelle principalement à travers les travaux de Rubin avec la notion de potential outcomes. On montrera comment éliminer les biais de confusion à travers la pondération des observations par le score de propension. On présentera l’utilisation de packages sous R et Python.
|
|
Ludovic DUPONCHEL
|
Traitement des données issues de l’imagerie hyperspectrale
|
|
L'objectif de ce cours est d'introduire l'ensemble des outils nécessaires à l'exploration de données hyperspectrales / multispectrales provenant d'expériences d'imagerie spectroscopique comme par exemple en Raman, moyen infrarouge, proche infrarouge et bien plus. Nous nous pencherons ainsi sur cette structure particulière du cube de données mêlant informations spectrales et spatiales. Après une introduction sur les principes instrumentaux spécifiques à ces expériences, nous aborderons en premier lieu l'exploration univariée qui est à la base de l'imagerie en insistant sur ses avantages et ses inconvénients.
Les outils multivariés seront ensuite abordés comme par exemple l'Analyse en Composantes Principales (ACP), les méthodes de classification non-supervisée (Clustering, K-means...), les méthodes de classification supervisée (k-Nearest Neighbors, SIMCA, PLS-DA...) ou encore la résolution multivariée de courbes (MCR-ALS). Ce sont bien entendu des outils classiques de la chimiométrie mais nous les aborderons dans ce cadre spécifique de l'imagerie spectroscopique.
|
|
Jean-Michel ROGER
INRAE Montpellier
|
Analyse en composantes principales appliquée aux données spectrales et prétraitements des spectres proche infrarouges
|
|
L’analyse en composantes principales (ACP) est la pierre angulaire des méthodes linéaires de traitement des données multivariées. Le fonctionnement de cette méthode sera présenté, de manière intuitive et de manière formelle, ainsi que des lignes directrices d’utilisation. Un premier cas d’analyse simple, sur des données épidémiologiques, permettra d’illustrer l’utilisation classique de l’ACP. Un deuxième exemple d’analyse de données de spectres visibles - proche infrarouges montrera une utilisation très différente de cette méthode, ouvrant la voie à la compréhension de nombreuses autres méthodes de chimiométrie, comme la PLS ou la MCR-ALS.
Les données spectrales, et en particulier les spectres proche infrarouges, sont entachés d’un certain nombre de déformations qui polluent leur analyse. Un certain nombre de méthodes de prétraitement sont disponibles pour diminuer, voire éliminer l’effet de ces pollutions. Ce cours propose une revue des principales méthodes de prétraitement, et une stratégie de choix des méthodes à appliquer, basée sur l’examen des données spectrales.
|
|
Raffaele VITALE
|
Démélange spectral et résolution de courbes multivariées : principes et mise en application
|
|
Ce cours vise à offrir une perspective globale sur les problèmes de démélange spectral et de résolution de courbes multivariées. On commencera par une introduction générale sur la nature, les caractéristiques et la géométrie des données spectroscopiques de mélange. On se focalisera ensuite sur l’une des approches chimiométriques les plus couramment utilisées pour leur décomposition bilinéaire : MCR-ALS.
On décrira les principes méthodologiques et l’implémentation algorithmique de cette approche. On présentera les résultats obtenus pour des données de mélange réelles et on discutera de leur interprétation non seulement d’un point de vue physico-chimique, mais aussi mathématique et géométrique. À cet égard, on se référera aux travaux les plus récents effectués dans le cadre de l’étude des propriétés de l’algorithme MCR-ALS et des implications qui découlent de son utilisation.
|
|
Dr. Sylvie ROUSSEL
PDG Ondalys
|
Revue des principales méthodes de Machine Learning (ML)
|
|
Ce cours vise à faire un tour d’horizon des méthodes de Machine Learning applicables à des données instrumentales de laboratoire (smart data, small data et non Big Data et Deep Learning). Il commencera par une introduction qui définira le Machine Learning (ML) versus Chimiométrie. Une revue des principales méthodes de Machine Learning sera présentée. Puis, certains algorithmes seront approfondis : les réseaux de neurones artificiels (Shallow Neural Networks - Artificial Neural Networks (ANN)), les Support Vector Machines (SVM) et les méthodes de Classification and Regression Tree (CART) / Random Forests (RF). La fin du cours sera composée d'un exemple d’application.
|
|
Marion BRANDOLINI-BUNLON, Benoît JAILLAIS, Mohamed HANAFI
|
Analyse de données multiblocs de spectroscopie et de métabolomique
|
|
L’analyse conjointe de plusieurs tableaux de données issues de mesures par spectroscopie vibrationnelle ou par métabolomique, ayant les mêmes observations ou les mêmes variables, constitue un véritable atout scientifique. Les méthodes chimiométriques classiques telles que l'analyse en composantes principales (ACP) et la régression des moindres carrés partiels (PLS) ont alors été étendues pour être plus efficaces pour analyser ces données dites « multiblocs ». L’objectif de ce cours est donc d’introduire le concept de données multiblocs et le principe de leur analyse, et de faciliter l’accès et la mise en œuvre des méthodes multiblocs par les utilisateurs.
Nous parlerons, notamment, des structures de données multiblocs et de la notion de factorisation canonique des données multiblocs, et nous reformulerons les méthodes existantes à partir de cette notion. Devant la multitude des approches proposées et des méthodes qui en résultent pour répondre à différents objectifs, l’utilisateur non spécialiste pourrait rester perplexe. Ce cours sera donc avant tout une introduction didactique à l’analyse de données multiblocs lorsque ces techniques sont appliquées sur données issues de la spectroscopie vibrationnelle et de métabolomique. Le processus d’analyse, avec les tâches allant de la visualisation de base de données multiblocs aux applications innovantes, sera présenté sur la base de plusieurs études de cas. Les avantages et inconvénients des différentes méthodes seront également discutés. Enfin, nous proposerons des outils ayant des sorties graphiques standardisées et enrichies pour l’ensemble des méthodes. Un résumé des ressources logicielles disponibles pour l'analyse de données multiblocs sera fourni, avec un focus particulier sur l’outil ChemFlow.
|
|
Véronique CARIOU, Jean-Michel GALHARRET
|
Equations structurelles et leurs applications
|
|
La modélisation en équations structurelles est d’un certain point de vue une généralisation des modèles de régressions linéaires à des systèmes complexes. Il s’agit en effet d’étudier les relations entre plusieurs blocs de données appariés sur les individus qui sont décrits par un ensemble de variables observées différant suivant les blocs. Dans ces modèles, une variable non observée est associée à chacun des blocs et on s’intéresse à l’ensemble des équations de régression liant ces variables entre-elles. L’estimation des coefficients de ces modèles peut être réalisée à partir de l’analyse des covariances (Jöreskog, 1970, LISREL) ou bien l’approche PLS (Wold 1982). L’analyse des covariances est l’approche qui reste la plus utilisée dans les domaines des sciences humaines et sociales. C’est aussi celle qui admet les fondements les plus aboutis en termes de validation statistique. L’approche PLS, aussi appelée PLS-PM ou plus récemment PLS-SEM, s’avère quant à elle souvent plébiscitée par sa capacité à associer à chaque bloc une composante (comme en ACP), matérialisant ainsi les variables non observées. Après avoir réalisé une brève introduction mathématique de cette modélisation dans le cadre des modèles à variables latentes, nous illustrerons l’approche par analyse de covariance en psychologie. Dans un second temps, nous présenterons l’alternative avec PLS-SEM en l’illustrant sur des exemples issus de sensométrie et de chimiométrie. Puis nous conclurons sur l’apport de PLS-SEM pour les modèles composites (Dijkstra, 2013 ; Henseler et al., 2014).
|
|
|