Écouter la conférence du 10 novembre 2017
Conférencier : Stan Matwin, Ph. D., professeur et titulaire de la Chaire de recherche du Canada (niveau 1) à Dalhousie University, Halifax, NE, directeur de l'Institute for Big Data Analytics, professeur émérite à l’Université d’Ottawa, et professeur titulaire à l’Institut d’informatique de l’Académie polonaise des sciences. Ses intérêts de recherche portent sur l'apprentissage automatique, en particulier à partir des données textuelles, ainsi que sur les applications d’exploration des données et sur la privauté des données.
Résumé : Nous allons en premier lieu décrire les grandes lignes directrices des recherches menées dans l’Institut de Big Data Analytics à Dalhousie, en particulier nos travaux avec les données spatio-temporelles sur l'exploitation des océans. Nous allons ensuite faire un tour d’horizon d’exploration des données textuelles (EDT, ou text mining), un sous-domaine d’exploration de données tout court (data mining), en commençant par les méthodes vectorielles classiques de représentation des textes, ainsi que les tâches les plus communes en EDT (clustering, classification, extraction d’information, et l’analyse du sentiment). Nous allons présenter à vol d’oiseau les méthodes modernes pour certaines de ces tâches, en particulier Conditional Random Fields et Latent Dirichlet Analysis. Dans la troisième partie de la présentation, nous allons introduire les nouvelles méthodes de représentation des données textuelles, fondées sur deep learning et la contextualisation (embeddings) des mots [Mikolov 2013]. Nous allons discuter les avantages de ces méthodes et leurs effet sur les tâches introduites au départ.