Workshop Data Science

From 01/22/2018 to 01/23/2018
From 09:00 to 18:00

La numérisation croissante de notre société alimente entre autres des bases de données  ouvertes (« Open Data »), de taille grandissante (Big Data). Ces données sont souvent complexes (hétérogènes et multi-tables, munies de variables non appariées) mais peuvent être la  source de création de valeur considérable pour la société à condition qu’elles soient exploitées avec des méthodes d’analyse adéquates.  

Ces journées ont justement pour objectif de centrer cette fois le débat vers l’analyse de ces données en pensant en termes de classes. Les classes réduisent la taille des données et constituent souvent un pivot central incontournable de l’analyse. Ces classes obtenues par apprentissage non-supervisé permettent d’obtenir une vue concise et structurée modélisant les données, en apprentissage supervisé elles permettent de fournir des règles de décision efficaces.

Une troisième voie consiste à les considérer comme de nouvelles unités statistiques et à les décrire par des données symboliques (i.e. toute forme d’expression permettant de prendre en compte la variabilité interne des classes). On décrira ainsi les classes par des vecteurs de lois jointes ou marginales, d’intervalles, d’histogrammes (issus d’ondelettes, par exemple), de diagrammes de fréquence (d’utilisation courante dans les Instituts Nationaux de Statistique pour décrire des régions), de distributions, etc. . Cela permet de fusionner les données complexes et massives (en résolvant entre autres le problème des variables non appariées), pour pouvoir les étudier et les comprendre dans un cadre explicatif adéquat (i.e. à contrario des approches « boîte noire » de type « réseaux neuronaux »). L’analyse des données symboliques multidimensionnelles qui décrivent les classes peut aussi considérablement enrichir les interprétations classiques unidimensionnelles de ces classes.  

L’objectif de ces Journées est de laisser la parole à des spécialistes de l’extraction de connaissances à partir de données de toutes sortes et de réfléchir ensemble aux orientations et tendances de la théorie et de la pratique de l’analyse de ces nouvelles données dans le contexte de la révolution numérique.