|
|
Espace EntrepriseListe des entreprises et des sujets proposés :
Sujet 1 : Clustering de traces Un journal d'événements est constitué d'événements caractérisés a minima par un identifiant d'unité, une activité effectuée par l'unité et la date de réalisation de l'activité. L'ensemble des événements partageant le même identifiant constituent le parcours de l'unité. Un parcours peut être résumé par sa suite d'activités, dans l'ordre chronologique. Tous les parcours possédant la même suite d'activités constituent une trace, c’est-à-dire un type de parcours observé. ActiTraC (Active Trace Clustering) est un algorithme de clustering de traces issues d'un journal d'événement. Le clustering s'opère à partir de la sélection d'une trace et de la création d'un process model issu de l'algorithme Heuristics Miner. Deux traces sont dans le même cluster si la qualité du modèle incluant les deux traces reste supérieure à un seuil donné par l'utilisateur. Le travail consiste en une adaptation sous Python de cet algorithme, sans se reposer sur les implémentations de Heuristics Miner issues du module Python pm4py. En fonction de l’effectif du groupe, Transformation de Iman-Conover : Il s’agit d’implémenter en Python l’algorithme présenté dans ce blog : https://blogs.sas.com/content/iml/2021/06/16/geometry-iman-conover-transformation.html Et qui est également disponible dans le package Mc2d : https://cran.r-project.org/web/packages/mc2d/vignettes/docmcEnglish.pdf L’objectif est de permettre de faire des scénarios « what if » en modifiant la liaison entre (par exemple) la durée dans une étape et la durée totale. Et si le doctorant trouve d’autres méthodes pour parvenir au même résultat, nous serions preneurs évidemment
Sujet 2 : Simulation numérique On dispose d’un échantillon de N observations pour lesquelles un ensemble de durées sont renseignées. Certaines contiennent des valeurs manquantes qui sont « missing by design » et donc qu’il ne fait pas imputer. L’une de ces durées est la durée totale, somme directe pour chaque observation des durées partielle. On veut pouvoir fournir un diagnostic de type « chemin vertueux », c’est-à-dire : pour obtenir la plus forte modification de la durée totale, il faut d’abord diminuer la durée dans l’étape X de tant, puis diminuer la durée dans Y de tant, et ainsi de suite jusqu’à un seuil minimal de baisse de la durée totale qui serait un paramètre fixé à l’avance. Ici, l’ordre X puis Y puis Z ne tient pas compte de l’ordre temporel dans lequel les étapes X, Y et Z se déroulent réellement. C’est une minimisation imbriquée de l’espérance moyenne de la durée totale conditionnellement aux durées partielles. Une première approche de ce problème pourrait reposer sur l’utilisation de plans d’expériences.
Partitionnement des prises de position politique par les intervenants du débat public (députés, journalistes, influenceurs etc.) à partir des intéractions (posts, retweet, like) sur les réseaux sociaux. Grâce au partitionnement, Spot sera en mesure d'évaluer si les prises de positions documentées sur la plateforme recouvrent un éventail suffisamment large d'opinions (par rapport aux opinions des députés mesurées) pour que la synthèse du débat puisse être qualifiée de "neutre". Les étapes :
Une base théorique existe déjà due à l’Institut des Systèmes Complexes en lien avec le CNRS : https://politoscope.org/2021/07/holdupstoplapeur-a-qui-profite-le-crime/. L'algorithme de clustering de Louvain qui pourrait constituer un bon point de départ pour construire un outil léger et actionnable avec des mots clés variés fonctions des débats sociétaux du moment.
Utilisation de tableaux MRIO pour l’estimation d’impact climatique Tableaux MRIO Les tableaux Multi-Regional Input-Output (MRIO) [1] sont un outil couramment utilisé en modélisation économique pour l’analyse des flux interindustriels, et des relations commerciales entre régions (intra- ou internationales). Le problème L’utilisation des données MRIO existantes pour l’estimation d’impact d'évènement climatiques se heurte à 2 problèmes majeurs :
Le premier problème correspond à l’idée de « désagréger » des matrices existantes, sous contraintes d’informations extérieures. Par exemple : transformer une matrice MRIO de flux entre pays, en matrice entre entités administratives régionales (type départements français), à l’aide des données nationales sur l’économie de ces entités administratives. Les approches existantes restent relativement rudimentaires, aussi bien en termes de théorie mathématique, qu’en efficacité de calcul [2], et il y a donc un terrain fertile d’exploration pour améliorer l’état de l’art. [1] https://fr.wikipedia.org/wiki/Analyse_entrée-sortie [2] https://www.researchgate.net/publication/277744095_Regional_and_Sectoral_Disaggregation_of_Multi-Regional_Input-Output_Tables_-_a_Flexible_Algorithm
Dans le cadre de sa relation client avec ses assurés sociaux la CPAM de Meurthe et Moselle dispose de 5 types de canaux de contact :
On observe également un taux important de réitération sur les 4 canaux de conseil (15% environ) c’est-à-dire des situations ou les personnes ne trouvent pas la réponse qu’ils attendent au premier contact. Il est proposé à l’équipe de chercheurs en mathématiques à partir de notre base de données de formuler des recommandations complémentaires à partir d’une analyse du parcours des réitérants, de leurs caractéristiques (sexe, âge, situation, etc.) et de la nature de leur demande. Ainsi, nous mettrions à votre disposition une base anonymisée comportant l’ensemble de nos sollicitations (réitérations et contacts conclusifs) sur une période donnée complétée d’un maximum d’informations permettant de réaliser une analyse multifactorielle significative.
Quel est le contexte du projet ? Le LabCom DiTeX de l’unité de recherche LIST3N (Laboratoire Informatique et Société Numérique) est un Laboratoire Commun (LabCom) de recherche et développement en Data-Innovation pour l’industrie du Textile et de l’habillement (DiTeX) qui regroupe l'université de technologie de Troyes (UTT) et l’Institut Français Textile et Habillement (IFTH). Il a pour ambition d’explorer les nouvelles voies dans le domaine de la modélisation statistique et des big data pour l’analyse et la valorisation des données appliquées aux problèmes et aux données de l’habillement. L’un des axes de développement de nouveaux services concerne la segmentation des données métier (matériaux, mensurations, morphologie, etc.) pour permettre une exploration exhaustive des panels et une meilleure connaissance des différentes morphologies grâce à des approches d’intelligence artificielle. Quels sont les objectifs du projet ? Dans l'industrie du textile on classifie la morphologie des individus en différents groupes. Une telle catégorisation des « formes » de corps permet une organisation plus appropriée des systèmes de dimensionnement des vêtements. Différentes classifications existent et ont été établies à partir de critères géométriques de représentation du corps humain. L'objectif de l’étude est d'utiliser des techniques et des méthodes de la science des données pour proposer de nouvelles classifications des types de morphologies et valider les anciennes. Pour cela il sera nécessaire d'utiliser des méthodes de partitionnement des données (clustering) ainsi que d'analyse topologique des données (topological data analysis, voir par exemple Chazal F and Michel B (2021) An Introduction to Topological Data Analysis: Fundamental and Practical Aspects for Data Scientists. Front. Artif. Intell. 4:667963. doi: 10.3389/frai.2021.667963).
|
Personnes connectées : 2 | Vie privée |