Les data dans l'industrie, à quoi ça sert ?

Mais à quoi ça sert, les données ? Voici une question qui revient très souvent lorsque je parle de mon métier de Data Scientist. 

Il existe plusieurs façons d’exploiter ses données (ou data). Elles sont plus ou moins complexes, requièrent des  outils et des compétences plus ou moins spécifiques… et leur valeur ajoutée est généralement proportionnelle à l’effort consenti.

Dans cet article, nous listerons 4 types d’analyses que j’illustrerai via un exemple basique : celui de la société Eskimo. Eskimo est une entreprise (fictive) qui comme son nom le suggère produit et distribue des glaces. Cet exemple peut paraitre naïf, mais il traduit une difficulté importante : conserver une glace ne peut se faire qu’à très basse température. Les stocks de la société sont donc naturellement réduits, que ce soit par manque de place (il est plus compliqué de construire une nouvelle chambre froide que de stocker quelques palettes à l’extérieur de l’usine) ou en raison des coûts induits par la consommation électrique des installations. Eskimo doit donc être en mesure de répondre très rapidement à une variation de la demande. C’est ici que l’utilisation des données sera une aide précieuse.

Voyons donc les 4 types d’analyse qu’Eskimo peut utiliser.

L'analyse descriptive.

Comme son nom l’indique, l’analyse descriptive… décrit une situation ( !! ). L’application la plus connue est celle du tableau de bord. Il en existe à tous les niveaux de l’entreprise, le plus souvent gérés sous Excel. Ils permettent de suivre le chiffre d’affaires, les ventes, les délais de production, le niveau de qualité et bien d’autres choses encore. 

Dans la cas de notre la société Eskimo, intéressons nous à la demande, c’est à dire l’ensemble des commandes passées par les clients (en l’occurence des chaines de supermarchés). Un simple graphique à barres nous permet de suivre son évolution mensuelle depuis le début de l’année.

Demande mensuelle
Graphique 1 : évolution mensuelle de la demande.

Le graphique 1 ci-dessus nous montre que la demande est presque constante de Janvier à Avril, avant d’augmenter en Mai et de subit une brutale augmentation en Juillet.

L'analyse de diagnostic.

Il s’agit d’aller plus loin pour comprendre les causes d’un phénomène. On va généralement utiliser plus de données et recourir à des outils plus complexes, comme les statistiques voire parfois le Machine Learning.

Revenons à notre exemple de la société Eskimo. L’augmentation de la demande présentée ci-dessus paraît tout à fait normale. Après tout, plus il fait chaud, plus on consomme de glace ! Pas besoin de Data Analyst ou Data Scientist me direz-vous. Là encore, un simple graphique peut nous le confirmer.

Demande mensuelle et température.
Graphique 2 : évolution mensuelle de la demande vs température.
Coeff corrélation
Graphique 3 : coefficient de corrélat° entre demande et température

Les choses ne sont peut être pas aussi triviales qu’imaginé ! 

Sur le graphique n°2 ci-dessus, nous avons ajouté la courbe blanche qui correspond à la température moyenne mensuelle. On voit donc bien qu’elle augmente jusqu’au moins de juin (tout comme la demande), mais elle fléchit légèrement au mois de Juillet, précisément lorsque la demande « explose ». L’utilisation de statistiques nous indique un coefficient de corrélation de 0,81 entre la demande et la température, ce qui confirme bien un lien fort entre les 2 variables. Mais tout cela ne suffit pas à expliquer le phénomène du mois de Juillet.

C’est alors que le Directeur Commercial d’Eskimo nous rappelle que l’entreprise a fait d’importantes opérations promotionnelles au mois de Juillet, ce qui pourrait expliquer cette envolée des ventes. Voyons maintenant comment évolue la demande en fonction du prix de vente.

Demande mensuelle et prix de vente.
Graphique 4 : évolution mensuelle de la demande vs prix de vente.
Coeff corrélation
Graphique 5 : coefficient de corrélat° entre demande et prix de vente

On constate sur la graphique n°4 qu’à partir de Mai, la demande augmente malgré un prix de vente en légère hausse puis qu’elle augmente fortement en Juillet en même temps que la baisse de prix. Là encore, l’utilisation des statistiques et le coefficient de corrélation négatif nous indique un lien opposé entre demande et prix de vente (fort logiquement, baisser le prix fait augmenter les ventes)..

Notre analyse de diagnostic nous montre donc que les ventes ne dépendent pas uniquement de la température, mais également du prix de vente. Là encore, pas besoin d’être grand clerc pour le deviner. Cet exemple reste volontairement simple (voire simpliste) mais la réalité est sans doute beaucoup plus complexe. La température peut différer d’un point à l’autre du pays, voire même du monde si le réseau de distribution est très large. L’analyse ci-dessus devrait donc être conduite région par région. Et la demande peut également être influencée par d’autres facteurs comme par exemple les vacances (consomme-t-on plus de glace lorsqu’on est en congés ?), la pluie (il peut faire chaud mais pleuvoir) ou encore les promotions ou nouveautés apportées par les marques concurrentes.

Si l’analyse de diagnostic nous aide à comprendre les facteurs qui influencent un phénomène, elle ne permet pas directement d’estimer la demande. Que se passe-t-ol lorsque la température augmente et que le prix fait de même ? On quand le temps se refroidit et que l’on fait une promotion ?

L'analyse prédictive.

On cherche à travers cette analyse à prévoir un résultat à l’avance. Comme expliqué dans la section dédiée à l’analyse de diagnostic, chaque phénomène (par exemple la demande) est influencé par des variables explicatives (la température, le prix de vente…). L’idée est construire un modèle qui permettra de prédire notre phénomène en fonction des valeurs des variables explicatives. On utilisera pour ça des outils de Machine Learning, capables d’extraire une logique de fonctionnement à partir de données passées.

Pour la société Eskimo l’analyse prédictive permettra par exemple de répondre à la question « Quelle sera la demande de crème glacée au mois d’Août si la température est de 25°C et le prix de vente de 6,5 € / kg ? ».

Graphique de prévision de la demande
Graphique 6 : prévision de la demande au mois d'Août.

Comme on le voit sur le graphique 6 ci-dessus, son modèle permettrait à Eskimo d’estimer la demande pour le mois d’Août à 1980 tonnes, soit une baisse significative par rapport à juillet. Bien que la température augmente, par rapport à Juillet, le prix de vente supérieur fait baisser la demande.

L'analyse prescriptive.

Maintenant que nous sommes capables de prévoir la demande à l’aide d’un modèle, pourquoi ne pas aller plus loin en calculant automatiquement le prix de vente optimal, à savoir celui qui permettra d’obtenir la marge la plus élevée pour une température donnée ? C’est le but de l’analyse prescriptive. Utiliser le modèle de prédiction et lui ajouter des capacités d’optimisation afin qu’il devienne capable d’effectuer des « prescriptions », c’est à dire donner des conseils sur la solution idéale ?

Chez Eskimo, ce modèle pourrait par exemple conseiller un prix de vente de 8,2 € / kg si la température au mois d’Août est de 25°C. Ceci peut paraître contre-intuitif car la demande va se réduire de manière significative, mais la plus forte marge par bac de glace vendu permettra de compenser cette baisse.

Bien entendu, il convient toujours de garder un regard critique par rapport à cette « prescription ». D’un point de vue mathématique, il serait peut être plus intéressant de diviser les ventes par 10 tout en multipliant le prix par 10. Mais qui serait prêt à payer 65 € pour un bac de glace ? Heureusement, il est tout à fait possible d’introduire dans le modèle un critère indiquant le prix de vente maximal que l’on autorise.

En résumé

Il existe donc 4 types d’analyse à la disposition des entreprises : descriptive, diagnostic, prédictive et prescriptive. Si la première peut être réalisée facilement (une simple feuille Excel peut suffire), les autres sont de plus en plus complexes et nécessitent des outils plus spécifiques, voire même des connaissances particulières que l’on ne trouve que rarement dans les entreprises (statistiques, Machines Learning…). Toutefois, plus la solution est complexe, plus sa valeur ajoutée est importante, comme le montre l’infographie ci-dessous.

Graphique lien entre complexité et valeur.
Graphique 7 - le lien entre complexité et valeur.

Laisser un commentaire