Contexte et problématique
Reprise d’un contexte existant compliqué avec beaucoup d’initiative avorté.
Nous devions permettre à notre client, un acteur du transport, de reprendre le contrôle de leur Data en les centralisant à un même endroit mais surtout convaincre les métiers et la direction de l’apport de ces technologies.
Nous avions un premier lot de 8 cas d’usages pour apporter des résultats concrets.
Dans un premier temps, nous nous sommes focalisés sur des projets pilotes avec des Quick-Win. Par la suite, nous sommes intervenus de manière plus globale sur l’ensemble des sujets Data.
Objectifs
Définition de la stratégie Data
Accompagner le client sur la centralisation et la valorisation de ses Data via la création de son DataHub (DataWarehouse).
Industrialisation de 5 uses-cases BI
Démontrer l’apport de la Data Sciences via 8 Uses-Cases
Préparation et accompagnement pour un déploiement plus globale
Mettre en place une culture Data-Driven et DevOps
Notre intervention
Audit
- Etat de la maturité et la connaissance de sujets / culture Data
- Analyse et inventaire des technologies utilisées
- Organiser l’architecture et la typologie des différentes bases de Données groupe afin de
définir un périmètre cible représentatif. - Etude d’impact sur le SI
Stratégie Data – Définition et mise en place :
- Rédaction du CDC pour la consultation d’éditeur d’ETL
- Rédaction du CDC pour la consultation de système facilitant l’hébergement de données type
SnowFlake - Rédaction du CDC pour la consultation des outils de Data Analyse
- Benchmark de solution et lancement de projet pilote avec Dataiku
AMOA :
- Définition des cas d’usage
- Définition d’un périmètre cible : métier, infrastructure, etc
- Définition de la Road-Map
Data Architecture – définition et conception du DataWarehouse :
- Architecture de l’infrastructure sous AWS
- Définition de l’écosystème Data
- Mise en place de l’environnement
Data Engineering / Développement Big Data :
- Développement et industrialisation des pipelines d’ingestion sous Spark et Scala
- Architecture BI : développement et implémentation des modules BI pour les 5 use-cases
- Industrialisation de modèles sous Python et Scala
- DevOps : Mise en place de l’écosystème et des practices associées
Architecture BI : développement et implémentation des modules BI pour les 5 Use-Cases :
- Analyse des besoins métiers
- Cartographie des données et des référentiels
- Mise en place de l’écosystème BI : Power BI et Tableau
Data Analyse et Data Visualisation : développement et déploiement des Uses-Cases :
- Matrice Scorecard : conducteurs et Manager
- Mise à disposition des conducteurs et de leurs managers, les indicateurs clés permettant de
déclencher des réponses opérationnelles, mieux piloter la performance individuelle et améliorer
la performance de l’entreprise dans sa relation avec les AO. - Cas d’usage 2 : visualisation de la fréquentation des réseaux en fonction de l’offre théorique et
des différents services proposés aux voyageurs. - Management Dashboard : mise à disposition des managers opérationnels et COMEX des
indicateurs homogènes, permettant de déclencher des réponses opérationnelles, limiter la charge de reporting au niveau des entités, en améliorant la qualité des données (standardisation des définitions, harmonisation des référentiels …).
Data Sciences : développement et industrialisation de modèles :
- Classification d’incident (NLP et Time Series) : analyse et classification automatique d’incident. Prédiction sur le temps de résolution moyen.
- Maintenance prédictive (Time Series) : prédiction du taux de panne sur le matériel roulant de type Bus
- Détection et lecture de plaque d’immatriculation (Computer Vision) : identifier les bus de retour à l’entrepôt
- Analyse de sentiments : analyse des réseaux sociaux pour identifier des problématiques. Analyse de questionnaires de satisfaction
- Churn : analyse et définition de pattern sur les clients allant potentiellement churner
Résultats
DataHub opérationnel pour l’ensemble du périmètre cible 4 DashBoard mis en production au lieu des 5 prévus
7 Uses-Cases Data Sciences déployés
Environnement technique
AWS – SnowFlakes – Talend – Python – Scala – Spark – Docker – ElasticSearch – Keras TensorFlow – PyTorch – Tableau – PowerBI – Dataiku