Contexte et problématique
Dans une companie de transport ferroviaire, les imprévus et retards de trains sont relativement fréquents. Ainsi développer un programme qui prédit avec précision le retard de chacun des trains est un gros atout tant pour l’information apportée aux voyageurs que pour les décisions de régulation du traffic.
Objectifs
Une API (ou service similaire) qui expose en temps réel les retard des trains, avec un présion améliorée de 30% par rapport à l’existant.
Notre intervention
2 Data Scientist
- Mise en place d’un algorithme de cleaning des données en entrée (les observations des trains).
- Amélioration d’embeddings, pour avoir une représentation vectorisée du réseau sur lequel les trains circulent.
- Amélioration de l’algorithme de deep learning extistant (modèle transformer avec mécanismes d’attention) en jouant sur les hyperparamètres, données en entrée, loss, etc.
- Mise en production du modèle, afin de donner accès aux prédictions de retards de trains en temps réel.
Résultats
Environnement technique
Python, AWS, Pytorch, Git, Airflow