Contexte et problématique
Le client (filiale climatique d’un leader français en assurance) lance une offre d’assurances paramétriques dont une assurance sécheresse dédié aux agriculteurs européens. Afin de proposer cette assurance, Axa a besoin de prédire les taux de rendement des champs à partir des taux d’humidité au sol principalement. Nous enrichissons ces données par de multiples sources d’Open Data : Raster, shapefiles, era5, copernicus, etc.
Objectifs
Sur le périmètre de l’Allemagne :
Enrichir les données internes par de l’Open Data
Prédire le rendement à partir du taux d’humidité au sol par région et par culture (problème de régression)
Détection des années de sécheresse par région (problème de classification)
Notre intervention
2 Data Scientist, 1 Lead Data Scientist
- Collecte des données depuis des sources internes (partenaires commerciaux du client)
- Collecte des données Open Data : rester, shapefiles, era5 copernicus, etc.
- Préparation et transformation de la donnée agrégée multi-sources
- Rééquilibrage de dataset
- Modélisation et benchmarking de réseaux de neurones, LSTM, Random Forest, Gradient Boosting, LGBM, etc.
- Sélection et déploiement du modèle avec les meilleures performances : Random Forest
- Interopérabilité du modèle via des heatmap sur les cartes géographiques
Résultats
Enrichissement de données par des variables du type des soles (raster), délimitation des régions (shapefile) et des variables météorologiques (era5)
Problème de régression : RMSE ~30 pour des valeurs de l’ordre de 400 (tonnes/hectare)
Problème de classification : accuracy = 0,88 / precision = 0,74 / recall = 0,61
Environnement technique
Python – geoPandas – RasterIO – Shapely Jupyter – Pyzo
Sk-learn – Tensorflow – Keras
API Rest
GCP – AWS