Lutter contre l'attrition avec l'analyse de séquences et l'analyse de survie

L'attrition client – ou le churn – est un enjeu d'analyse majeur pour de nombreuses entreprises : le coût d'acquisition des clients étant élevé dans la plupart des secteurs, les fidéliser est nécessaire pour assurer une bonne rentabilité. En effet, un client déjà engagé continue de générer de l'activité avec beaucoup moins d'efforts de la part de l'entreprise. Cela est vrai non seulement pour les entreprises basées sur un modèle de contrat récurrent, mais aussi pour les modèles de ventes ponctuelles, car la probabilité de revendre à un client satisfait est plus élevée que celle de vendre à un nouveau prospect (quelques statistiques supplémentaires).

L'attrition est parfois naturelle – le client n'ayant plus besoin du produit ou du service – mais le plus souvent, elle résulte d'un départ vers une offre concurrente. Ce phénomène est aujourd'hui amplifié par la disruption qu'engendre l'arrivée de nouveaux acteurs digitaux, parfois plus agiles, qui peuvent répondre aux aspirations des clients en matière de digitalisation (par exemple dans la banque et l'assurance).

Pourquoi étudier l'attrition client ?

Prédire et comprendre l'attrition est nécessaire pour plusieurs raisons. D'une part, anticiper l'attrition fournit des informations commerciales utiles, qui peuvent être utilisées pour planifier d'éventuelles réductions de volume, adapter les opérations ou se concentrer sur l'acquisition de nouveaux clients. D'autre part, identifier les facteurs responsables de l'attrition permet de prendre des mesures préventives pour éviter le départ des clients. En effet, si certaines causes d'attrition sont externes à l'entreprise (crises comme le Covid en 2020), d'autres sont des facteurs qui peuvent être facilement anticipés (saisonnalité, facteurs démographiques : vieillissement, évolution des besoins) ou sur lesquels on peut agir (mauvaise expérience ponctuelle, offre moins engageante), ce qui permet de mieux anticiper et réduire les départs de clients, avec des résultats directs sur les coûts opérationnels et les bénéfices.

Enjeux pratiques de l'analyse de l'attrition

Prédire l'attrition au niveau du client individuel est, cependant, un défi majeur : si elle est le résultat d'une insatisfaction ou d'un départ, la décision du client est prise avant qu'il ne résilie effectivement son contrat, et ce délai entre la décision et la réalisation empêche toute réaction pertinente. À cela s'ajoute la difficulté que les signaux forts disponibles sont souvent des marqueurs de la réalisation et non de la décision. Ils deviennent ainsi disponibles trop tard, ne laissant aucune opportunité à l'entreprise de mettre en place des actions préventives. De manière générale, plus la prédiction est faite loin dans le futur, plus la précision des prévisions est faible : les signaux les plus révélateurs sont ceux qui se produisent le plus près de l'attrition réelle.

Il est donc particulièrement important de développer une approche qui permette d'anticiper le départ des clients bien en amont, ou mieux encore, d'identifier directement les sources et les dynamiques de l'attrition afin de prendre des mesures correctives en amont.

Plusieurs approches sont possibles pour mener une telle étude :

L'utilisation d'un ensemble de modèles prédictifs classiques de Machine Learning, qui viseront à prédire l'attrition à différents horizons temporels, et dont l'analyse par des méthodes d'interprétabilité permettra de mettre en évidence certains facteurs.
L'analyse de survie, qui permet à un modèle unique de prédire l'évolution du volume d'attrition (pourcentage de clients en attrition) au fil du temps, et de comparer sur différents segments de la clientèle (par offre, année d'arrivée ou type d'expérience client) comment la probabilité d'attrition évolue dans le temps.
En examinant la séquence d'événements vécus par les clients en attrition, afin d'identifier quelles séries d'événements augmentent ou diminuent la probabilité et la vitesse de l'attrition.

L'analyse de survie et l'analyse séquentielle sont deux approches très complémentaires, qui reposent sur une représentation différente des clients – la première basée sur les caractéristiques endogènes du client, la seconde sur le parcours client.

‍

Approche par analyse de survie

L'analyse de survie (cours d'introduction et exemple Python) a été initialement développée pour estimer l'espérance de vie des individus : pour une certaine population, dont un échantillon est connu (on sait pour différents individus si l'événement "décès" a été observé, et si oui, après combien de temps), elle permet de modéliser la "fonction de survie", c'est-à-dire la probabilité qu'un individu donné soit encore en vie à chaque instant.

Ce cadre semble très différent de l'attrition à première vue, mais en fait il est parfaitement adapté : il suffit de considérer l'attrition d'un client comme l'événement "décès". L'analyse de survie modélise alors comment la probabilité d'attrition évolue sur l'horizon temporel.

Le résultat d'une analyse de survie est plus riche que celui d'une régression linéaire qui viserait à prédire la durée de vie de l'individu. Elle ne modélise pas seulement l'espérance de vie, mais toute la distribution de probabilité de survie à chaque horizon temporel. L'exemple suivant illustre cette nuance : si un client a 30 % de chances de "survivre" 1 mois et 70 % de chances de "survivre" 5 ans, cette information sur la distribution est bien plus précieuse que de simplement savoir que le client a une "espérance de vie" de 42 mois. Ceci est particulièrement important pour la gestion de l'attrition : il est nécessaire de pouvoir simuler les moments réels de départ, et non pas seulement leur espérance.

L'approche par analyse de survie n'est pas seulement plus riche, elle évite également un biais important : le phénomène de censure.

Censure et analyse de survie

Lors de la modélisation d'un phénomène de "survie" tel que l'attrition à partir de données clients, une caractéristique importante des données doit être prise en compte : l'événement étudié n'a probablement pas été observé pour tous les clients. Par exemple, tous les clients actuels n'ont pas connu d'attrition. Une approche par régression nécessiterait de transformer ces données pour éviter des anomalies dans le modèle (espérance de vie moyenne infinie), par exemple en ne considérant que les clients qui sont déjà partis. Cette transformation biaise de manière incontrôlable le modèle et ses résultats : tous les individus utilisés pour entraîner le modèle ont connu l'événement "décès", ce qui est loin du comportement souhaité, surtout si la durée de vie normale d'un individu est supérieure à la période depuis laquelle les données sont acquises ! Pour comprendre en quoi cela est problématique, considérons un médecin étudiant l'espérance de vie de patients après 10 ans ; s'il néglige tous les patients encore en vie, il n'atteindra jamais les bonnes conclusions.

L'analyse de survie ne rencontre pas de censure, car elle ne modélise pas explicitement l'espérance de vie, et peut donc être entraînée sur des échantillons pour lesquels l'événement de décès ne s'est pas produit – dans notre exemple, elle permet au médecin de prendre en compte les patients survivants.

Utilisation pratique de l'analyse de survie

L'analyse de survie permet d'estimer pour chaque client, en fonction de ses caractéristiques, la probabilité qu'il soit encore présent à n'importe quel horizon temporel. Cette information peut ensuite être transformée pour prédire l'attrition à un horizon temporel fixe (par exemple, en déclenchant une alerte si la probabilité de départ du client à six mois dépasse un certain seuil). Mais elle peut aussi être utilisée pour visualiser et estimer les différences d'attrition entre plusieurs groupes d'individus – en fonction du canal d'acquisition, de la période d'arrivée, ou de la présence ou non d'un événement dans leur parcours client – et ainsi identifier les similitudes et les différences dans les dynamiques d'attrition des groupes. Enfin, certains modèles, comme le modèle de Cox, sont directement interprétables : une fois entraînés, leurs paramètres reflètent l'influence des variables descriptives des individus sur la fonction de survie.

Utiliser l'analyse de séquences pour affiner l'étude

En pratique, l'analyse d'attrition nécessite parfois de prendre en compte des facteurs supplémentaires :

D'une part, l'attrition client peut ne se manifester dans les données de l'entreprise que très tardivement dans le processus, indépendamment de la fin réelle de l'expérience client. Par exemple, dans le cas de la clôture formelle d'un compte, elle peut survenir bien après que le client ait cessé ses activités. Il est donc parfois nécessaire d'élargir la notion d'événement d'attrition, ou d'examiner plusieurs phases d'attrition.
D'autre part, l'attrition peut être causée par une succession de facteurs – ce qui sera difficile à détecter par des approches conventionnelles, car celles-ci ne tiennent que peu ou pas compte de la temporalité dans la description d'un client.

C'est pourquoi il peut être pertinent de compléter cette approche en définissant un ensemble d'événements clés dans le parcours client (demandes, nouvelles commandes, litiges, etc.) et en examinant la succession de ces événements et la manière dont cette succession influence l'attrition : il s'agit de l'analyse de séquences (dont voici une présentation plus détaillée).

L'analyse de séquences permet de visualiser et d'étudier la manière dont les individus évoluent au fil du temps, et notamment de comprendre le conditionnement entre les événements (par exemple : la majorité des individus ayant vécu l'événement C ont d'abord vécu les événements A puis B). En représentant les probabilités de passages successifs entre événements sous forme d'arbre, il est possible d'identifier quelles successions d'événements ont une influence majeure sur le risque d'attrition. Il est notamment possible de détecter les événements synonymes d'attrition avérée (ceux qui mènent invariablement à une attrition détectée), ou les événements pivots (ceux à la suite desquels les chemins possibles sont radicalement différents en termes de risque d'attrition) – sur lesquels une action est la plus susceptible de réduire l'attrition. En travaillant avec une grande banque française, eleven a constaté que la détection de ces événements pivots par l'analyse de séquences a une valeur particulière : ils peuvent survenir bien avant l'attrition et ne sont pas facilement détectés par un modèle de détection classique, qui se concentrera sur les événements les plus corrélés à l'attrition (c'est-à-dire les plus tardifs), alors que l'arbre permettra d'étudier les événements sources en premier lieu. Cette approche a également une composante prédictive directe : pour un client individuel, cette modélisation permet d'évaluer la probabilité empirique de chacun des chemins en fonction de sa situation actuelle.

Ces deux outils permettent de réaliser une étude détaillée et de mettre en place des mesures préventives

Grâce à ces outils, l'attrition des clients de l'entreprise n'est plus une fatalité, et son impact peut être considérablement réduit :

D'une part, l'analyse de survie permet une meilleure anticipation, à un niveau de granularité temporelle et sectorielle élevé.
D'autre part, l'analyse de séquences permet d'affiner la prédiction du parcours d'un client en l'enrichissant de plusieurs événements clés afin de mener des actions ciblées. Mais son intérêt principal reste d'identifier rapidement les événements et les successions d'événements qui ont le plus grand impact sur le risque d'attrition, afin d'orienter les actions à mener pour la prévenir sur l'ensemble de la base clients.

L'intérêt de l'analyse de séquences en entreprise ne s'arrête pas là : elle peut également être utilisée pour étudier les parcours d'acquisition et de vente ou, de manière générale, l'ensemble du parcours client dans l'entreprise.

Louis Dumont, Charafeddine Mouzouni