L'analyse (ou logique) prédictive est une méthode issue des statistiques, de l'extraction de connaissances à partir de données et de la théorie des jeux, analysant des faits présents et passés, pour faire des hypothèses prédictives[1].
Des modèles prédictifs exploitent ainsi des schémas découverts à l'intérieur d'ensembles de données historiques et transactionnelles, pour identifier les risques et les opportunités et orienter la prise de décision, par exemple dans le monde des affaires (en actuariat, dans les services financiers, l'assurance ou le commerce de détail…) ou encore dans le droit et la justice, les télécommunications, le tourisme, la santé, l'industrie pharmaceutique et bien d'autres domaines.
Un exemple est l'évaluation du risque-client dans les services financiers ; elle utilise les antécédents de crédit d'un client, ses demandes de prêt, les données client, etc. pour évaluer la probabilité qu'il rembourse ses crédits à temps. Un exemple de ceci est le FICO Score.
L'analyse prédictive, considérée comme un type d'exploration de données[2], est un domaine de l'analyse statistique qui extrait l'information à partir des données pour prédire les tendances futures et les motifs de comportement. Le cœur de l'analyse prédictive se fonde sur la capture des relations entre les variables explicatives et les variables expliquées, ou prédites, issues des occurrences passées, et l'exploitation de ces relations pour prédire les résultats futurs[3]. Il est important de noter[style à revoir], toutefois, que l'exactitude et l'utilité des résultats dépendent grandement du niveau de l'analyse des données et de la qualité des hypothèses. L'analyse prédictive s'occupe exclusivement de la Nécessité, pas du Hasard (Le Hasard et la Nécessité_ J Monod), du "Predictive future" que J. Derrida appelle "Futur" par opposition à "l'Avenir" que l'on ne peut prédire, car Avenir = Nécessité + Hasard.[réf. souhaitée]
Les modèles prédictifs (en) analysent les performances passées pour estimer la probabilité que peut avoir un client de montrer un comportement spécifique dans le futur afin d'améliorer l'efficacité marketing. Cette classe de modèles comprend aussi des modèles recherchant des motifs de données subtiles pour répondre aux questions de la performance client, tels que les modèles de détection des fraudes. Les modèles prédictifs effectuent souvent des calculs durant les transactions en ligne, pour par exemple, évaluer le risque d'un client donné ou d'une transaction donnée, dans le but d'aider à la décision. Avec l'augmentation de la vitesse des ordinateurs, des systèmes de modélisation d'agent peuvent simuler le comportement humain en réponse à des stimulus ou à des scénarios. Le vocable pour l'animation de données spécifiquement liées à un individu dans un environnement de simulation est l'analyse d'avatar[réf. nécessaire].
Les modèles descriptifs quantifient les relations entre les données d'une manière souvent employée pour classer les clients ou les prospects dans des groupes. À l'opposé des modèles prédictifs qui se concentrent sur la prédiction d'un seul comportement de client (tel que le risque client), les modèles descriptifs identifient plusieurs relations entre les clients ou entre produits. Les modèles descriptifs n'ordonnent pas les clients par la probabilité qu'ils ont d'entreprendre telle ou telle action, comme le font les modèles prédictifs. Ils peuvent être utilisés, par exemple, pour catégoriser les clients par leurs préférences et leur étape de développement. Les outils des modèles descriptifs sont employés pour créer d'autres modèles pouvant simuler de grands nombres d'agents individualisés et proposer des prédictions[réf. nécessaire].
Les modèles de décision[Note 1] décrivent des relations entre tous les éléments d'une décision - les données connues (y compris les résultats des modèles prédictifs), la décision et les résultats attendus de la décision - afin de prédire les résultats des décisions mettant en jeu un nombre de variables important. Ces modèles peuvent être utilisés dans l'optimisation, la maximisation de certains effets et la minimisation d'autres effets. Les modèles de décision sont généralement utilisés pour développer une logique de décision ou un ensemble de règles métier qui produiront l'action souhaitée pour chaque client ou dans chaque circonstance.
Bien que l'analyse prédictive puisse être utilisée dans un grand nombre d'applications, quelques exemples où l'analyse prédictive a montré un impact décisif dans les années passées sont présentés ici.
Les experts utilisent l'analyse prédictive dans le domaine de la santé principalement pour déterminer quels sont les patients susceptibles de développer des maladies telles que le diabète, l'asthme, les maladies cardiaques, et d'autres affections potentiellement dangereuses. De plus, les systèmes d'aide à la décision clinique incorporent l'analyse prédictive pour soutenir les décisions médicales. Une définition a été proposée par le Docteur Robert Hayward du Centre des Évidences de Santé : « Les systèmes d'aide à la décision clinique font le lien entre les observations et la connaissance clinique pour influencer les choix des cliniciens afin d'améliorer les services médicaux »[réf. nécessaire].
Chaque portefeuille contient en son sein un ensemble de clients à risque qui ne remplissent pas leurs obligations à temps. L'institution financière doit entreprendre des actions de recouvrement pour encaisser les sommes dues. Un grand nombre de ressources est gaspillé pour des clients dont les sommes dues sont difficiles voire impossibles à recouvrir. L'analyse prédictive peut aider à optimiser les sommes allouées au recouvrement en identifiant les agences les plus efficaces, les stratégies de contact, les actions judiciaires et autres pour chaque client, afin d'augmenter le taux de recouvrement tout en réduisant les coûts[réf. nécessaire].
Beaucoup de métiers ont à tenir compte de leur exposition aux risques en référence aux services qu'ils offrent et doivent déterminer le coût nécessaire à la couverture des risques. Par exemple les fournisseurs d'assurances automobiles ont besoin d'évaluer le montant de la prime d'assurance pour couvrir le risque couru par l'automobile et le conducteur. Une institution financière a besoin d'évaluer le potentiel et la capacité de remboursement de l'emprunteur avant l'accord de prêt. Pour un assureur santé, l'analyse prédictive peut aider à analyser les données du passé médical sur quelques années, aussi bien que tout autre information en provenance des laboratoires, pharmacies, et autres enregistrements disponibles, pour savoir le cout que l'assuré occasionnera dans le futur. L'analyse prédictive peut aider à la souscription de ces contrats en évaluant les probabilités de maladie, de défaut de paiement, de faillite, etc. L'analyse prédictive peut rationaliser le processus d'acquisition de clients, en évaluant le comportement à risque du client en utilisant les données disponibles. L'analyse prédictive, dans son volet scoring a réduit le temps d'approbation d'une demande de crédit ou de prêt. Une analyse prédictive adéquates peut mener à des décisions de tarification adéquates qui peuvent aider à alléger les risques futurs de défaut de paiement, de remboursement, etc.
Il s'agit en premier lieu d'effectuer une extraction automatique des termes d'un domaine technique afin de mesurer quantitativement quels sont les termes utilisés dans l'histoire d'un domaine particulier et ceci concrètement à partir d'une archive de rapports techniques ou d'articles scientifiques. Ensuite, l'objectif est de calculer quels seront les termes qui seront populaires dans les prochaines années. L'étude publiée dans LREC en 2016 et appliquée au domaine du TALN au sein du projet NLP4NLP a montré qu'il est illusoire de prétendre prédire à plus de quatre ans[4].
Les approches et techniques utilisées pour conduire l'analyse prédictive peut grandement être regroupées sous les techniques de régression et d'apprentissage automatique.
Les modèles de régression sont un pilier de l'analyse prédictive. Le point central réside dans la création d'équations mathématiques comme modèle pour représenter les interactions entre les différentes variables considérées. Selon la situation, il y a une large variété de modèles pouvant être appliqués. Quelques-uns sont présentés ci-dessous.
Le Modèle de régression linéaire analyse les relations entre la variable dépendante ou variable réponse et l'ensemble des variables indépendantes ou prédictives. Cette relation est exprimée comme une équation qui prédit les valeurs de la variable réponse comme une combinaison linéaire de paramètres. Ces paramètres sont ajustés de telle manière que l'estimation soit optimisée. La plus grande partie des efforts à faire pour estimer le modèle est concentrée sur la taille du résidu, ainsi que sur l'assurance qu'il est distribué aléatoirement en respectant les prédictions du modèle.
Le but de la régression est de sélectionner les paramètres du modèle de telle manière qu'ils minimisent la somme des résidus au carré. On se réfère à la Méthode des moindres carrés ordinaire (« ordinary least squares » (OLS)) et aux résultats des meilleures estimations linéaires non biaisées (« BLUE ») des paramètres si et seulement si l'hypothèse Gauss-Markov est remplie.
Une fois que le modèle est estimé, nous nous intéressons à l'appartenance des variables prédictives au modèle - c'est-à-dire à savoir si l'estimation de chaque contribution des variables est fiable. Pour ce faire, nous pouvons vérifier la signification statistique des coefficients du modèle qui peut être mesurée par les tests T. Ceci revient à tester si le coefficient est significativement différent de zéro. Le test R² permet de savoir si la variable dépendante est correctement prédite par le modèle en fonction des valeurs des variables indépendantes. Ce test mesure le pouvoir de prédiction du modèle c'est-à-dire la proportion de la variation totale de la variable dépendante expliquée par la variation des variables indépendantes.
La régression multivariée (ci-dessus) est généralement utilisée quand la variable réponse/expliquée est continue et s'étend dans un domaine infini. Souvent la variable expliquée n'est pas continue, mais discrète. Bien qu'en mathématiques il est réalisable d'appliquer une régression multivariée sur des variables dépendantes ordonnées et discrètes, certains des postulats de la théorie de la régression linéaire multivariée ne tiennent plus, et d'autres techniques telles que les modèles à choix discrets sont meilleurs pour ce type d'analyse. Si la variable dépendante est discrète, ces méthodes plus efficaces sont la régression logistique, les modèles régression logistique multinomiale (logit multinomial), et probit. Le premier et le dernier de ces modèles s'utilisent lorsque la variable dépendante est binaire.
Dans l'établissement d'une classification, assigner des probabilités de résultats aux observations peut être réalisé au travers de l'utilisation d'un modèle logistique, qui est fondamentalement une méthode transformant l'information sur la variable dépendante binaire en une variable continue illimitée estimée à l'aide d'un Modèle d'analyse multivariée ordinaire.
Le test de Wald et celui du ratio de vraisemblance sont utilisés pour évaluer la signification statistique de chaque coefficient b dans le modèle (d'une manière identique aux tests utilisés pour la Méthode des moindres carrés ordinaire, ci-dessus). L'exactitude (la précision) de l'estimation d'un modèle de classification peut être évaluée grâce à la validation croisée.
Une extension du modèle logistique pour les cas où la variable réponse à plus de deux catégories est le modèle de la Régression logistique multinomiale. Dans cette configuration, forcer les données à entrer dans deux catégories seulement peut ne pas avoir de sens ou peut aussi conduire à une perte d'information et de richesse des données. Le modèle logistique multinomial est la technique appropriée dans ce cas-là, spécialement quand les catégories de la variable réponse ne sont pas ordonnées, comme les couleurs rouge, bleu, vert. Quelques auteurs ont prolongé la régression logistique multinomiale en y incluant des méthodes de sélection/importance de caractéristiques telle que la régression logistique multinomiale aléatoire.
Les outils d'analyses prédictives sont nombreux. Outre le fait qu'ils permettent de requêter et de manipuler des données, ils proposent chacun un choix plus ou moins denses de modèles prédictifs pouvant être déployés pour industrialisation si besoin. Les logiciels commerciaux SAS, SPSS (IBM), Neural Designer (Intelnics), STATISTICA (StatSoft), CORICO (Coryent), HyperCube ou Sidetrade sont plutôt destinés aux entreprises, ou aux organismes ayant de gros volumes de données à explorer. Les logiciels libres OpenNN, R et Weka sont de bonnes alternatives pour les initiés.