Dans la communication orientée connexion, un flux de données est la transmission d'une séquence de signaux cohérents codés numériquement pour transmettre des informations[1]. Typiquement, les symboles transmis sont regroupées en des séries de paquets[2].
Le flux continu de données est devenu omniprésent. Tout ce qui est transmis sur Internet l'est sous forme de flux. L'utilisation d'un téléphone mobile pour avoir une conversation transmet le son sous forme de flux de données.
Un flux de données est un couple ordonné où :
- est une séquence de tuples et,
- est une séquence des réels positifs d'intervalles de temps.
Un flux de données contient des différents ensembles de données, qui dépendent du format choisi.
- Attributs : chaque attribut du flux représente un certain type de données, par exemple identifiant de segment/point de données, horodatage, information géographique.
- Horodatage : l'attribut qui permet d'identifier le moment où un événement s'est produit.
- Données brutes : les informations provenant directement du fournisseur de données sans être traitées par un algorithme ni humain.
- Données traitées : les données qui ont été traitées et préparées (d'une manière ou d'une autre modifiées, validées ou nettoyées), pour être utilisées pour des actions futures[3].
Il existe différents domaines dans lesquels les flux de données sont utilisés :
- Détection des fraudes : les données brutes sont utilisées comme données source pour un algorithme anti-fraude (techniques d'analyse des données pour la détection des fraudes). Par exemple, l'horodatage ou le nombre d'occurrences de cookies ou l'analyse de points de données sont utilisés dans le système de notation pour détecter la fraude ou pour s'assurer qu'un destinataire de message n'est pas un bot.
- Intelligence artificielle : les données brutes sont traitées comme un ensemble d'entraînement/apprentissage et un ensemble de teste lors de la construction d'algorithmes d'IA et d'apprentissage automatique.
- Données brutes : utilisées pour le profilage et la personnalisation des profils d'utilisateurs et leur segmentation, par exemple, par sexe ou par lieu (basé sur un point de données).
- Informatique décisionnelle : les données brutes sont une source d'informations pour les systèmes d'informatique décisionnelle, utilisées pour enrichir les profils des utilisateurs avec des informations détaillées à leur sujet, par exemple, le parcours d'achat ou les informations géographiques . Ces informations sont utilisées pour l'analyse commerciale et la recherche prédictive.
- Ciblage : les données traitées par les scientifiques des données améliorent les campagnes en ligne et sont utilisées pour atteindre le public cible.
- Enrichissement GRC : les données brutes sont intégrées au système de gestion de la relation client. L'intégration GRC permet de combler les lacunes dans les profils des utilisateurs avec des données démographiques, des intérêts ou des intentions d'achat.
Les intégrations de base avec les flux de données sont :
- Les flux de données sont intégrés à des systèmes tels que la plateforme de données client, la gestion de la relation client (GRC) ou la plateforme de gestion de données pour enrichir les profils des utilisateurs avec des données externes. Il est possible d'élargir les connaissances sur les utilisateurs existants en utilisant des sources externes.
- Les flux de données sont utilisés pour enrichir les systèmes d'informatique décisionnelle et rendre l'analyse et les conclusions plus précisément.
- Dans le cas de l'intégration d'un système de gestion de contenu (SGC), le flux de données est utilisé pour identifier les utilisateurs et personnaliser leur visite, même s'il s'agit de leur première visite. Grâce à l'analyse des données, le contenu réel du site Web est adapté à l'utilisateur.
- Les flux de données sont intégrés à la plate-forme côté demande au sein d'un écosystème de publicité numérique. Les parties (par exemple, les annonceurs) peuvent échanger les identifiants des utilisateurs et concaténer entre eux les profils existants.
- Les flux de données sont utilisés pour choisir les segments d'utilisateurs respectifs (par exemple, les personnes intéressées par l'industrie automobile) et les utiliser dans une campagne en ligne. Les segments sont enrichis avec plus de caractéristiques utilisateur hors du flux de données, puis envoyés à la plate-forme côté demande.
Dans un flux de données, le type d'appareil utilisé par l'utilisateur est visible via un user agent :
- Mobile : lorsqu'un utilisateur utilise un navigateur mobile pour explorer, il a respectivement une résolution d'écran étroite et une version d'application mobile.
- Bureau : lorsqu'un utilisateur utilise un navigateur d'ordinateur de bureau ou une version d'application bureau.
Les informations suivantes sont partagées hors de l'appareil utilisé :
Un point de données est une balise qui collecte des informations sur une certaine action, effectuée par un utilisateur sur un site Web. Les points de données sont de deux types, dont les valeurs sont utilisées pour créer des audiences appropriées. Ces deux types sont :
- évènement, avec des informations sur les occurrences de l'évènement spécifique (par exemple, cliquer sur un lien ou afficher une annonce) ;
- attribut, avec des valeurs numériques ou alphanumériques.
Segment : une déclaration logique, construite sur des points de données spécifiques à l'aide des opérateurs ET, OU ou NON[4].
Données hybrides : données brutes avec le format des points de données et des segment de données.
URL : est un ensemble d'informations sur une URL particulière qui a été visitée.
En Europe, la protection des données est régie par le RGPD [5].
Les informations recueillies sur les sites Web sont basées sur le comportement des utilisateurs. Les fournisseurs de données fournissent des informations personnelles ou non personnelles. Deux types de données utilisateur sont disponibles dans le flux de données :
- données à caractère non personnel : informations qui ne peuvent pas être utilisées pour identifier une personne ou pour suivre un emplacement. Un cookie ou un ID d'appareil sont des exemples de données à caractère non-personnel.