Le traitement de l’information, un dilemme permanent pour les entreprises
Que ce soit le Web Analyst, le Data Scientist, le simple utilisateur ou le manager, tout le monde tente de comprendre l’exploitation de toutes les données disponibles et d’en déterminer les bénéfices réels pour l’entreprise. Le volume d’information est passé de peu abondant à surabondant en quelques années. Parmi les challenges les plus importants exprimés par les « Chief Marketing Officer« , quatre sont à noter : l’explosion de l’information, l’accroissement des échanges sur les réseaux sociaux, la multiplication des terminaux de consultation de l’information et l’évolution de la démographie.
Ceci amène de nouvelles perspectives, mais également nombre d’interrogations sur l’utilisation de technologies traditionnelles pour exploiter cette quantité massive de données. Ce nouveau paradigme peut se résumer en une phrase : une abondance de données sans réelle explication et sans contexte rend difficile la transformation de ces données en informations actionnables.
Tous les exemples que l’on pourrait citer sur l’explosion des données montrent que la génération de données se fait à une vitesse de plus en plus rapide. Il devient donc important de savoir comment traiter cette information pour en tirer des tendances en termes de nouveaux business dans des perspectives particulières telles que combattre la criminalité, réorganiser les villes, parfaire la connaissance client, innover plus vite dans les sciences de la vie, favoriser l’économie collaborative, etc.
L’Open Data pour réorganiser l’information dans la vie publique (Source : LOD.eolas)
Rappel des fondamentaux : Business Intelligence versus Big Data
Avant d’entrer dans le cœur du sujet de ce billet qui traite du choix entre l’utilisation des technologies de Business Intelligence ou de Big data, commençons par un rappel des fondamentaux de la Business Intelligence. Avec 25 ans de pratique en la matière, je vais m’essayer à une définition synthétique.
La BI consiste en un ensemble d’outils et de techniques permettant de collecter, de nettoyer et d’enrichir des données structurées ou semi structurées pour les stocker dans différentes formes de base de données de type SQL, multidimensionnel. Les données vont être gérées dans des formats normalisés pour faciliter l’accès à l’information et les vitesses de traitement.
L’objectif de la BI est de produire des indicateurs de performance permettant de comprendre le passé, d’analyser le présent afin d’extrapoler une vision à long terme pour et définir les avantages compétitifs futurs de l’entreprise. La BI est utilisée par un grand nombre d’utilisateurs internes ou externes pour supporter les activités opérationnelles de l’entreprise jusqu’au suivi stratégique.
Essayons de mieux comprendre le Big Data autour de la définition traditionnelle des 4V en prenant un exemple. Une base de données clients contient les informations suivantes : nom, prénom, genre, âge, métier, statut, etc. L’ensemble de ces informations est stocké dans un entrepôt de données traditionnel. Si l’on applique la définition des 4V pour décider si cette application doit migrer vers une infrastructure de Big Data, la réponse serait négative. Le volume de données n’est plus un problème en soi, on peut aujourd’hui parler de large Data Warehouse. La variété des sources est prise en compte avec les nouvelles technologies et un coût faible d’intégration de sources supplémentaires. La vélocité est gérée par les bus de données applicatifs permettant une augmentation du volume de données par unité de temps. La véracité de la donnée, enfin, est un théorème immuable dans l’analyse de données quelle que soit l’infrastructure.
Deux méthodologies d’analyse différentes
Explorons davantage et plus en profondeur la donnée en introduisant de nouvelles dimensions d’analyse : la détection d’événements, la chronologie des événements dans la collecte des informations, le laps de temps entre les événements ou encore les situations ou les contextes pouvant qualifier les événements intervenus.
La démonstration peut se faire par l’exemple :
1er cas : un consommateur regarde une publicité, le lendemain, il visite le site web, deux jours plus tard il appelle un conseiller et le jour suivant il réalise un achat.
2e cas : un consommateur achète un produit, le même jour il visite le site web, puis trois mois plus tard il appelle un conseiller et le mois suivant il regarde la publicité.
Ces deux cas nous montrent la nécessité de comprendre les événements ainsi que la séquence. Même si dans ces deux exemples le client a acheté le même produit, les analyses de l’expérience client et de son parcours sont radicalement différentes.
Prenons maintenant le cas d’un client qui s’adresse à un conseiller d’un service après-vente.
1er cas : il visite le site web deux fois dans la journée et en fin de journée il appelle un conseiller.
2e cas : Il visite deux fois le site web dans la journée et trouve la réponse à sa question sans entrer en contact.
L’interprétation des informations sera différente même si dans les deux cas le client a obtenu la bonne réponse à sa question.
Dans ces deux exemples on peut facilement mesurer la différence en Business Intelligence et Big Data. Dans le premier exemple, le marketing met en place des séquences précises pour capturer et enfermer le client dans un parcours défini suivant des règles métiers. Le client volatile, spontané, hybride et indécis casse en permanence les règles, les parcours préétablis et les processus marketing entrant et sortant.
Pour comprendre son comportement, il va falloir déstructurer l’information et la traiter en masse avec une approche orientée question. Les technologies du Big Data permettent de stocker les mêmes données, mais dans des contextes différents, en appliquant des traitements distincts et des séries d’algorithmes différenciées et ceci pour traiter plusieurs problématiques simultanément (NoSql et autres technologies adaptées, graphes, etc.).
On peut également lancer des opérations d’apprentissage sur les données sans avoir d’idées préconçues ainsi que des phases d’observation pour détecter les fameux signaux faibles (information partielle ou fragmentaire fournit par l’environnement). L’ensemble de l’information, les degrés de personnalisation ou les types de recommandation collectés devront pouvoir être reproduits pour être modélisés, donc industrialisés, à grande échelle. La connaissance obtenue inférera la stratégie, les organisations, les hommes et les processus de l’entreprise.
Pas de lien direct à établir entre BI et Big Data
J’en conclus, et c’est une réflexion personnelle, qu’il n’y a pas de lien direct à établir entre BI et Big Data. Les techniques d’analyse sont radicalement différentes, pratiquées avec des savoir-faire et des technologies nouvelles. Le nouveau paradigme est en rupture avec les modes de pensée en cours et tend à révolutionner l’approche même de l’analyse de données.
La question se situe bien au-delà du débat technologique autour des bases de données SQL, no SQL, en colonne, en mémoire et toute autre variante. L’intérêt du Big Data réside moins dans les sujets traités que dans la façon d’appréhender et de résoudre les problèmes dans des domaines transverses (marketing, logistique, gestion du risque…) ou dans des domaines spécialisés (santé, énergie, distribution…). C’est le cœur du challenge du Big Data : connaître l’activité humaine, comprendre son contexte, établir les relations entre les données d’activité pour fournir, à un instant donné, un service en temps réel individualisé et personnalisé.
Mon prochain billet portera sur l’analyse d’un spécialiste des techniques et méthodes employées par les utilisateurs de Big Data dans les processus de création de valeur des informations.
Source: blog.businessdecision.com/bigdata/2015/02/information/