Au cours de la préparation des données, les données dites « brutes » sont soumises à différents traitements afin de les rendre exploitables pour l'étape d'Exploration de données, au cours de laquelle le but sera d'extraire des connaissances à partir des données via la construction de modèles.
La préparation des données une étape clé car la fiabilité de l'analyse des données dépend en très grande partie de la qualité des données.
Enjeux
Les données à disposition des entreprises sont souvent désordonnées et de mauvaise qualité, ce qui représente un frein dans le processus car il est nécessaire de passer beaucoup de temps à améliorer ces données avant de passer à l’analyse.
La capacité des entreprises à utiliser des outils permettant de réduire considérablement le temps lié à la préparation des données représente un réel enjeu dans un marché qui dépassera le milliard de dollars en 2023[1].
Les entreprises doivent gérer un nombre de plus en plus important de données et les traiter dans des délais qui sont également de plus en plus courts. Avec les changements de plus en plus fréquents liés aux comportements des utilisateurs, il faut sans cesse remettre à jour les données pour avoir une compréhension et une confiance en elles à chaque instant.
Une entreprise qui maîtrise le processus de préparation des données et dispose d'outils performants et permettant l'automatisation du processus est assurée d’avoir des meilleurs résultats lors de l’analyse de ses données. Le but des entreprises est d'avoir à leur disposition des données correctes, fiables et cohérentes avec le temps, qui permettront par exemple de traduire des réels besoins chez les clients et donc de mieux cibler les offres qu'elle va leur proposer pour maximiser ses profits.
De plus, avoir une maîtrise et une bonne compréhension de ses données représente un enjeu crucial pour les entreprises, car cela leur permet d’avoir plus de confiance vis-à-vis des données, et d'être donc plus confiantes dans les choix stratégiques comme la prise de décisions financières.
Problématiques
Le but du processus de préparation de données est l’obtention de données fiables, en quantité et en qualité, cohérentes et structurées afin que l’analyse soit la plus performante possible.
Cependant, les problématiques liées à la préparation des données que rencontrent les chercheurs sont proportionnelles à la quantité des données avec lesquelles ils doivent travailler.
Parmi ces problématiques on peut citer entre autres :
Comment exploiter au mieux les données ?
Comment enrichir ses données avec des données cohérentes ?
Comment s’assurer de la qualité des données ?
Comment nettoyer les données ?
Comment mettre à jour les données et les modèles ?
Comment rendre le processus plus rapide ?
Comment réduire les coûts liés au processus de préparation des données ?
D'après Forbes[2], le processus de préparation des données est la partie la moins agréable du travail pour 76 % des experts en méga-données. De plus, ils passeraient près de 80 % de leurs temps à préparer et manager les données pour l'analyse, ce qui met en avant le fait que le processus de préparation des données est un processus long est fastidieux, et nécessite donc des outils pour soulager les personnes qui travaillent avec.
Histoire
Le processus de préparation des données est associé historiquement à celui de l'Analyse des données. Dès lors que des personnes vont collecter des données afin d'en faire une analyse, il est question de préparation des données.
Ingestion des données
L'ingestion des données désigne l'étape du processus de préparation des données pendant laquelle les données provenant d'une ou plusieurs sources vont être placées dans un espace de stockage.
Le but est de permettre aux équipes d'avoir accès à ces données pour pouvoir les utiliser, les organiser ou encore les analyser. La plupart des espaces de stockage des données sont des entrepôts de données. Ils permettent de collecter et d'ordonner les données Ils sont composés de données hétérogènes, et fournissent une base à l'entreprise pour la prise de décisions. Les entrepôts de données différent d'autres solutions de stockage de données comme les lacs de données de par la nature des données qui y sont stockées. En effet, les lacs de données permettent par exemple le stockage de données homogènes.
Amélioration des données
Dans la quasi-totalité des projets, l'équipe responsable devra passer par une phase d'amélioration des données. Ce processus peut comporter plusieurs étapes pendant lesquelles les données vont subir plusieurs traitements afin de construire une base de données plus fiable et plus pertinente par rapport aux besoins de l'équipe d'analyse.
Nettoyage des données
Le processus de nettoyage de données est fondamental à la préparation des données. Il permet d'en améliorer la qualité en supprimant ou en modifiant les données erronées. Le but de cette opération est d'éviter de retrouver dans la base de données des données incorrectes. Les données peuvent être incorrectes pour plusieurs raisons :
erreurs de saisies ;
erreurs lexicales ;
erreurs de formats ;
doublons ;
données manquantes ;
erreurs sémantiques.
Le nettoyage des données est une étape cruciale dans la préparation des données car toute erreur liée aux données se répercutera inévitablement dans leur analyse. L'augmentation de la quantité des données provoque une augmentation des données incorrectes, ce qui oblige les entreprises à adopter une multitude de méthodes afin de les éliminer. Parmi ces méthodes, on peut citer l'audit de données, l'élimination des doublons par algorithme ou encore l'analyse syntaxique.
Enrichissement des données
L’enrichissement des données signifie une fusion entre les données interne à l’entreprise et des données provenant d’une ou de plusieurs sources externes. Il arrive très souvent que les organisations aient recours à des données externes lors de la préparation des données.
Le but de cet enrichissement est la possibilité de faire des décisions plus pertinentes.
Par exemple, si une entreprise possède des données de consommation sur ses clients, l’ajout de données externes pourra permettre un meilleur profilage des clients, et donc de proposer des offres plus pertinentes pour ces derniers, et donc maximiser les gains de l'entreprise.
Les données brutes détenues initialement par l’entreprise ne sont souvent pas suffisantes, et l'enrichissement des données devient une réelle nécessité dans la plupart des cas.
Cependant, il ne faut pas ajouter des données juste pour ajouter des données, il est nécessaire que les données ajoutées soient pertinentes et qu'elles ajoutent une vraie complémentarité par rapport à l'existant.
L’enrichissement des données peut constituer un réel défi à part entière pour les entreprises. En effet, enrichir une base de données requiert d’avoir au préalable une base de données dont les données sont de qualité.
Cela signifie que l'entreprise doit au préalable disposer de données en quantité suffisantes et nettoyées. De plus, il faut prendre en compte le risque inhérent de la fusion des bases de données.
Premièrement, il peut y avoir un souci de fiabilité. Les données externes peuvent comporter des erreurs, c’est pour cela qu’il faut faire attention aux sources et effectuer un travail de vérification sur celles-ci.
Ensuite, les données peuvent suivre des schémas différents et êtres soumises à des réglés différentes. La fusion des données nécessitera une transformation des données au préalable pour les mettre sous le même format.
Un autre problème à prendre en compte concerne les coûts des sources extérieures. En effet, les « data as a service » sont des solutions permettant aux organisations d'avoir un accès à des bases de données contre un abonnement.
L’enrichissement des données est un processus qui nécessite d’être maintenu dans le temps avec des données qui permettent de traduire une situation à un instant précis. Le véritable enjeu de l'enrichissement des données ne réside pas dans le fait de construire la base de données la plus volumineuse, mais dans le fait de réussir à capturer les données les plus pertinentes pour l'étude.
Dans un monde où les comportements et les habitudes des consommateurs changent en permanence, il faut que les entreprises aient au préalable déterminé quelles étaient les données en leur possession, et quelles données ils leur manquait pour effectuer leur analyse de la meilleure des manières.
Transcription des données
Lors de la collecte de données, chaque donnée qui peut améliorer le niveau de précision est importante pour le chercheur. La variété des données oblige les entreprises à ne plus se reposer uniquement sur leurs méthodes traditionnelles, mais plutôt de remettre à jour en permanence leurs processus de préparation des données. La multiplicité des canaux d'informations génèrent des problèmes liés à la nature des données.
De nombreuses données ne sont pas représentées sous la forme de données quantitatives, c'est-à-dire sous la forme de nombres ou de pourcentages, mais peuvent se trouver sous une forme qualitative.
Les données qualitatives sont des données qui sont présentes dans les discours, les reportages, les articles et traduisent une pensée, un comportement, une culture ou tout autre information qui est plus difficile d'extraire[3].
Une étape de transcription des données est requise pendant laquelle il faudra capturer l'essence du document à travers des données que les chercheurs utiliseront pendant leurs analyses.
C'est une étape qui est fondamentale car de nombreuses informations sont contenues dans les données qualitatives et permettent aux entreprises d'avoir une meilleure compréhension de phénomènes économiques et sociaux.
À l'ère des réseaux sociaux, la capacité des entreprises à capturer les données présentes sur ces canaux de communications représente un réel enjeu.
Mise à jour des données
Un des problèmes liés aux données possédées par les entreprises, indépendamment du niveau de précision des données extraites, est le fait qu'elles ne sont pertinentes que par rapport à une date précise et un contexte en particulier. Les données peuvent devenir très rapidement obsolètes et peuvent devenir un frein voir une source de conflit si elles ne sont pas actualisées en temps voulu.
La réelle difficulté réside dans la capacité à enrichir en temps voulu la base de données déjà existante avec des données pertinentes aux analyses.
Outils
Les outils constituent un point essentiel lors de la préparation des données. Les feuilles de calcul restent à ce jour une solution abordable pour la visualisation des données, mais également pour effectuer des calculs et procéder à l'analyse des données[4].
Ce type de solution est plutôt réservé au petites entreprises ne possédants pas les mêmes budgets que d'autres entreprises possédants des départements complets pour s'occuper de cette tâche.
De plus, certaines entreprises procèdent encore au nettoyage manuellement, ce qui peut poser plusieurs problèmes. Par exemple, le fait que les bases de données soient très volumineuses rend la correction manuelles des données très pénibles et faillible. De plus cette solution nécessite beaucoup de temps pour la personne responsable, et donc moins de temps à l'analyse des données.
Pour pallier ces problèmes, les entreprises se tournent vers plusieurs outils, libres de droits ou non, adaptés à leurs besoins et à leurs ambitions.
Outils open source
De nombreux outils libres de droits permettent la structuration et le traitement des données. Ces outils permettent entre autres la conversion des données sous un autre format, la fusion de larges volumes de données ou encore le nettoyage des données.
Avec la multiplication des données et des sources de données, les entreprises ont besoin d'outils fiables qui permettent d'automatiser le processus d'extraction des données.
Une pipeline fait référence à l'ensemble des étapes pendant lesquelles les données vont transiter de leurs sources d'origine vers un système, ou vers d'autres sources de données.
Les pipelines sont des outils puissants car elles permettent d'automatiser le processus de transfert des données, et donc un gain de temps pour les personnes responsables.
Les pipelines peuvent avoir un processus de traitement des données, cependant ce n'est pas toujours le cas.
Pipelines ETL
Les pipelines d'extraction, de transformation et de chargement (extract-transform-load), sont une sous-catégorie de pipelines.
Ces pipelines différent du fait que les données vont passer par plusieurs étapes dans lesquelles elles vont subir un processus de transformation. Traditionnellement, les pipelines ETL vont proposer les processus suivants :
Les données en sortie de la pipeline sont considérées comme pré-traitées et prêtes à subir une nouvelle phase de traitement ou bien à être analysées[5].
L'avantage des pipelines ETL par rapport aux pipelines classiques réside dans le fait que l'étape de transformation des données peut être effectuée suivant les standards de l'entreprise, et construire des données structurées.
Lacs de données
Les entreprises utilisent des données de plus en plus nombreuses, sous des formats de plus en plus divers et de plus en plus rapidement[6].
Cela peut poser de réels problèmes car la préparation des données a un coût, et celui-ci augmente de plus en plus avec le nombre de données à stocker.
Les lacs de données sont une solution à l'ère du big data.
En effet, les lacs de données sont des espaces de stockages qui contiennent une très grande quantité de données brutes, stockées pour une durée indéterminée sous leurs format d'origine.
Les données y sont stockées sans que l'entreprise n'ait de réelles connaissances à propos de la valeur de celles-ci.
La grande différence avec les entrepôts de données réside dans le fait que les données n'y sont soumises à aucune règles en termes de schéma de données.
Au lieu de placer chaque données dans des espaces de stockages spécialisés, l'intégralité des données sera stockée dans les lacs sous leurs formats originaux ce qui permet de réduire en grande partie les coûts liés à la transformation des données.
De plus, les lacs centralisent l'endroit de stockage de l'ensemble des informations, et facilitent donc l'accès par les équipes de recherche aux données.
Pour travailler dans les lacs avec les données, les experts utilisent des applications possédant des interfaces graphiques utilisateurs et des outils pour la préparation des données.
On considère qu'un lac de données possède au minimum quatre fonctionnalités basiques qui sont[7] :
l'ingestion de données ;
le stockage des données ;
le traitement des données ;
la visualisation des données.
Ainsi les lacs de données proposent de nombreux avantages pour le processus de préparation des données en augmentant sa rapidité et en réduisant les coûts.
Gouvernance des données
Un des points majeurs de la préparation des données concerne le problème lié à la gouvernance des données. En effet, si on laisse les données être manipulées par plusieurs utilisateurs lors du processus de préparation des données, on prend le risque d'ajouter à la base de données des données dites chaotiques.
La gouvernance des données doit permettre d’assurer la qualité des données ainsi que celle des modèles, et vérifier que leurs contenus respectent les standards de l’organisation[4].
Il faut voir la gouvernance des données comme le management de l'ensemble des données accessibles par l'entreprise.
Elle doit permettre aux utilisateurs de répondre aux questions suivantes[8] :
Que savons nous de ces données ?
D'où proviennent ces données ?
Est-ce que ces données adhèrent aux règles de l'entreprise ?
Elle doit permettre une meilleure compréhension commune des données à l'ensemble des personnes impliquées dans le processus.
Le développement de la gouvernance des données peut se faire via l'implémentation de règles de sécurité ou l'utilisation de métadonnées comme la création de catalogue de données.
Gouvernance appliquée aux lacs de données
Un des problèmes lié à l'utilisation des lacs de données concerne le risque de ne pas être capable de trouver, de comprendre ou de faire confiance aux données requises[9].
L'une des raisons qui peut expliquer ce phénomène est lié au fait que les données sont encore dans leurs formats d'origine. En effet, quand les experts en méga-données recherchent des données dans les lacs, ils peuvent rencontrer des problèmes de compréhension vis-à-vis de ces données.
C'est une situation qu'il faut éviter le plus possible pour éviter de freiner le processus de préparation de données, et qui peut représenter un problème à long terme pour les entreprises.
Pour pallier ce problème, il est nécessaire d'ajouter aux données un contexte permettant d'identifier les données et d'expliquer la raison de leurs présence dans le lac, mais également à qui les données sont destinées et leurs significations.
La gouvernance des données permet de mettre en place des outils comme les catalogues de données qui permettent de données plus de sens aux données et de les rendre plus accessibles.
Les catalogues de données rendent les utilisateurs plus confiants envers les données et s'assure du respect des règles organisationnelles des projets concernant les données.
Perspectives
Avec la place de plus en plus importante qu'occupe l'intelligence artificielle et plus précisément l'apprentissage automatique dans l'analyse de données, de nouveaux outils de plus en plus performants proposent des solutions pour faciliter le processus de préparation des données.
Par exemple, le nettoyage des données peut être effectué via l'apprentissage automatique, qui en s'appuyant sur les données existantes, va créer des modèles afin de prédire la correspondance des nouvelles données avec les formats et règles des données existantes.
Plus il y aura de données dans la base de données, plus l'algorithme sera fiable et pourra repérer les données cohérentes[10].
Un des problèmes concerne le fait que parmi les chercheurs, la raison la plus fréquente qui explique les freins à l'amélioration de la préparation des données concerne le budget accordé.
À l'ère du big data, où les données sont une ressource essentielles au développement de l'entreprise, il est très fort probable que les entreprises qui survivront le mieux seront celles qui exploiteront au mieux leurs données en accordant de l'importance au processus de préparation des données.
Peta Arena pertarungan daring multipemain. Arena pertarungan daring multipemain (bahasa Inggris: Multiplayer Online Battle Arena; atau MOBA) adalah sebuah sub-genre dari video game strategi yang bermula sebagai sub-genre strategi waktu nyata. Dalam permainan ini seorang pemain mengendalikan satu karakter dalam sebuah tim yang bertarung melawan tim pemain lainnya. Tujuannya adalah menghancurkan struktur utama tim lawan dengan bantuan unit-unit yang dikendalikan oleh bot komputer. Genre ini...
Bokutachi wa TatakawanaiSingel oleh AKB48dari album 0 to 1 no AidaSisi-ABokutachi wa TatakawanaiSisi-BSummer Side (Tipe A, B, C, dan Edisi Teater)Danshi wa Kenkyū Taishō (Tipe A)Kafka to Dendenmu Chu! (Tipe B)Kegarete Iru Shinjitsu (Tipe C)Barebare Bushi (Tipe D)Kimi no Dai Ni Shō (Tipe D)Deai no Hi, Wakare no Hi (Edisi Teater)Dirilis20 Mei 2015 (2015-05-20)FormatMaxi singleunduhan digitalGenreJ-popElectro-popRock AlternatifDurasi5:26Label You, Be Cool! / King Genie Music Stone Music ...
BanyuanyarKelurahanKantor Lurah BanyuanyarPeta lokasi Kelurahan BanyuanyarNegara IndonesiaProvinsiJawa TengahKotaSurakartaKecamatanBanjarsariKode Kemendagri33.72.05.1013 Kode BPS3372050013 Jumlah penduduk14.906 jiwa (tahun 2020) Banyuanyar (Jawa: ꦧꦚꦸꦮꦚꦂ, translit. Banyuanyar) adalah sebuah kelurahan di kecamatan Banjarsari, Surakarta. Kelurahan ini memiliki kode pos 57137. Pada tahun 2020, kelurahan ini berpenduduk sebesar 14.906 jiwa. tersebut Banyu Anyar berbatasan...
American poet, playwright, and diplomat George Henry BokerBorn(1823-10-06)October 6, 1823Philadelphia, PennsylvaniaDiedJanuary 2, 1890(1890-01-02) (aged 66)Philadelphia, PennsylvaniaOccupation(s)poet, playwright, diplomat George Henry Boker (October 6, 1823 – January 2, 1890) was an American poet, playwright, and diplomat. Early years and education Boker was born in Philadelphia. His father was Charles S. Boker, a wealthy banker, whose financial expertise weathered the Girard Natio...
Trade route between the Pacific and Atlantic Oceans in the Isthmus of Tehuantepec, Mexico Interoceanic Corridor of the Isthmus of TehuantepecCorredor Interoceánico del Istmo de TehuantepecMap of the Isthmus of Tehuantepec showing the location of the ports of Salina Cruz and Coatzacoalcos, and the area's roads (as of September 2006), including railwaysCoordinates17°18′00″N 94°59′24″W / 17.30000°N 94.99000°W / 17.30000; -94.99000SpecificationsLength303 ...
20th commissioner of the RCMP Giuliano ZaccardelliCOM CStJ OMRIZaccardelli in 200620th Commissioner of the Royal Canadian Mounted PoliceIn office1 September 2000 – 15 December 2006Preceded byPhilip MurraySucceeded byBeverley Busson (interim) Personal detailsBorn1946 or 1947 (age 77–78)[1]Prezza, Abruzzo, ItalyAwards Legion of Honour – Officer (2003) Giuliano Zaccardelli COM CStJ OMRI (born c. 1947)[1] is an Italian-born Canadian retire...
Football match1938 FIFA World Cup Quarter-finalStadium Brazil Czechoslovakia 1 1 Date12 June 1938VenueStade du Parc Lescure, BordeauxRefereePál von Hertzka (Hungary)Attendance22,021 The Battle of Bordeaux (Czech: Bitva u Bordeaux, Portuguese: Batalha de Bordéus, French: Bataille de Bordeaux) is an informal name for the World Cup football match between Brazil and Czechoslovakia on 12 June 1938 in the Parc Lescure in Bordeaux, France, one of the quarter-finals of the 1938 World Cup finals. T...
Alessandro Albani. Alessandro Albani (Urbino, 15 Oktober 1692 – Roma, 11 Desember 1779) merupakan seorang kardinal Gereja Katolik Roma berkebangsaan Italia. Ia terkenal karena dedikasinya pada seni, melindungi dan mendukung kebangkitan neoklasik. Bacaan selanjutnya Debenedetti, ed., Alessandro Albani, patrono delle arti ... = Studi sul Settecento Romano; 9 (1993) Catatan Pranala luar Cardinals of the Holy Roman Church: Alessandro Albani Casino of the Villa Albani Cardinal Albani and the Vil...
Apical lymph nodesLymphatics of the mamma, and the axillary glands. (Subclavicular group labeled at upper right.)Axillary lymphatic plexusCubital lymph nodes (not part of the lymph node drainage of the breast)Superficial axillary (low axillary)Deep axillary lymph nodesBrachial axillary lymph nodesInterpectoral axillary lymph nodes (Rotter nodes)Paramammary or intramammary lymph nodesParasternal lymph nodes (internal mammary nodes)DetailsSystemLymphatic systemSourcecentral, deltopectoralDrains...
بلدة يوينغ الإحداثيات 46°03′26″N 87°18′26″W / 46.057222222222°N 87.307222222222°W / 46.057222222222; -87.307222222222 [1] تقسيم إداري البلد الولايات المتحدة[2] التقسيم الأعلى مقاطعة ماركويت خصائص جغرافية المساحة 48.8 ميل مربع ارتفاع 312 متر عدد السكان عدد السكان 150 ...
Part of a series on theBaháʼí Faith Central figures Baháʼu'lláh The Báb ʻAbdu'l-Bahá Basics Teachings Unity of God Unity of humanity Unity of religion Laws Prayer Calendar Nineteen Day Feast Key scripture Kitáb-i-Aqdas Kitáb-i-Íqán The Hidden Words Some Answered Questions Other Texts Institutions Covenant of Baháʼu'lláh Administrative Order The Guardianship Universal House of Justice Spiritual Assemblies History Baháʼí history Timeline Bábism Persecution People Shoghi Eff...
American jazz pianist and composer (1926–2018) For the Ohio politician, see Randy Weston (politician). Randy WestonWeston in 2007Background informationBirth nameRandolph Edward WestonBorn(1926-04-06)April 6, 1926Brooklyn, New York City, New York, U.S.DiedSeptember 1, 2018(2018-09-01) (aged 92)Brooklyn, New York City, U.S.GenresJazz, African jazz, world fusionOccupation(s)Musician, composer, bandleaderInstrument(s)PianoYears active1950s–2018LabelsRiverside, Antilles, Verve, MotémaWeb...
Military of the Basque Government during the Spanish Civil War (1936-39) This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) You can help expand this article with text translated from the corresponding article in Basque. (June 2022) Click [show] for important translation instructions. View a machine-translated version of the Basque article. Machine translation, like DeepL or Google Trans...
A village and parish in Dorset, England Human settlement in EnglandHamworthyCottages in HamworthyHamworthyLocation within DorsetPopulation13,141 (2011)[1][2]OS grid referenceSY993912Unitary authorityBournemouth, Christchurch and PooleCeremonial countyDorsetRegionSouth WestCountryEnglandSovereign stateUnited KingdomPost townPOOLEPostcode districtBH15Dialling code01202PoliceDorsetFireDorset and WiltshireAmbulanceSouth Western UK Parl...
Chemical compound Not to be confused with Cofactor F430. Structure of Coenzyme F420 Coenzyme F420 is a family of coenzymes involved in redox reactions in a number of bacteria and archaea. It is derived from coenzyme FO (7,8-didemethyl-8-hydroxy-5-deazariboflavin) and differs by having a oligoglutamyl tail attached via a 2-phospho-L-lactate bridge. F420 is so named because it is a flavin derivative with an absorption maximum at 420 nm. F420 was originally discovered in methanogenic archaea[...