JPO : Webinar d'information sur nos formations → RDV mardi à 17h30.

Data source : Définition et détails sur leur fonctionnement

Fake news ! Depuis quelques années, ce terme est à la mode. En cause, la fiabilité des informations. C’est justement toute l’importance des sources de données. Si dans le monde journalistique, cela renvoie à l’origine de l’information, dans le monde de la data expertise, les sources de données correspondent aux lieux de stockage qui regroupent une grande quantité d'informations. Alors qu’est-ce qu’une data source ? À quoi sert-elle ? Comment fonctionne-t-elle ? Les réponses sont ici.

Qu’est-ce qu’une source de données ?

Définition

Une source de données est l’emplacement physique ou numérique où les données sont conservées sous différentes formes. En résumé, c’est de là que proviennent les données.

La data source peut à la fois être l’endroit où les données sont créées de manière originale, mais aussi l’endroit où elles ont été ajoutées. Par exemple, dans le cadre d’une transformation digitale, de nombreuses entreprises numérisent leurs datas. L’endroit où elles sont conservées informatiquement devient alors la source de ces données.

Dans le même esprit, les sources de données peuvent être numériques (en grande majorité) ou sous format papier.

Quoi qu’il en soit, l’idée est de permettre aux utilisateurs d’accéder aux données et de les exploiter depuis cette source. Et ce, de différentes manières, puisque la source de données peut prendre différentes formes, comme une base de données, un fichier plat, un tableau d’inventaire, du web scraping, des données en streaming, des archives physiques, etc.

Avec le développement du Big Data et des nouvelles technologies, ces différents formats ne cessent d’évoluer, rendant ainsi les sources de données toujours plus complexes. L’enjeu pour les organisations est donc de les simplifier au maximum.

Plusieurs sources de données en fonction du contexte

Comme vu précédemment, les sources de données peuvent prendre différentes formes. Mais cela dépend surtout du contexte.

Bien souvent, data sources et bases de données sont confondues. Les deux renvoient à l’endroit où sont stockées les informations. Mais la database n’est qu’une forme de data source (la plus répandue, certes). Il est aussi possible d’envisager la source de données comme un fournisseur de données, l’utilisation de données en libre-service, telles qu’Excel, Tableau ou Power BI, un type de stockage informatique, une comptabilité, un indicateur économique, etc.

Dans le même esprit, il convient de ne pas confondre data source et DSN (data source name). Ces derniers décrivent une connexion à une data source. Dans certains cas, le DSN est le même que la database ou le fichier correspondant, mais ce n’est pas automatique. Il peut aussi s’agir d’une adresse ou d’une étiquette permettant aux données d’accéder plus facilement à leur source.

Quels que soient le format et le contexte, l’idée de la source de données est de définir l’endroit d’où provient la donnée et de décrire les connexions entre les informations.

À quoi servent les data sources ?

L’objectif des sources de données est de permettre aux utilisateurs d’accéder aux informations dont ils ont besoin, et éventuellement de les déplacer ou de les modifier.
Pour cela, les experts de la data doivent regrouper l’ensemble des informations à un seul et même endroit afin d’en simplifier l’exploitation et la compréhension.

Mais surtout, il est primordial de concevoir les data sources dans une optique utilisateur afin de faciliter le traitement des données. Les informations doivent alors être stockées de manière cohérente, à la fois en termes d’emplacement et de format.

C’est ce qui permet de faciliter la connexion des informations entre elles. Et donc de simplifier l’accès aux données et leur compréhension par le plus grand nombre.

Comment fonctionnent les sources de données ?

Comme vu précédemment, il existe différentes sources de données externes. Pour les entreprises, l’enjeu est donc d’intégrer les datas à une source interne pour faciliter le traitement et l’analyse des données.

À cette fin, il est possible d’utiliser une grande variété de solutions. Par exemple, les datas peuvent être intégrées à la source à travers des protocoles réseaux, (comme FTP ou HTTP), des API (interfaces de programmation d’applications) ou d’autres protocoles, comme NFS, SMB, SOAP, REST et WebDAV.

Quels que soient les outils d’intégration utilisés, les experts de la data doivent rendre la source de données la plus compréhensible possible par l’utilisateur. Pour cela, il convient d’identifier les connexions entre les données et de lisser les différences de format ou de structure.

Maintenant que vous savez tout sur les data sources, vous souhaitez devenir un expert de la data. Nous vous invitons à découvrir la formation Data Analyst de DataScientest

Facebook
Twitter
LinkedIn

Tag de l'article :

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone

S'inscrire à la JPO :

Vous souhaitez recevoir notre newsletter data 💌 hebdomadaire ?