Comme en témoigne l'article ci-dessous, l'une des difficultés couramment rencontrées dans l'amélioration de la qualité des données est la diversité des formats de données (adresses, notation décimale, date,..).
Selon moi, la langue est le problème numéro 1. Vous allez me dire qu'il suffit de convenir que l'anglais soit la langue commune des données. Mais en pratique, cela s'avère difficile, car les utilisateurs d'applications informatiques sont loin de tous communiquer en anglais, et ce n'est pas qu'un problème Français.
Illustration : Prenons l'exemple d'articles matières premières utilisés par différentes filiales nationales d'un même groupe industriel international. Au sein de la base de données de ce groupe, il est fort probable qu'une même matière première soit l'objet de doublons, ce qui est bien évidemment nuisible aux analyses consolidées, aux négociations, etc...
Pourquoi ? Imaginons qu'un tel article soit d'abord créé en Suède. L'article aura un libellé saisi en Suédois. Imaginons ensuite que dans une entité Japonaise du même groupe, il y ait besoin d'utiliser la même matière première, et donc de la trouver dans la base de données. A coup sûr, ce second besoin fera l'objet d'un deuxième enregistrement avec un libellé Japonais, car l'utilisateur Japonais aura peu de moyens de constater que l'article en question a déjà été créé par un collègue Suédois... Voilà (entre autres) comment naissent les doublons puis les n-uplets au sein de grands groupes multinationaux partageant pourtant une même base de données.
A méditer donc : à moins de disposer d'une équipe centrale bien formée aux problématiques de doublons, la multiplication d'enregistrements pour une même réalité physique reste un véritable problème. Bien sûr, les outils de détection progressent et peuvent aider, mais les différences de langage demeurent un casse-tête.
-----------------------------------------
L'article en question :
"As part of my work I deal with data from different countries. In the below figure I have put in some examples of different presentations of the same data from some of the countries I meet the most being Denmark (DK), Germany (DE), France (FR), United States (US) and United Kingdom (GB):
Click on figure to enlarge.
I have some more information on the issues regarding the different attributes :
- Date formats are discussed in the post 1/1/11
- Address formats are mentioned in the posts Compound Words and Having the right element to the left
- Decimal marks are discussed in the post How long is a Marathon
- Names are mentioned in the post What’s in a Given Name
0 commentaires:
Enregistrer un commentaire