Gestion du format de colonne dans Power Query : principes et bonnes pratiques

Découvrez l'importance du typage des colonnes dans Power Query pour un traitement optimal des données, en différenciant correctement format de stockage et format d'affichage, et en évitant les erreurs fréquentes lors de l'importation dans Power BI.

Détails de la leçon

Description de la leçon

Dans cette leçon, nous abordons une étape fondamentale de la préparation des données sous Power Query : le choix et la gestion du format de colonne. L'accent est mis sur la distinction entre le format de stockage (typage) et le format d'affichage des données, deux notions trop souvent confondues par les utilisateurs venant d'Excel. Alors que dans Excel le format de la cellule gère à la fois son contenu et son affichage, Power Query sépare strictement la nature de la donnée (texte, nombre décimal, date, etc.) et sa représentation visuelle, qui intervient ultérieurement dans Power BI.

La vidéo détaille les différents types proposés par Power Query : texte, nombre décimal, nombre entier, pourcentage, mais aussi « Any » (aucune typage), en illustrant par l'exemple de colonnes mal typées suite à des erreurs d'import. Des conseils pratiques sont donnés pour corriger manuellement le type de chaque colonne selon la nature prévue des données, comme choisir le format texte pour les identifiants afin d'éviter la perte de zéros initiaux ou un agrégat inapproprié dans les visuels de Power BI.

Un éclairage particulier est apporté sur la gestion des étapes dans l'éditeur Power Query, en soulignant l'intérêt de supprimer les étapes superflues pour optimiser la lisibilité et la performance des traitements futurs. Cette leçon est indispensable pour tous ceux qui souhaitent garantir la fiabilité et la pertinence de leurs analyses en aval dans Power BI.

Objectifs de cette leçon

Les objectifs principaux sont :

  • Comprendre la différence entre format de stockage et d'affichage dans Power Query.
  • Maîtriser le typage correct des colonnes selon la nature des données.
  • Éviter les pièges courants, notamment sur le traitement des identifiants numériques et sur la gestion des étapes inutiles dans Power Query.

Prérequis pour cette leçon

  • Avoir une connaissance de base de Power BI et de Power Query.
  • Savoir importer un jeu de données (Excel ou CSV) dans Power BI.
  • Maîtriser les notions fondamentales de tableur (Excel).

Métiers concernés

Ce sujet concerne notamment :

  • Les data analysts et data engineers qui structurent et typent les données avant analyse.
  • Les responsables de la BI (Business Intelligence) qui veillent à la qualité des rapports.
  • Les contrôleurs de gestion et statisticiens gérant de grands volumes de données.

Alternatives et ressources

Des solutions et outils alternatifs existent :

  • Tableau Prep : outil de préparation et de typage des données similaire à Power Query.
  • Alteryx Designer : plateforme de data blending et de typage avancé.
  • Google DataPrep ou OpenRefine : pour des transformations et typages sur des jeux de données volumineux ou non structurés.

Questions & Réponses

Le format de stockage, ou typage, indique la nature de la donnée (texte, nombre, date ...) permettant des transformations appropriées, tandis que le format d'affichage concerne la manière dont la donnée sera rendue visuellement dans le rapport (symbole monétaire, format de date, etc.). Power Query traite exclusivement le format de stockage, laissant l'affichage à Power BI.
Les identifiants risquent de perdre des informations essentielles, comme les zéros initiaux, lorsqu'ils sont typés en nombre. De plus, dans Power BI, ils peuvent être agrégés par défaut (somme, moyenne...), ce qui n'a pas de sens pour des identifiants uniques. Il est donc recommandé de les typer en texte.
Il suffit de cliquer sur l'en-tête de la colonne dans Power Query, puis de sélectionner le type de données approprié (texte, nombre décimal, etc.). En cas d'étape « type modifié » inappropriée, il est conseillé de la supprimer pour garantir la cohérence et la performance du modèle.