Bien démarrer avec les Lakehouses dans Fabric

Dans cet article, vous allez découvrir avec un cas pratique comment :

Créer un lakehouse.
Ingérer des données dans des fichiers et des tables dans un lakehouse.
Interroger des tables de lakehouse avec SQL.
Nous mettrons un accent sur l’importance du lakehouse en tant que composant central dans l’ingenieurie des données, l’entreposage et l’analytique, permettant aux utilisateurs de gérer et d’analyser efficacement leurs données dans l’environnement de lakehouse.

INTRODUCTION

Un lakehouse se présente sous la forme d’une base de données, et s’appuie sur un lac de données utilisant des tables au format Delta. Les lakehouses combinent les fonctionnalités analytiques basées sur SQL d’un entrepôt de données relationnelles à la flexibilité et la scalabilité d’un lac de données. Les lakehouses stockent tous les formats de données et peuvent être utilisés avec différents outils d’analytique et langages de programmation. En tant que solutions basées sur le cloud, les lakehouses peut être mis à l’échelle automatiquement et fournir une haute disponibilité et une reprise d’activité après sinistre.

Diagram of a lakehouse, displaying the folder structure of a data lake and the relational capabilities of a data warehouse.

AVANTAGES DES LAKEHOUSES AVEC FABRIC

Voici quelques-uns des avantages des lakehouses :

Les lakehouses utilisent des moteurs Spark et SQL pour traiter des données à grande échelle, et prennent en charge le Machine Learning ou l’analytique de modélisation prédictive.
Les données des lakehouses sont organisées dans un format de schéma de lecture, ce qui signifie que vous définissez le schéma en fonction des besoins plutôt que d’avoir un schéma prédéfini.
Les lakehouses prennent en charge les transactions ACID (Atomicité, Cohérence, Isolation, Durabilité) par le biais de tables au format Delta Lake à des fins de cohérence et d’intégrité des données.
Les lakehouses constituent un emplacement unique où les ingénieurs données, les scientifiques des données et les analystes de données peuvent accéder aux données et les utiliser.

Un lakehouse est une excellente option si vous souhaitez une solution d’analytique scalable qui maintient la cohérence des données. Il est important d’évaluer vos besoins spécifiques afin de déterminer la solution la mieux adaptée.

CAS PRATIQUE : Créer et ingérer des données avec un lakehouse Microsoft Fabric

1. Créer un espace de travail

Avant de travailler avec des données dans Fabric, créez un espace de travail avec la version d’essai Fabric activée(ou avec en version premium si vous l’avez).

Sur la page d’accueil de Microsoft Fabric , sélectionnez Synapse Data Engineering .
Dans la barre de menu de gauche, sélectionnez Espaces de travail (l’icône ressemble à 🗇).
Créez un nouvel espace de travail avec le nom de votre choix, en sélectionnant un mode de licence qui inclut la capacité Fabric ( Trial , Premium ou Fabric ).
Lorsque votre nouvel espace de travail s’ouvre, il devrait être vide.

2. Créer votre lakehouse

Maintenant que vous disposez d’un espace de travail, il est temps de créer un lac de données pour vos fichiers de données.

1. Dans la page d’accueil de Synapse Data Engineering , créez un nouveau Lakehouse avec le nom de votre choix.

Après environ une minute, un nouveau lakehouse sera créée :
Capture d'écran d'une nouvelle maison au bord du lac.

2. Affichez le nouveau Lakehouse et notez que le volet d’exploration de Lakehouse sur la gauche vous permet de parcourir les tables et les fichiers dans le Lakehouse :

Le dossier Tables contient des tables que vous pouvez interroger à l’aide de la sémantique SQL. Les tables d’un Lakehouse Microsoft Fabric sont basées sur le format de fichier open source Delta Lake , couramment utilisé dans Apache Spark.
Le dossier Files contient des fichiers de données dans le stockage OneLake pour le Lakehouse qui ne sont pas associés aux tables delta gérées. Vous pouvez également créer des raccourcis dans ce dossier pour référencer des données stockées en externe.

Actuellement, il n’y a aucune table ni fichier dans Lakehouse.

3. Télécharger un fichier

Fabric propose plusieurs façons de charger des données dans Lakehouse, notamment la prise en charge intégrée des pipelines qui copient des sources externes de données et des flux de données (Gen 2) que vous pouvez définir à l’aide d’outils visuels basés sur Power Query. Toutefois, l’un des moyens les plus simples d’ingérer de petites quantités de données consiste à télécharger des fichiers ou des dossiers depuis votre ordinateur local (ou la machine virtuelle de votre laboratoire, le cas échéant).

1. Téléchargez le fichier sales.csv depuis https://raw.githubusercontent.com/MicrosoftLearning/dp-data/main/sales.csv , en l’enregistrant sous sales.csv sur votre ordinateur local (ou sur la machine virtuelle de laboratoire le cas échéant).

Remarque : Pour télécharger le fichier, ouvrez un nouvel onglet dans le navigateur et collez l’URL. Faites un clic droit n’importe où sur la page contenant les données et sélectionnez Enregistrer sous pour enregistrer la page en tant que fichier CSV.

2. Revenez à l’onglet du navigateur Web contenant votre Lakehouse et dans le menu … du dossier Fichiers dans le volet de l’explorateur Lakehouse , sélectionnez Nouveau sous-dossier et créez un sous-dossier nommé data .

3. Dans le menu … du nouveau dossier de données , sélectionnez Télécharger et Télécharger le fichier , puis téléchargez le fichier sales.csv depuis votre ordinateur local (ou la machine virtuelle de laboratoire le cas échéant).

4. Une fois le fichier téléchargé, sélectionnez le dossier Files/data et vérifiez que le fichier sales.csv a été téléchargé, comme indiqué ici :

Capture d'écran du fichier sales.csv téléchargé dans un Lakehouse.

5. Sélectionnez le fichier sales.csv pour voir un aperçu de son contenu.

4. Explorer les raccourcis

Dans de nombreux scénarios, les données avec lesquelles vous devez travailler dans votre Lakehouse peuvent être stockées ailleurs. Bien qu’il existe de nombreuses façons d’ingérer des données dans le stockage OneLake de votre Lakehouse, une autre option consiste à créer un raccourci . Les raccourcis vous permettent d’inclure des données provenant de sources externes dans votre solution d’analyse sans les frais généraux et le risque d’incohérence des données associés à leur copie.

Dans le menu … du dossier Fichiers , sélectionnez Nouveau raccourci .
Affichez les types de sources de données disponibles pour les raccourcis. Fermez ensuite la boîte de dialogue Nouveau raccourci sans créer de raccourci.

5. Charger les données du fichier dans une table

Les données de vente que vous avez téléchargées se trouvent dans un fichier avec lequel les analystes de données et les ingénieurs peuvent travailler directement à l’aide du code Apache Spark. Cependant, dans de nombreux scénarios, vous souhaiterez peut-être charger les données du fichier dans une table afin de pouvoir les interroger à l’aide de SQL.

Sur la page d’accueil , sélectionnez le dossier Fichiers/Données pour voir le fichier sales.csv qu’il contient.
Dans le menu … du fichier sales.csv , sélectionnez Charger vers les tables .
Dans la boîte de dialogue Charger dans la table , définissez le nom de la table sur ventes et confirmez l’opération de chargement. Attendez ensuite que la table soit créée et chargée.
Astuce : Si le tableau des ventes n’apparaît pas automatiquement, dans le menu … du dossier Tables , sélectionnez Actualiser .
Dans le volet de l’explorateur Lakehouse , sélectionnez la table des ventes qui a été créée pour afficher les données.
Dans le menu … du tableau des ventes , sélectionnez Afficher les fichiers pour voir les fichiers sous-jacents à ce tableau.

Les fichiers d’une table delta sont stockés au format Parquet et incluent un sous-dossier nommé _delta_log dans lequel les détails des transactions appliquées à la table sont enregistrés.

6. Utiliser SQL pour interroger des tables

Lorsque vous créez un Lakehouse et y définissez des tables, un point de terminaison SQL est automatiquement créé via lequel les tables peuvent être interrogées à l’aide SELECTd’instructions SQL.

En haut à droite de la page Lakehouse, passez de Lakehouse au point de terminaison SQL . Attendez ensuite un peu jusqu’à ce que le point de terminaison de la requête SQL de votre Lakehouse s’ouvre dans une interface visuelle à partir de laquelle vous pouvez interroger ses tables, comme indiqué ici :

2. Utilisez le bouton Nouvelle requête SQL pour ouvrir un nouvel éditeur de requête et saisissez la requête SQL suivante :

SELECT Item, SUM(Quantity * UnitPrice) AS Revenue
FROM sales
GROUP BY Item
ORDER BY Revenue DESC;

3. Utilisez le bouton ▷ Exécuter pour exécuter la requête et afficher les résultats, qui devraient afficher le chiffre d’affaires total pour chaque produit.

7. Créer une requête visuelle

Alors que de nombreux professionnels des données sont familiers avec SQL, les analystes de données possédant une expérience Power BI peuvent appliquer leurs compétences Power Query pour créer des requêtes visuelles.

Dans la barre d’outils, sélectionnez Nouvelle requête visuelle .
Faites glisser la table des ventes vers le nouveau volet de l’éditeur de requête visuelle qui s’ouvre pour créer un Power Query comme indiqué ici :

Capture d'écran d'une requête visuelle.

3. Dans le menu Gérer les colonnes , sélectionnez Choisir les colonnes . Sélectionnez ensuite uniquement les colonnes SalesOrderNumber et SalesOrderLineNumber
Capture d'écran d'une boîte de dialogue Choisir des colonnes.

4. dans le menu Transformer , sélectionnez Regrouper par . Regroupez ensuite les données en utilisant les paramètres de base suivants :

Regrouper par : SalesOrderNumber
Nouveau nom de colonne : LineItems
Opération : Compter les valeurs distinctes
Colonne : SalesOrderLineNumber

Lorsque vous avez terminé, le volet des résultats sous la requête visuelle affiche le nombre d’éléments de campagne pour chaque commande client.

Capture d'écran d'une requête visuelle avec des résultats.

8. Créer un rapport

Les tables de votre Lakehouse sont automatiquement ajoutées à un ensemble de données par défaut qui définit un modèle de données pour la création de rapports avec Power BI.

Au bas de la page SQL Endpoint, sélectionnez l’ onglet Modèle . Le schéma du modèle de données pour l’ensemble de données est affiché.

Remarque : Dans cet exercice, le modèle de données est constitué d’une seule table. Dans un scénario réel, vous créeriez probablement plusieurs tables dans votre lac de donnée, chacune étant incluse dans le modèle. Vous pouvez ensuite définir des relations entre ces tables dans le modèle.

2. Dans le ruban de menu, sélectionnez l’ onglet Rapports . Sélectionnez ensuite Nouveau rapport . Un nouvel onglet de navigateur s’ouvre dans lequel vous pouvez concevoir votre rapport.

3. Dans le volet Données sur la droite, développez le tableau des ventes . Sélectionnez ensuite les champs suivants :
- Article
- Quantité
Une visualisation sous forme de tableau est ajoutée au rapport :

4. Masquez les volets Données et Filtres pour créer plus d’espace. Assurez-vous ensuite que la visualisation du tableau est sélectionnée et dans le volet Visualisations , remplacez la visualisation par un graphique à barres clusterisé et redimensionnez-le comme indiqué ici.

5. Dans le menu Fichier , sélectionnez Enregistrer . Enregistrez ensuite le rapport en tant que rapport sur les ventes d’articles dans l’espace de travail que vous avez créé précédemment.

6. Fermez l’onglet du navigateur contenant le rapport pour revenir au point de terminaison SQL de votre Lakehouse. Ensuite, dans la barre de menu du hub à gauche, sélectionnez votre espace de travail pour vérifier qu’il contient les éléments suivants :

– Votre lakehouse.
– Le point de terminaison SQL pour votre Lakehouse.
– Un ensemble de données par défaut pour les tables de votre Lakehouse.
– Le rapport sur les ventes d’articles .

9. Nettoyez les ressources

Dans cet article, vous avez créé un Lakehouse et y avez importé des données. Vous avez vu comment un Lakehouse est constitué de fichiers et de tables stockés dans un magasin de données OneLake. Les tables gérées peuvent être interrogées à l’aide de SQL et sont incluses dans un ensemble de données par défaut pour prendre en charge les visualisations de données.

Si vous avez fini d’explorer votre Lakehouse, vous pouvez supprimer l’espace de travail que vous avez créé pour cet exercice.

Dans la barre de gauche, sélectionnez l’icône de votre espace de travail pour afficher tous les éléments qu’il contient.
Dans le menu … de la barre d’outils, sélectionnez Paramètres de l’espace de travail .
Dans la section Autre , sélectionnez Supprimer cet espace de travail .

Résumé

Les lakehouses Microsoft Fabric fournissent aux ingénieurs et aux analystes de données les avantages combinés du stockage de lac de données et d’un entrepôt de données relationnelles. Vous pouvez utiliser un lakehouse comme base d’une solution d’analytique données de bout en bout qui comprend l’ingestion, la transformation, la modélisation et la visualisation des données.