Medallion Architectuur in Microsoft Fabric

De Medallion Architectuur in Microsoft Fabric: Structuur en Datastromen

De Medallion Architectuur is een gelaagd data-architectuurmodel dat veel voorkomt in moderne data lakehouses, waaronder Microsoft Fabric. Deze architectuur structureert data voor opslag, schoning en transformatie, waardoor analyses en AI-toepassingen mogelijk worden. Deze blog behandelt de opbouw van de Medallion Architectuur in Microsoft Fabric en de dataflow tussen de lagen. Daarnaast bespreken we de betrokken rollen en voegen we een extra laag toe: het Power BI semantisch model.

Wat is de Medallion Architectuur?

De Medallion Architectuur deelt data op in vier hoofdlagen:

  • Bronzen laag (Raw layer): Opslag van ruwe data zoals ontvangen uit bronsystemen, zonder transformaties.
  • Zilveren laag (Cleansed layer): Opschoning, verrijking en normalisatie van data.
  • Gouden laag (Curated layer): Geoptimaliseerde data voor rapportages en machine learning.
  • Power BI semantisch model: Samengevatte en geoptimaliseerde data voor rapportages en dashboards in Power BI.

Microsoft Fabric biedt een geïntegreerde omgeving om deze lagen efficiënt te beheren via OneLake en Direct Lake Storage.

De Lagen in Detail

1. Bronzen Laag (Raw Data Layer)

De bronzen laag slaat ruwe data op uit bronnen zoals databases, API’s, IoT-sensoren en ongestructureerde bestanden (JSON, XML, CSV). Data in deze laag kan:

  • Direct in OneLake opgeslagen worden zonder transformatie.
  • Geïmporteerd worden met Dataflows Gen2, Spark Notebooks of Pipelines.

Betrokken rollen: Data Engineers beheren opslag en extractieprocessen.

2. Zilveren Laag (Cleansed Data Layer)

De zilveren laag transformeert ruwe data naar een schoner en consistenter formaat door:

  • Deduplicatie en standaardisatie van datatypes en kolomnamen.
  • Het joinen van datasets voor een vollediger beeld.
  • Validatie en filtering om irrelevante of foutieve data te verwijderen.
  • Gebruik van Delta Lake-tabellen voor versiebeheer en ACID-transacties.

Tools: Spark Notebooks, Dataflows, Synapse Pipelines.

Betrokken rollen: Data Engineers en Data Stewards waarborgen datakwaliteit en transformaties.

3. Gouden Laag (Curated Data Layer)

De gouden laag bevat gevalideerde en geoptimaliseerde data voor eindgebruikers. Deze laag:

  • Exporteert data naar Power BI voor rapportages.
  • Maakt data beschikbaar via Direct Lake Storage voor snelle query’s.
  • Ondersteunt machine learning in Synapse of Fabric Data Science Notebooks.
  • Combineert databronnen voor een 360°-beeld van de organisatie.

Betrokken rollen: Data Analisten en BI Specialisten optimaliseren en gebruiken de data.

4. Power BI Semantisch Model

Deze laag modelleert en optimaliseert datasets voor rapportages door:

  • Optimalisatie van datamodellen voor snelle queries.
  • DAX-berekeningen voor geavanceerde analyses.
  • Beveiligingsmaatregelen zoals Row-Level Security (RLS).

Betrokken rollen: Power BI Developers en Data Analisten zorgen voor efficiënte datavisualisatie.

Hoe Stroomt Data in de Medallion Architectuur?

De Medallion Architectuur verdeelt data in drie lagen: brons, zilver en goud. Hierdoor wordt ruwe data stapsgewijs omgezet in bruikbare inzichten, wat zorgt voor een gestructureerde en efficiënte verwerking.

ETL vs. ELT: twee manieren van data verwerken

Enerzijds kan een ELT-aanpak worden toegepast:

  • Eerst slaat het systeem de data op in de bronzen laag.
  • Vervolgens transformeert PySpark of SQL de data naar de zilveren en gouden laag.

Anderzijds kan ETL worden gebruikt:

  • In dit geval transformeert het systeem de data al vóór opslag en laadt deze direct in OneLake.

Incremental loads: efficiënt data beheren

In plaats van volledige datasets telkens opnieuw te laden, verwerkt het systeem uitsluitend nieuwe of gewijzigde records.

  • Dit versnelt de verwerking en maakt deze efficiënter.
  • Bovendien verlaagt dit de opslag- en rekenkosten.

Streaming vs. batch processing

Enerzijds kan data via streaming binnenkomen:

  • Event Streams in Fabric sturen real-time data naar de bronzen laag.

Anderzijds kan batch-verwerking worden toegepast:

  • Data Pipelines en Notebooks verwerken periodiek de gegevens.
  • Tijdens deze verwerking vinden gestructureerde transformaties en validaties plaats.

Door deze combinatie van ELT, ETL, incremental loads en zowel streaming als batch-verwerking stroomt data efficiënt, schaalbaar en betrouwbaar door de Medallion Architectuur.

Conclusie

De Medallion Architectuur in Microsoft Fabric biedt een gestructureerde aanpak voor databeheer en -transformatie. De gelaagde opbouw zorgt voor efficiënte verwerking van ruwe data naar waardevolle inzichten. Met het Power BI semantisch model wordt data verder geoptimaliseerd voor rapportages en dashboards, waardoor gebruikers eenvoudig analyses uitvoeren en beslissingen nemen.

Meer informatie neem dan nu contact met ons op.

De Medallion Architectuur in Microsoft Fabric: Structuur en Datastromen

Lees ook onze andere blogs

Schuiven naar boven