06/04/2023

Cum seifurile de date sunt viitorul depozitării datelor[+5 Learning Resources]

Pe măsură ce companiile generează din ce în ce mai multe date, abordarea tradițională a depozitării datelor devine din ce în ce mai dificilă și mai costisitoare de întreținut. Data Vault, o abordare relativ nouă a depozitării datelor, oferă o soluție la această problemă, oferind o modalitate scalabilă, agilă și rentabilă de a gestiona volume mari de date.

În această postare, vom explora modul în care Data Vaults reprezintă viitorul depozitării de date și de ce tot mai multe companii adoptă această abordare. De asemenea, vom oferi resurse de învățare pentru cei care doresc să aprofundeze subiectul!

Ce este Data Vault?

Data Vault este o tehnică de modelare a depozitelor de date, potrivită în special pentru depozitele de date agile. Oferă un grad ridicat de flexibilitate pentru extensii, o istoricizare unitară-temporală completă a datelor și permite o paralelizare puternică a proceselor de încărcare a datelor. Dan Linstedt a dezvoltat modelarea Data Vault în anii 1990.

După prima apariție în 2000, ea a câștigat o atenție mai mare în 2002 printr-o serie de articole. În 2007, Linstedt a câștigat aprobarea lui Bill Inmon, care a descris-o drept „alegerea optimă” pentru arhitectura sa Data Vault 2.0.

Oricine se ocupă de termenul de depozit de date agil va ajunge rapid cu Data Vault. Ceea ce este special la tehnologie este că se concentrează pe nevoile companiilor, deoarece permite ajustări flexibile și cu efort redus la un depozit de date.

Data Vault 2.0 ia în considerare întregul proces de dezvoltare și arhitectura și constă din metoda componentelor (implementare), arhitectură și model. Avantajul este că această abordare ia în considerare toate aspectele de business intelligence cu depozitul de date subiacent în timpul dezvoltării.

Modelul Data Vault oferă o soluție modernă pentru depășirea limitărilor abordărilor tradiționale de modelare a datelor. Cu scalabilitatea, flexibilitatea și agilitatea sa, oferă o bază solidă pentru construirea unei platforme de date care poate găzdui complexitatea și diversitatea mediilor moderne de date.

Arhitectura hub-and-spoke a Data Vault și separarea entităților și atributelor permit integrarea și armonizarea datelor în mai multe sisteme și domenii, facilitând dezvoltarea incrementală și agilă.

Un rol crucial al Data Vault în construirea unei platforme de date este de a stabili o singură sursă de adevăr pentru toate datele. Vizualizarea sa unificată a datelor și suportul pentru capturarea și urmărirea modificărilor istorice ale datelor prin tabelele satelit permit conformitatea, auditul, cerințele de reglementare și analiza și raportarea cuprinzătoare.

Capacitățile de integrare a datelor aproape în timp real ale Data Vault prin încărcare delta facilitează gestionarea unor volume mari de date în medii în schimbare rapidă, cum ar fi aplicațiile Big Data și IoT.

Seif de date vs. modele tradiționale de depozit de date

Third-Normal-Form (3NF) este unul dintre cele mai renumite modele tradiționale de depozit de date, adesea preferat în multe implementări mari. De altfel, aceasta corespunde ideilor lui Bill Inmon, unul dintre „strămoșii” conceptului de depozit de date.

  Noțiuni introductive cu Storybook în React

Arhitectura Inmon se bazează pe modelul bazei de date relaționale și elimină redundanța datelor prin împărțirea surselor de date în tabele mai mici care sunt stocate în marturi de date și sunt interconectate folosind chei primare și externe. Se asigură că datele sunt consecvente și precise prin aplicarea regulilor de integritate referențială.

Scopul formularului normal a fost de a construi un model de date cuprinzător, la nivelul întregii companii, pentru depozitul de date de bază; cu toate acestea, are probleme de scalabilitate și flexibilitate din cauza martelor de date foarte cuplate, dificultăților de încărcare în modul aproape în timp real, solicitărilor laborioase și proiectării de sus în jos și implementării.

Modelul Kimbal, folosit pentru OLAP (prelucrare analitică online) și pentru magazinele de date, este un alt model faimos de depozit de date în care tabelele de fapte conțin date agregate și tabelele de dimensiuni descriu datele stocate într-o schemă în stea sau într-o schemă fulg de zăpadă. În această arhitectură, datele sunt organizate în tabele de fapte și dimensiuni care sunt denormalizate pentru a simplifica interogarea și analiza.

Kimbal se bazează pe un model dimensional care este optimizat pentru interogare și raportare, făcându-l ideal pentru aplicațiile de business intelligence. Cu toate acestea, a avut probleme cu izolarea informațiilor orientate pe subiect, redundanța datelor, structuri de interogare incompatibile, dificultăți de scalabilitate, granularitatea inconsecventă a tabelelor de fapte, probleme de sincronizare și nevoia de proiectare de sus în jos cu implementare de jos în sus.

În schimb, arhitectura seifului de date este o abordare hibridă care combină aspecte ale arhitecturii 3NF și Kimball. Este un model bazat pe principii relaționale, normalizarea datelor și matematica redundanței care reprezintă relațiile dintre entități în mod diferit și structurează câmpurile de tabel și marcajele de timp în mod diferit.

În această arhitectură, toate datele sunt stocate într-un seif de date brute sau într-un lac de date, în timp ce datele utilizate în mod obișnuit sunt stocate într-un format normalizat într-un seif de afaceri care conține date istorice și specifice contextului care pot fi utilizate pentru raportare.

Data Vault abordează problemele din modelele tradiționale, fiind mai eficient, scalabil și flexibil. Permite încărcare aproape în timp real, o mai bună integritate a datelor și o extindere ușoară fără a afecta structurile existente. De asemenea, modelul poate fi extins fără a migra tabelele existente.

Abordare de modelareStructură de date Abordare de proiectare Modelare 3NFTabele în 3NFDe jos în sus Modelare KimbalSchemă stelară sau Schemă fulg de zăpadă De sus în jos Seif de dateHub-and-SpokeDe jos în sus

Arhitectura seifului de date

Data Vault are o arhitectură hub-and-spoke și constă în esență din trei straturi:

Staging Layer: Colectează datele brute din sistemele sursă, cum ar fi CRM sau ERP

Stratul Data Warehouse: atunci când este modelat ca model Data Vault, acest strat include:

  • Raw Data Vault: stochează datele brute.
  • Business Data Vault: include date armonizate și transformate pe baza regulilor de afaceri (opțional).
  • Metrics Vault: stochează informații de rulare (opțional).
  • Seif operațional: stochează datele care circulă direct din sistemele operaționale în depozitul de date (opțional.)

Stratul Data Mart: Acest strat modelează datele ca schemă stea și/sau alte tehnici de modelare. Oferă informații pentru analiză și raportare.

Sursa imagine: Lamia Yessad

Data Vault nu necesită o re-arhitectură. Noile funcții pot fi construite în paralel direct folosind conceptele și metodele Data Vault, iar componentele existente nu se pierd. Framework-urile pot face munca mult mai ușoară: creează un strat între depozitul de date și dezvoltator și reduc astfel complexitatea implementării.

  Cluster dinamic WebSphere 8.5.x

Componentele seifului de date

În timpul modelării, Data Vault împarte toate informațiile care aparțin obiectului în trei categorii – spre deosebire de modelarea clasică a treia formă normală. Aceste informații sunt apoi stocate strict separate una de cealaltă. Zonele funcționale pot fi mapate în Data Vault în așa-numitele hub-uri, legături și sateliți:

#1. Huburi

Hub-urile sunt inima conceptului de afaceri de bază, cum ar fi client, vânzător, vânzare sau produs. Tabelul hub este format în jurul cheii de afaceri (numele magazinului sau locația) atunci când o nouă instanță a acelei chei de afaceri este introdusă pentru prima dată în depozitul de date.

Hub-ul nu conține informații descriptive și nici FK. Acesta constă numai din cheia de afaceri, cu o secvență generată de depozit de chei ID sau hash, ștampila datei/ora de încărcare și sursa de înregistrare.

#2. Legături

Legăturile stabilesc relații între cheile de afaceri. Fiecare intrare dintr-o legătură modelează relațiile nm ale oricărui număr de hub-uri. Acesta permite seifului de date să reacționeze flexibil la modificările logicii de afaceri a sistemelor sursă, cum ar fi schimbările în cordialitatea relațiilor. La fel ca hub-ul, linkul nu conține nicio informație descriptivă. Constă din ID-urile de secvență ale hub-urilor la care face referire, un ID de secvență generat de depozit, marcarea datei/ora de încărcare și sursa de înregistrare.

#3. Sateliți

Sateliții conțin informații descriptive (context) pentru o cheie de afaceri stocată într-un hub sau o relație stocată într-un link. Sateliții funcționează „numai inserați”, ceea ce înseamnă că istoricul complet al datelor este stocat în satelit. Mai mulți sateliți pot descrie o singură cheie de afaceri (sau relație). Cu toate acestea, un satelit poate descrie doar o cheie (hub sau link).

Sursa imagine: Carbidfischer

Cum să construiți un model de seif de date

Construirea unui model Data Vault implică mai mulți pași, fiecare dintre care este esențial pentru a se asigura că modelul este scalabil, flexibil și capabil să răspundă nevoilor afacerii:

#1. Identificați entități și atribute

Identificați entitățile de afaceri și atributele lor corespunzătoare. Aceasta implică lucrul îndeaproape cu părțile interesate de afaceri pentru a le înțelege cerințele și datele pe care trebuie să le capteze. Odată ce aceste entități și atribute au fost identificate, separați-le în hub-uri, legături și sateliți.

#2. Definiți relațiile dintre entități și creați legături

Odată ce ați identificat entitățile și atributele, relațiile dintre entități sunt definite și legăturile sunt create pentru a reprezenta aceste relații. Fiecărui link îi este atribuită o cheie de afaceri care identifică relația dintre entități. Sateliții sunt apoi adăugați pentru a captura atributele și relațiile entităților.

#3. Stabiliți reguli și standarde

După crearea legăturilor, ar trebui stabilit un set de reguli și standarde de modelare a seifului de date pentru a se asigura că modelul este flexibil și poate face față schimbărilor în timp. Aceste reguli și standarde ar trebui revizuite și actualizate în mod regulat pentru a se asigura că rămân relevante și aliniate cu nevoile afacerii.

#4. Populați modelul

Odată ce modelul a fost creat, acesta ar trebui să fie populat cu date utilizând o abordare de încărcare incrementală. Aceasta implică încărcarea datelor în hub-uri, legături și sateliți folosind încărcări delta. Delta se încarcă pentru a se asigura că sunt încărcate numai modificările aduse datelor, reducând timpul și resursele necesare pentru integrarea datelor.

#5. Testați și validați modelul

În cele din urmă, modelul trebuie testat și validat pentru a se asigura că îndeplinește cerințele de afaceri și este suficient de scalabil și flexibil pentru a face față schimbărilor viitoare. Întreținerea și actualizările regulate trebuie efectuate pentru a se asigura că modelul rămâne aliniat cu nevoile de afaceri și continuă să ofere o vizualizare unificată a datelor.

  Cum să remediați eșecul de autentificare a gateway-ului AT&T U-verse

Resurse de învățare Data Vault

Mastering Data Vault poate oferi abilități și cunoștințe valoroase care sunt foarte căutate în industriile actuale bazate pe date. Iată o listă cuprinzătoare de resurse, inclusiv cursuri și cărți, care pot ajuta la învățarea complexității Data Vault:

#1. Modelarea depozitului de date cu Data Vault 2.0

Acest curs Udemy este o introducere cuprinzătoare în abordarea de modelare Data Vault 2.0, managementul agil al proiectelor și integrarea Big Data. Cursul acoperă elementele de bază și elementele fundamentale ale Data Vault 2.0, inclusiv arhitectura și straturile sale, seifurile de afaceri și informații și tehnicile avansate de modelare.

Vă învață cum să proiectați un model Data Vault de la zero, să convertiți modele tradiționale precum 3NF și modele dimensionale în Data Vault și să înțelegeți principiile modelării dimensionale în Data Vault. Cursul necesită cunoștințe de bază despre bazele de date și elementele fundamentale SQL.

Cu o evaluare ridicată de 4,4 din 5 și peste 1.700 de recenzii, acest curs cel mai bine vândut este potrivit pentru oricine caută să construiască o bază solidă în Data Vault 2.0 și integrarea Big Data.

#2. Modelarea seifului de date explicată cu un caz de utilizare

Acest curs Udemy are scopul de a vă ghida în construirea unui model de seif de date folosind un exemplu practic de afaceri. Acesta servește drept ghid pentru începători pentru modelarea seifului de date, acoperind concepte cheie, cum ar fi scenariile adecvate pentru utilizarea modelelor seifului de date, limitările modelării OLAP convenționale și o abordare sistematică a construirii unui model seif de date. Cursul este accesibil persoanelor cu cunoștințe minime de baze de date.

#3. The Data Vault Guru: un ghid pragmatic

Data Vault Guru de dl Patrick Cuba este un ghid cuprinzător al metodologiei seifului de date, care oferă o oportunitate unică de a modela depozitul de date al întreprinderii folosind principii de automatizare similare cu cele utilizate în livrarea de software.

Cartea oferă o privire de ansamblu asupra arhitecturii moderne și apoi oferă un ghid amănunțit despre cum să oferiți un model de date flexibil care se adaptează la schimbările din întreprindere, seiful de date.

În plus, cartea extinde metodologia seifului de date prin furnizarea de corecție automată a cronologiei, piste de audit, control al metadatelor și integrare cu instrumente de livrare agile.

#4. Construirea unui depozit de date scalabil cu Data Vault 2.0

Această carte oferă cititorilor un ghid cuprinzător pentru crearea unui depozit de date scalabil de la început până la sfârșit folosind metodologia Data Vault 2.0.

Această carte acoperă toate aspectele esențiale ale construirii unui depozit de date scalabil, inclusiv tehnica de modelare Data Vault, care este concepută pentru a preveni eșecurile tipice ale depozitării de date.

Cartea conține numeroase exemple pentru a ajuta cititorii să înțeleagă clar conceptele. Cu perspectivele sale practice și exemplele din lumea reală, această carte este o resursă esențială pentru oricine este interesat de depozitarea datelor.

#5. Elefantul din frigider: pași ghidați către succesul seifului de date

The Elephant in the Fridge de John Giles este un ghid practic care își propune să ajute cititorii să obțină succesul Data Vault, începând cu afacerea și terminând cu afacerea.

Cartea se concentrează pe importanța ontologiei întreprinderii și a modelării conceptului de afaceri și oferă îndrumări pas cu pas cu privire la modul de aplicare a acestor concepte pentru a crea un model de date solid.

Prin sfaturi practice și exemple de modele, autorul oferă o explicație clară și necomplicată a subiectelor complicate, făcând din carte un ghid excelent pentru cei care sunt începători în Data Vault.

Cuvinte finale

Data Vault reprezintă viitorul depozitării datelor, oferind companiilor avantaje semnificative în ceea ce privește agilitatea, scalabilitatea și eficiența. Este deosebit de potrivit pentru companiile care trebuie să încarce rapid volume mari de date și pentru cei care doresc să-și dezvolte aplicațiile de business intelligence într-o manieră agilă.

În plus, companiile care au o arhitectură de siloz existentă pot beneficia foarte mult de implementarea unui depozit de date de bază în amonte folosind Data Vault.

Ați putea fi, de asemenea, interesat să aflați despre descendența datelor.

x