metadata data warehouse explained with examples
Denne opplæringen forklarer rollen til metadata i ETL, eksempler og typer metadata, metadata Repository og utfordringer i metadataadministrasjon:
Data Mart i ETL ble forklart i detalj i vår forrige opplæring.
Konseptet med metadata er veldig viktig i ETL, og denne opplæringen vil forklare alt om metadata.
Den dekker rollen som metadata, eksempler på metadata, så vel som dens typer, metadata repository, hvordan kan man lagre metadata for datalagring, utfordringer for metadataadministrasjon.
Du vil også bli kjent med hva som er metadatadrevet ETL og forskjellen mellom data og metadata.
=> Les gjennom Free Data Warehouse Training Series her.
Målgruppe
- Datalager / ETL-utviklere og testere.
- Database fagpersoner med grunnleggende kunnskap om databasekonsepter.
- Databaseadministratorer / big data-eksperter som ønsker å forstå Data warehouse / ETL-områder.
- Høgskoleutdannede / nybegynnere som leter etter jobber med datalager.
Hva du vil lære:
hva er en god youtube til mp3 converter
Metadata i ETL
Data warehouse team (eller) brukere kan bruke metadata i en rekke situasjoner for å bygge, vedlikeholde og administrere systemet. Den grunnleggende definisjonen av metadata i datalageret er, “Det er data om data” .
Metadata kan inneholde all slags informasjon om DW-data som:
- Kilde for eventuelle ekstraherte data.
- Bruk av DW-dataene.
- Enhver form for data og dens verdier.
- Funksjoner av data.
- Transformasjonslogikk for ekstraherte data.
- DW-tabeller og deres attributter.
- DW-objekter
- Tidsstempler
Metadata fungerer som en innholdsfortegnelse for data i DW-systemet, som viser teknikken med mer detaljer om disse dataene. Med enkle ord kan du tenke på en indeks i hvilken som helst bok som fungerer som metadata, for innholdet i den boka.
Tilsvarende fungerer metadata som en indeks for DW-innholdet. Alle slike metadata lagres i et arkiv. Ved å gå gjennom Metadata får sluttbrukerne vite hvor de kan begynne å analysere DW-systemet. Ellers er det vanskelig for sluttbrukerne å vite hvor de skal starte dataanalysen fra et så stort DW-system.
Rollen av metadata i datalageret
Tidligere dager ble Metadata opprettet og vedlikeholdt som dokumenter. Men i dagens digitale verden har forskjellige verktøy gjort denne jobben lettere ved å registrere metadata på hvert nivå i DW-prosessen.
Metadata opprettet av ett verktøy kan standardiseres (dvs. data kan bringes i ett unikt format) og kan brukes på nytt over de andre verktøyene hvor som helst i DW-systemet.
Som vi er klar over at operasjonelle systemer opprettholder nåværende data, opprettholder DW-systemene historiske og nåværende data.
Metadata må holde oversikt over alle endringene som skjer i kildesystemer, dataekstraksjon / transformasjonsmetoder og i strukturen (eller) innholdet i dataene som vil oppstå i denne prosessen. Metadata vil ha forskjellige versjoner for å holde oversikt over alle disse endringene over flere år.
Tilstrekkelig metadata gitt i depotet vil hjelpe enhver bruker med å analysere systemet mer effektivt og uavhengig. Ved å forstå metadata kan du kjøre alle slags spørsmål på DW-data for best resultat.
Bildemessig fremstilling av rollen til metadata:
beste programmet for å fikse registerfeil
Eksempler på metadata i enkle termer
Nedenfor er noen av eksemplene på metadata.
- Metadata for en webside kan inneholde språket den er kodet på, verktøyene som brukes til å bygge den, støtte nettlesere osv.
- Metadata for et digitalt bilde kan inneholde størrelsen på bildet, oppløsning, fargeintensitet, bildedato, etc.
- Metadata for et dokument kan inneholde dokumentet som ble opprettet, sist endret dato, størrelse, forfatter, beskrivelse osv.
Sammenligning mellom data og metadata
S. nr | Data | Metadata |
---|---|---|
1 | Data er et sett med informasjon. | Metadata er informasjon om data. |
to | Data kan (eller) kanskje ikke behandles. | Metadata er alltid behandlede data. |
Typer Metadata
Klassifiseringen av metadata i forskjellige typer vil hjelpe oss til å forstå det bedre. Denne klassifiseringen kan være basert på bruken (eller) brukerne osv.
La oss utforske de forskjellige metadataene nedenfor:
# 1) Bakrommetadata: Styrer DBA (eller) sluttbrukerne på prosesser for utpakking, rengjøring og belastning.
# 2) Metadata i forrommet: Styrer sluttbrukerne til å jobbe med BI-verktøy og rapporter.
# 3) Behandle metadata: Dette lagrer metadata for ETL-prosesser, for eksempel antall rader lastet, avvist, behandlet og det tar tid å laste inn i et DW-system, etc. Denne informasjonen kan også være tilgjengelig for sluttbrukerne.
Samtidig er statistikken over iscenesettingstabellene også viktig for ETL-teamet. Disse metadataene lagrer iscenesettelsestabellene som behandler data, for eksempel antall rader lastet, avvist, behandlet og tiden det tar å laste inn i hver iscenesettingstabell.
# 4) Datalinje: Dette lagrer den logiske transformasjonen for hvert kildesystemelement til DW-målelementet.
# 5) Forretningsdefinisjoner: Konteksten for DW-tabeller er hentet fra forretningsdefinisjonene. Hvert attributt i en tabell er knyttet til en forretningsdefinisjon. Derfor bør disse lagres som metadata (eller) ethvert annet dokument for fremtidig referanse. Både sluttbrukerne og ETL-teamet er avhengig av disse forretningsdefinisjonene.
# 6) Tekniske definisjoner: Tekniske definisjoner brukes utelukkende i datastagingområdet mer enn forretningsdefinisjonene. Hovedformålet er å redusere tvetydigheten mens du lager iscenesettelsestabeller og å gjenbruke eksisterende tabeller. Tekniske definisjoner vil lagre detaljene i hver iscenesettingstabell, for eksempel plassering og struktur.
Hver iscenesettingstabell er teknisk dokumentert her, hvis ikke dokumentert, betyr det at iscenesettelsestabellen ikke er eksisterende. Dette unngår rekreasjon av det samme iscenesattabellen.
# 7) Forretningsmetadata: Data vil bli lagret i forretningsbetingelser til fordel for sluttbrukere / analytikere / ledere / eventuelle brukere. Virksomhetsmetadata er proxy til kildesystemdataene, dvs. ingen data manipulasjoner vil bli gjort på den. Det kan være avledet fra alle forretningsdokumenter og forretningsregler.
# 8) Tekniske metadata: Dette lagrer tekniske data som tabellattributter, deres datatyper, størrelse, primære nøkkelattributter, utenlandske nøkkelattributter og eventuelle indekser. Dette er mer strukturert sammenlignet med forretningsmetadata.
Tekniske metadata er hovedsakelig ment for DW-teamet som utviklere / testere / analytikere / DBAer for å bygge (eller) vedlikeholde systemet. Dette brukes også betydelig av administratorene for å overvåke databaselastinger og datasikkerhetskopier etc.
# 9) Operasjonelle metadata: Som vi vet er dataene i DW-systemet hentet fra mange operasjonelle systemer med forskjellige datatyper og felt. DW-ekstrakter forvandler slike data til den unike typen og laster alle disse dataene inn i systemet.
Samtidig må den kunne koble dataene tilbake til kildesystemdataene. Metadataene som lagrer all denne operasjonelle datakildene, er kjent som Operasjonelle metadata.
# 10) Kildesysteminformasjon:
Du kan samle følgende metadata fra forskjellige kildesystemer:
- Database (eller) filsystem: Dette lagrer navnene på kildesystemdatabaser (eller) filer.
- Tabell spesifikasjoner: Dette lagrer alle detaljene om tabeller som tabellnavn, formål, størrelse, attributter, primærnøkler og utenlandske nøkler.
- Regler for håndtering av unntak: Dette lagrer forskjellige metoder for å gjenopprette systemet i tilfelle systemfeil.
- Forretningsdefinisjoner: Dette vil lagre forretningsdefinisjoner for en kort forståelse av data.
- Forretningsregler: Dette lagrer et sett med regler for hver tabell for å forstå dataene og for å unngå inkonsekvens.
Kildesystemmetadata sparer mye tid for DW-teamet mens de analyserer dataene.
# 11) ETL-jobbmetadata: ETL-jobbmetadata er veldig viktig ettersom den lagrer detaljene for alle jobbene som skal behandles i timeplanen, for å laste ETL-systemet.
Denne metadata lagrer følgende informasjon:
- Jobb navn: ETL-stillingsnavn.
- Hensikten med arbeidet: Formålet med å kjøre jobben.
- Kildetabeller / filer: Den gir navnene og plasseringen til alle tabeller og filer som dataene kommer fra fra denne ETL-jobben. Dette kan ha mer enn ett tabell (eller) filnavn.
- Måltabeller / filer: Den gir navnene og plasseringen til alle tabeller og filer som dataene blir transformert til av denne ETL-jobben. Dette kan ha mer enn ett tabell (eller) filnavn.
- Avviste data: Den gir navnene og plasseringen til alle tabellene og filene som de tiltenkte kildedataene ikke er lastet inn i målet.
- Forprosesser: Det gir jobbene (eller) skriptnavnene som gjeldende jobb er avhengig av. Det betyr at de må utføres vellykket før du kjører den nåværende jobben.
- Postprosesser: Den gir jobbene (eller) skriptnavnene som skal kjøres umiddelbart etter gjeldende jobb for å fullføre prosessen.
- Frekvens: Den gir informasjon om hvor ofte jobben skal utføres, dvs. daglig, ukentlig (eller) månedlig.
# 12) Transformasjonsmetadata: Transformasjonsmetadata lagrer all ETL-prosessrelatert konstruksjonsinformasjon. Hver eneste manipulasjon av data i ETL-prosessen er kjent som datatransformasjon.
Ethvert sett med funksjoner, lagrede prosedyrer, markører, variabler og sløyfer i ETL-prosessen kan betraktes som transformasjoner. Men slike transformasjoner kan ikke dokumenteres separat som metadata.
Hele ETL-prosessen er bygget opp med datatransformasjoner. Få transformasjoner i ETL kan forhåndsdefineres og brukes på tvers av DW-systemet. ETL-utviklere bruker tiden sin på å bygge (eller) behandle alle datatransformasjonene på nytt. Å gjenbruke de forhåndsdefinerte transformasjonene under utviklingen av ETL-prosessen vil øke arbeidet.
Les gjennom datatransformasjonene nedenfor som du finner i ETL:
- Ekstraksjoner av kildedata: Dette innebærer datatransformasjoner som skal leses fra kildesystemdata, for eksempel et SQL Select-spørsmål (eller) FTP (eller) som leser XML / mainframe-data.
- Surrogate nøkkelgeneratorer: Det nye sekvensnummeret som skal genereres for hver rad i databasetabellen, lagres som metadata.
- Oppslag: Oppslag kan dannes med alle IN-setningene, indre sammenføyninger og ytre sammenføyninger. Disse brukes hovedsakelig til å holde surrogatnøklene fra alle de respektive dimensjonstabellene mens du laster inn et faktum.
- Filtre: Filtre anbefales for å sortere ut dataene som skal ekstraheres, lastes inn og avvises i ETL-prosessen. Filtrering av data i de tidlige stadiene av ETL-systemet er god praksis. Filtre brukes avhengig av forretningsregler (eller) begrensninger.
- Aggregater: Avhengig av nivået på datagranulariteten, kan metadata relatert til samlede funksjoner brukes som sum, telling, gjennomsnitt osv.
- Oppdater strategier: Dette er reglene som brukes på en post mens du oppdaterer dataene. Hvis det er noen endringer i eksisterende data, vil dette indikere om en post skal legges til, slettes (eller) oppdateres.
- Target Loader: Target loader vil lagre detaljene i databasen, tabellnavn og kolonnenavn som dataene skal lastes inn gjennom ETL-prosessen. Videre vil dette også lagre detaljene i bulklastverktøyet hvis det er noe som utføres mens data lastes inn i ETL-systemet.
Hver transformasjon kan navngis særegen med et kort notat om formålet.
Noen eksempler på navngivningskonvensjoner er her skissert for listen over transformasjoner ovenfor.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Metadata Repository I ETL
Et metadatalager er et sted hvor en hvilken som helst type metadata lagres i en lokal database (eller) i en virtuell database. Hver type metadata, for eksempel forretningsmetadata (eller) tekniske metadata, kan skilles logisk i et depot.
I tillegg til de to ovennevnte typene, har depotet også en komponent til som heter Informasjonsnavigator.
Informasjonsnavigator kan brukes til å utføre oppgavene nedenfor:
- Grensesnitt fra spørringsverktøyet: Dette gir et grensesnitt til søkeverktøyene for å få tilgang til DW-metadata.
- Bor ned for detaljer: Dette lar brukeren bore ned metadata for mer detaljert informasjon. Som et eksempel, på første nivå, kan brukeren få en datatabeldefinisjon. Ved å bore ned kan han få tabellattributtene på neste nivå. Ved å bore ned dataene mer kan han få detaljene for hvert attributt osv.
- Gjennomgå forhåndsdefinerte spørsmål og rapporter: Dette lar brukeren gjennomgå forhåndsdefinerte spørsmål og rapporter. Dette fungerer som en referanse til rammespørsmål alene med passende parametere etc.
Bildearbeid av Metadata Repository:
Hvordan kan datalagringsmetadata håndteres?
Mennesker, prosesser og verktøy er nøkkelkildene for å administrere metadata.
- Folk bør forstå metadataene for riktig bruk.
- Prosessen vil inkludere metadata i verktøy (eller) depot med fremdriften i DW-livssyklusen for fremtidig bruk.
- Etterpå kan metadata administreres av verktøy.
Utfordringer for metadataadministrasjon
Når metadataene er opprettet, kan du møte utfordringene nedenfor mens du integrerer og administrerer metadata i systemet.
- Å ta forskjellige metadataformater til et standardformat kan trenge mer innsats hvis forskjellige verktøy brukes i DW-systemet, fordi metadata kan lagres på tvers av regneark, applikasjoner (eller) databaser.
- Metadataformater har ingen etablerte industristandarder. Med denne mangelen på standardiserte prosesser er det vanskelig å sende metadata gjennom forskjellige nivåer av DW-systemet og verktøyene.
- Det er en komplisert oppgave å vedlikeholde ulike versjoner av historiske metadata.
Hva er metadata-drevet ETL?
Metadata-drevet ETL etablerer et lag for å forenkle datalastingsprosessen til et DW-system. Du kan bestemme om du vil behandle dataene til systemet (eller ikke), avhengig av metadataene. Derfor kan du kalle det er som metadatadrevet ETL.
Konklusjon
Den viktige rollen som Metadata har for å bestemme suksess (eller) svikt i et DW-system ble forklart i detalj i denne veiledningen.
Vi utforsket også betydningen, rollen, eksemplene, typene, utfordringene til metadata i detalj sammen med den aktuelle billedlige fremstillingen.
hva er en json fil hvordan man åpner
Vi håper disse informative opplæringene fra denne Data Warehouse-serien beriket din kunnskap om datavarehus og relaterte konsepter !!!
Glad lesning !!
=> Besøk her for å lære datalagring fra riper.
Anbefalt lesing
- Data Warehouse Testing Tutorial med eksempler | ETL Testing Guide
- ETL Testing Tutorial Data Warehouse Testing Tutorial (En komplett guide)
- Dimensjonal datamodell i datalager - veiledning med eksempler
- Data Mart Tutorial - Typer, eksempler og implementering av Data Mart
- Hva er ETL-prosess (pakke ut, transformere, laste) i datalageret?
- De 10 beste verktøyene for datakarting som er nyttige i ETL-prosessen (2021 LIST)
- Data Mining Eksempler: De vanligste applikasjonene av Data Mining 2021
- ETL Testing Intervju Spørsmål og svar