data warehousing fundamentals
Lær alt om grunnleggende om datalagring. Denne grundige veiledningen forklarer hva som er datalagring sammen med dets typer, egenskaper, fordeler og ulemper:
Et datalager er den siste lagringstrenden i dagens IT-bransje.
Denne opplæringen skal forklare Hva er et datavarehus? Hvorfor er datalager viktig? Typer datavarehusapplikasjoner, kjennetegn ved et datavarehus, fordeler og ulemper ved datalagring.
Liste over opplæringsprogrammer for datalager i denne serien:
Opplæring # 1: Grunnleggende om datalagring
Opplæring nr. 2: Hva er ETL-prosess i datavarehus?
Opplæring # 3: Testing av datalager
Opplæring # 4: Dimensjonal datamodell i datavarehus
Opplæring # 5: Skjematyper i datalagermodellering
Opplæring # 6: Data Mart Tutorial
Opplæring # 7: Metadata i ETL
Oversikt over opplæringsprogrammer i denne datalagringsserien
Tutorial_Num | Hva du vil lære |
---|---|
Opplæring # 7 | Metadata i ETL Denne opplæringen forklarer rollen med metadata i ETL, eksempler og typer metadata, metadata Repository & Challenges in Metadata Management. |
Opplæring # 1 | Grunnleggende om datalagring Lær alt om Data Warehousing Concepts fra denne veiledningen. Denne dybdeveiledningen forklarer hva datalagring er sammen med dets typer, egenskaper, fortjeneste og ulemper. |
Opplæring # 2 | Hva er ETL-prosess i datavarehus? Denne grundige veiledningen om ETL-prosessen forklarer Process Flow & Steps Involved in the ETL (Extraction, Transformation, and Load) Process in Data Warehouse. |
Opplæring # 3 | Testing av datalager Mål og betydning for datalagertesting, ETL-testansvar, feil i DW og ETL-distribusjon i detalj i denne opplæringen. |
Opplæring # 4 | Dimensjonal datamodell i datavarehus Denne opplæringen forklarer fordelene og mytene til dimensjonal datamodell i datavarehus. Du vil også lære om dimensjonstabeller og faktabord med eksempler. |
Opplæring # 5 | Skjematyper i datalagermodellering Denne opplæringen forklarer forskjellige typer datavarehus. Lær hva som er Star Schema & Snowflake Schema og forskjellen mellom Star & Snowflake Schema. |
Opplæring # 6 | Data Mart Tutorial Denne opplæringen forklarer Data Mart-konsepter, inkludert Data Mart Implementation, Typer, Structure as well as Differences Between Data Warehouse Vs Data Mart. |
Hva du vil lære:
Grunnleggende om datalagring: En komplett guide
Målgruppe
- Datalager / ETL-utviklere og testere.
- Database fagpersoner med grunnleggende kunnskap om databasekonsepter.
- Databaseadministratorer / Big data-eksperter som ønsker å forstå datalagringskonsepter.
- Høyskoleutdannede / Freshers som leter etter jobber med datalager.
Hva er datalagring?
Et datavarehus (DW) er et lager med enorme mengder organisert data. Disse dataene er konsolidert fra en eller flere forskjellige datakilder. DW er en relasjonsdatabase som hovedsakelig er designet for analytisk rapportering og beslutningstaking i organisasjoner i tide.
Dataene for dette formålet er isolert og optimalisert fra kildetransaksjonsdataene, noe som ikke vil ha noen innvirkning på hovedvirksomheten. Hvis en organisasjon innfører noen forretningsendring, blir DW brukt til å undersøke effekten av endringen, og dermed brukes DW også til å overvåke ikke-beslutningsprosessen.
Datalageret er for det meste et skrivebeskyttet system, da driftsdata er veldig skilt fra DW. Dette gir et miljø for å hente den høyeste datamengden med god spørreskriving.
DW vil således fungere som backend-motor for Business Intelligence-verktøy som viser rapportene, dashboards for forretningsbrukerne. DW brukes mye i bank, finans, detaljhandel, etc.
Hvorfor er datalagring avgjørende?
Nedenfor er noen av årsakene til at Data Warehouse er avgjørende.
- Datalageret samler alle operasjonelle data fra flere heterogene kilder med 'forskjellige formater', og gjennom prosessen med å trekke ut, transformere og laste (ETL) laster det dataene inn i DW i et 'standardisert dimensjonalt format' over en organisasjon.
- Datalager opprettholder både 'nåværende data og historiske data' for analytisk rapportering og faktabasert beslutningstaking.
- Det hjelper organisasjoner å ta “smartere og raske beslutninger” om å redusere kostnadene og øke inntektene, ved å sammenligne kvartals- og årsrapporter for å forbedre resultatene.
Typer datalagerapplikasjoner
Business Intelligence (BI) er en gren av datalager designet for beslutningstaking. Når dataene i DW er lastet, spiller BI en viktig rolle ved å analysere dataene og presentere dem for forretningsbrukerne.
Praktisk sett innebærer begrepet 'datalagerapplikasjoner' i hvor mange forskjellige typer dataene kan behandles og brukes.
Vi har tre typer DW-applikasjoner som nevnt nedenfor.
- Informasjonsbehandling
- Analytisk behandling
- Data mining som tjener formålet med BI
# 1) Informasjonsbehandling
Dette er en slags applikasjon der datalageret tillater direkte en-en-kontakt med dataene som er lagret i det.
Ettersom dataene kan behandles ved å skrive direkte spørsmål om dataene (eller) med en grunnleggende statistisk analyse av dataene, og sluttresultatene vil bli rapportert til forretningsbrukerne i form av rapporter, tabeller, diagrammer eller grafer.
DW støtter følgende verktøy for informasjonsbehandling:
(i) Spørringsverktøy: Virksomheten (eller) analytikeren kjører spørsmålene ved hjelp av søkeverktøy for å utforske dataene og generere utdata i form av rapporter eller grafikk i henhold til forretningskravet.
(ii) Rapporteringsverktøy: Hvis virksomheten ønsker å se resultatene i et definert format og på en planlagt basis, dvs. daglig, ukentlig eller månedlig, vil rapporteringsverktøy brukes. Denne typen rapporter kan lagres og gjennomgås når som helst.
(iii) Statistikkverktøy: Hvis virksomheten ønsker å gjøre en analyse av et bredt syn på data, vil statistiske verktøy brukes til å generere slike resultater. Bedrifter kan gjøre konklusjoner og spådommer ved å forstå disse strategiske resultatene.
# 2) Analytisk behandling
Dette er en slags applikasjon der et datalager tillater analytisk behandling av data som er lagret i det. Dataene kan analyseres ved hjelp av følgende operasjoner som Slice-and-Dice, Drill Down, Roll Up og Pivoting.
(i) Slice-and-Dice : Data warehouse tillater slice-and-dice-operasjoner for å analysere dataene som er tilgjengelige fra mange nivåer med en kombinasjon av forskjellige perspektiver. Slice-and-dice-operasjonen internt bruker nedboringsmekanismen. Slicing fungerer på dimensjonale data.
Som en del av forretningskravet, hvis vi fokuserer på et enkelt område, analyserer slicing dimensjonene til det aktuelle området i henhold til kravene og gir resultatene. Dicing fungerer på analytiske operasjoner. Dicing zoomer for et bestemt sett med attributter over alle dimensjonene for å gi forskjellige perspektiver. Dimensjonene vurderes fra en eller flere påfølgende skiver.
(ii) Bor ned : Hvis virksomheten ønsker å gå til et mer detaljert nivå av et sammendragsnummer, er drill down en operasjon for å navigere nedover i sammendraget til mindre detaljerte nivåer. Dette gir en god ide om hva som skjer og hvor virksomheten må fokuseres nærmere.
Bor ned spor fra hierarkinivået til mindre detaljnivå for grunnårsaksanalysen. Dette kan lett forstås med et eksempel da salg ned kan skje fra Landnivå -> Regionnivå -> Statlig nivå -> Distriktsnivå -> Butikknivå.
(iii) Rull sammen : Rull opp fungerer motsatt boringen. Hvis virksomheten vil ha noen oppsummerte data, så kommer roll up inn i bildet. Den samler detaljnivådataene ved å flytte opp i dimensjonshierarkiet.
Roll-ups brukes til å analysere utviklingen og ytelsen til et system.
Dette kan forstås med en Eksempel som i en salgsrulle der totalene kan rulles opp fra Bynivå -> Statlig nivå -> Region nivå -> Landnivå .
(iv) Pivot : Pivoting analyserer dimensjonsdata ved å rotere dataene på kubene. For eksempel, raddimensjonen kan byttes ut i kolonnedimensjonen og omvendt.
# 3) Data Mining
Dette er en slags applikasjon der datalageret tillater kunnskapsfunn av dataene og resultatene vil bli representert med visualiseringsverktøy. I de to ovennevnte applikasjonstypene kan informasjonen drives av brukerne.
spørsmål om kvalitetssikring analytiker jobbintervju
Siden dataene går enormt i forskjellige virksomheter, er det vanskelig å spørre og bore ned datalageret for å få all mulig innsikt i data. Da kommer data mining inn i bildet for å oppnå oppdagelsen av kunnskap.
Dette kjører inn i dataene med alle tidligere assosiasjoner, resultater osv. Og forutsier fremtiden. Derfor er dette datadrevet og ikke brukerdrevet. Dataene kan oppdages ved å finne skjulte mønstre, assosiasjoner, klassifiseringer og spådommer.
Data mining går i dybden med dataene for å forutsi fremtiden. Basert på spådommene, foreslår det også handlingene du må ta.
Nedenfor er de forskjellige aktivitetene i Data Mining:
- Mønstre: Data mining oppdager mønstre som forekommer i databasen. Brukere kan gi forretningsinngangene som forventes noe kunnskap om mønstrene for beslutningstaking.
- Foreninger / forhold: Data mining oppdager forhold mellom objektene med hyppigheten av deres tilknytningsregler. Dette forholdet kan være mellom to eller flere objekter (eller) det kan oppdage reglene innenfor egenskapene til det samme objektet.
- Klassifisering: Data mining organiserer data i et sett med forhåndsdefinerte klasser. Så hvis noe objekt blir plukket opp fra dataene, knytter klassifisering den respektive klassemerket til det objektet.
- Prediksjon: Data mining sammenligner et sett med eksisterende verdier for å finne best mulig fremtidige verdier / trender i virksomheten.
Derfor, basert på alle de ovennevnte resultatene, foreslår Data mining også et sett med tiltak som skal tas.
Kjennetegn ved et datalager
Et datalager er basert på følgende dataegenskaper som emneorientert, integrert, ikke-flyktig og tidsvariant.
# 1) Fagorientert: Vi kan definere et datalager som fagorientert ettersom vi kan analysere data med hensyn til et bestemt emneområde i stedet for anvendelse av kloke data. Dette gir resultater som er mer definert for enkel beslutningstaking. Når det gjelder et utdanningssystem, kan fagområdene være studenter, fag, karakterer, lærere osv.
# 2) Integrert: Dataene i datalageret er integrert fra forskjellige kilder som andre relasjonsdatabaser, flate filer, etc. En så stor mengde data blir hentet for effektiv dataanalyse. Men det kan være datakonflikter da forskjellige datakilder kan være i forskjellige formater. Datalageret bringer alle disse dataene i et konsistent format over hele systemet.
# 3) Ikke-flyktig: Når dataene er lastet inn i datalageret, kan de ikke endres. Logisk er dette akseptabelt, da hyppig endring av data ikke lar deg analysere dataene. De hyppige endringene i den operative databasen kan lastes inn i et datalager på en planlagt basis. I løpet av denne prosessen blir nye data lagt til, men tidligere data blir ikke slettet, og de forblir som historiske data.
# 4) Tidsvariant: Alle de historiske dataene sammen med de nylige dataene i datalageret spiller en avgjørende rolle for å hente data når som helst. Hvis virksomheten vil ha rapporter, grafer osv. For å sammenligne den med de foregående årene og for å analysere trendene, kreves alle gamle data som er 6 måneder gamle, 1 år gamle eller til og med eldre data osv.
Fordeler med et datalager
Når et datalagersystem er produktivt, får en organisasjon følgende fordeler ved å bruke det:
- Forbedret Business Intelligence
- Økt system- og spørringsytelse
- Business Intelligence fra flere kilder
- Rettidig tilgang til data
- Forbedret datakvalitet og konsistens
- Historisk intelligens
- Høy avkastning
# 1) Forbedret Business Intelligence: Tidligere da Data Warehousing og Business Intelligence ikke var inne, brukte forretningsbrukere og analytikere å ta avgjørelsene med en begrenset mengde data og med sin egen magefølelse.
DW & BI har ført til en endring ved å gi innsikt med reelle fakta og med de virkelige organisasjonsdataene som er samlet over en periode. Bedriftsbrukere kan spørre direkte på hvilken som helst av forretningsprosessene som markedsføring, økonomi, salg osv., Basert på deres behov for strategisk beslutningstaking og smarte forretningsbeslutninger.
# 2) Økt system- og spørringsytelse: Datalagring samler stor informasjon fra heterogene systemer og plasserer den under ett system slik at en enkelt søkemotor kan brukes for rask datahenting.
# 3) Forretningsinformasjon fra flere kilder: Vet du hvordan Business Intelligence generelt fungerer på data? Den absorberer data fra flere systemer, delsystemer, plattformer og datakilder for å jobbe med et prosjekt. Imidlertid løser datalager dette problemet for BI ved å konsolidere alle prosjektdataene uten duplikater.
# 4) Tidlig tilgang til data: Bedriftsbrukere vil få fordeler av å bruke mindre tid på datainnhenting. De har noen nyttige verktøy, som de kan spørre om data med minimal teknisk kunnskap og generere rapporter. Dette gjør at forretningsbrukere bruker tilstrekkelig tid på dataanalyse i stedet for datainnsamling.
# 5) Forbedret datakvalitet og konsistens: Datalager forvandler data med forskjellige kildesystemformater til et enkelt format. Derfor kan de samme forretningsenhetene som henter dataene til datalageret, gjenbruke DW-depotet for deres forretningsrapporter og spørsmål.
Fra organisasjonens syn vil derfor alle forretningsenhetene være i stand til å ha konsekvente resultater / rapporter. Dermed hjelper denne gode kvaliteten og de konsistente dataene til å drive en vellykket bedrift.
# 6) Historisk intelligens: Datalager vedlikeholder alle historiske data som ikke vedlikeholdes av noen transaksjonssystemer. Denne store datamengden brukes til å analysere data for spesifikk varighet og til å rapportere dem, og til å analysere trendene for å forutsi fremtiden.
# 7) Høy avkastning (ROI): Alle starter en virksomhet ved å forvente god avkastning på investeringene, når det gjelder større fortjeneste og mindre utgifter. I den virkelige dataverden har mange studier vist at implementering av datalageret og Business Intelligence-systemene genererte høye inntekter og sparte kostnadene.
Nå skal du kunne forstå hvordan et godt designet DW-system gir fordeler for virksomheten din.
Ulemper ved datalagring
Selv om det er et veldig vellykket system, er det godt å kjenne noen av fallgruvene i systemet:
- Å lage et datavarehus er definitivt en tidkrevende og kompleks prosess.
- Vedlikeholdskostnadene er store ettersom systemet trenger kontinuerlige oppgraderinger. Det kan også øke hvis den ikke brukes riktig.
- Riktig opplæring bør gis til utviklere, testere og brukere for å forstå DW-systemet og å implementere det teknisk.
- Det kan være sensitive data som ikke kan lastes inn i DW for beslutningstaking.
- Omstilling av forretningsprosesser (eller) kildesystemer har stor innvirkning på DW.
Konklusjon
Vi håper denne innledende opplæringen ga en bakgrunn for det grunnleggende om datalagring. Vi hadde en grundig titt på alle de grunnleggende konseptene i Data Warehousing.
Vi lærte definisjonen, typene, karakteristikkene, fordelene og ulempene ved datalagring i denne omfattende veiledningen.
=> Les gjennom Easy Data Warehousing Training Series.
Anbefalt lesing
- Data Mining Eksempler: De vanligste applikasjonene av Data Mining 2021
- Hvordan datadrevet testing fungerer (eksempler på QTP og selen)
- Data Mining: Prosess, teknikker og store problemer i dataanalyse
- ETL Testing Data Warehouse Testing Tutorial (En komplett guide)
- Beste GRATIS C # opplæringsserie: The Ultimate C # Guide For Beginners
- Computer Networking Tutorial: The Ultimate Guide
- QTP Opplæring # 18 - Datadrevne og hybridrammer forklart med QTP-eksempler
- 10+ beste datainnsamlingsverktøy med strategier for datainnsamling