oracle data warehouse
Oracle Data Warehouse Guide med fordeler, arkitektur, risiko og sammenligning med OLTP (Online Transaction Processing) System:
I forrige opplæring av Omfattende guide til Oracle , vi har lært om Oracle-produkter og -tjenester på forskjellige domener, for eksempel applikasjoner, databaser, operativsystem osv. Denne artikkelen vil gi inngående kunnskap om Oracle Data Warehousing. Men før det, la oss først forstå begrepet Business Intelligence (BI).
Business Intelligence
Business Intelligence er et programvaredomen som inneholder visse metoder, teknologier, verktøy og applikasjoner som hjelper til med å strukturere, raffinere og transformere bulkdata til et intelligent og forståelig format som kan brukes av kunder for å generere tilpassede rapporter og hjelper også til å ta forretninger avgjørelser.
Forskjellige alternativer er tilgjengelige for å betjene dette behovet som datalager, OLAP (online transaksjonsbehandling), datautvinning, dataintegrering, beslutningsteknikk, regneark, etc.
Enterprise Data Warehousing (EDW) er en av kjernekomponentene i BI som betjener bedriftens analytiske og rapporteringsbehov. Data Warehouse er et Relational Database Management System (RDBMS), som inneholder konsoliderte data mottatt fra flere kilder for senere bruk.
hvilket av følgende er banen til ‘ta et skjermbilde’ -knapp?
Hva du vil lære:
- Oracle Data Warehouse Oversikt
- Sammenligning av OLTP Vs Data Warehouse
- Kontrasterende datalager og datamart
- Oversikt over ETL-prosessen
- Datavarehusarkitektur
- Konklusjon
Oracle Data Warehouse Oversikt
Hvorfor blir det kalt 'Data Warehouse'?
La oss prøve å huske betydningen av ordet 'lager' for å forholde oss til begrepet 'Data Warehouse'.
Et fysisk lager er et lager som brukes til å lagre varer mottatt fra forskjellige kilder, som senere kan leveres til kunden basert på deres behov.
(bilde kilde )
Tilsvarende er datalageret et lager med data mottatt fra forskjellige kildesystemer. Disse kildene kan være hvilke som helst lagringssystemer som datamarkeringer, flate filer eller andre medielagringsenheter som inneholder data for forskjellige virksomhetsdomener som HR, salg, drift, ressursadministrasjon og markedsføring, etc.
Formålet med å ha et datalager
En bedrift har kanskje hørt om begrepet datalager, men de kan være usikre på om de skal inkludere den som er i bedriften. Likevel vil det alltid være behov for å dumpe data fra forskjellige kilder på felles grunnlag og arkivere dem slik at lagringsplass kan frigjøres fra transaksjonssystemer. Det er her Data Warehousing-systemet blir et forretningskrav.
For å vokse i markedet, bør ledelsen være god til å ta beslutninger som man bare kan ta etter å ha studert de tidligere trendene i en organisasjon grundig. Derfor blir disse arkiverte dataene vedlikeholdt i datalageret i et godt organisert og beregnet format, slik at de kan henvises for forretningsanalyse i fremtiden.
Fordeler med datalagring
Data Warehouse hvis implementert med suksess kan være gunstig på følgende måter:
#1) Det har forenklet jobbene til analytikere ved å levere en forbedret versjon av business intelligence-løsninger. Den trekker ut data fra flere kildesystemer, transformerer og lagrer dem som kan spørres direkte av virksomheten for analyse.
Det tilbyr også forskjellige verktøy som støtter følgende:
- Generering av tilpassede forretningsrapporter.
- Interaktive dashboards som viser nødvendig informasjon.
- Mulighet til å bore ned gjennom instrumentbord bare for å få detaljene.
- Data Mining & Trend Analysis.
#to) Selv etter å ha mottatt data fra forskjellige kildesystemer, forblir data i et datalager konsistente som et resultat av transformasjoner som skjedde under ETL-prosessen. Konsekvente data gir tillit til en beslutningstaker når det gjelder nøyaktighet.
# 3) Datalager er også definert som en tidsbesparelse, da kritiske data som kreves av interessenter for å ta forretningsbeslutninger er tilgjengelige på ett sted og lett kan hentes.
# 4) Disse er designet for å inneholde historiske data og kan derfor spørres for å studere trender i forskjellige tidsperioder. Det hjelper også interessenter med å utlede den fremtidige vekstveien.
Risiko involvert i bruk av datalager
I tillegg til fordeler, innebærer hver ny implementering også et sett med risikoer som må tas hånd om.
Nedenfor er noen av risikoen involvert:
- Hvis kildesystemer ikke er kompatible med datalagringssystemet, kan det ende opp med å gjøre mye manuelt arbeid.
- Feil tidsestimering av ETL-prosessen kan føre til avbrutt arbeid.
- Dette er meget avanserte lagringssystemer og trenger derfor høyt vedlikehold. Enhver arbeidsflyt eller forretningsendringer kan koste veldig høyt.
- Å sette opp et datalager er tidskrevende, da det trenger mye tid å forstå forretningsstrømmer og identifisere integrasjonsmuligheter for å designe et lager.
- Datasikkerhet er alltid en risiko her, da den inneholder eldgamle historiske data som, hvis de lekkes, kan påvirke virksomheten.
Sammenligning av OLTP Vs Data Warehouse
Forskjellene mellom OLTP og Data Warehouse kan forstås fra tabellen nedenfor.
OLTP | Datavarehus |
---|---|
Sett inn og oppdateringer er de viktigste operasjonene utført av sluttbrukere på OLTP-systemer. | Datavarehus blir hovedsakelig spurt med SELECT-setningen og kan bare oppdateres ved hjelp av ETL-tjenester. |
OLTP-systemer støtter forretningstransaksjoner. | Data Warehouse støtter forretningsbeslutninger tatt etter å ha analysert fullførte forretningstransaksjoner. |
Data forblir ustabile, dvs. fortsetter å endres | Data skal ikke endres. |
De har de nyeste dataene. | De har de historiske dataene. |
Holder rådataene uten beregninger. | Har oppsummert og godt beregnet data. |
Data blir normalisert. | Data vil forbli normalisert. |
Størrelsen på Oracle-databasen kan variere fra 50 MB til 100 GB. | Størrelsen på Oracle-databasen kan variere fra 100 GB til 2 TB. |
Kontrasterende datalager og datamart
Data Warehouse og DataMart, er ikke begge begrepene hørbare ut og virker relatert til datalagring.
Ja, de er beslektede, og begge brukes til å lagre data. Hovedforskjellen mellom dem begge er kapasiteten til å holde dataene, og denne forskjellen hjelper sluttbrukere med å velge riktig lagringsenhet for systemene deres.
Data Mart har mindre kapasitet til å lagre data sammenlignet med datalageret, og kan derfor betraktes som en delmengde av det. Datamarkeringer identifiseres vanligvis for å lagre begrensede data som kan være fra en bestemt avdeling eller bransje, mens datalager kan brukes til å holde konsoliderte data for alle.
La oss ta et eksempel på et netthandelsnettsted som har forskjellige kategorier for varer som mote, tilbehør, husholdningsartikler, bøker og skoleartikler, elektronikkapparater, etc.
testplaneksempel for webapplikasjon
Så, Data Marts kan utformes for å lagre produktdata kategorisk, mens datalager kan brukes til å lagre komplette nettsteddata inkludert historie på ett sted.
Data marts er mindre i størrelse, de kan opprettes mye raskere uten mye analyse som er nødvendig for å designe et datalager. Imidlertid tar det mye arbeid å holde flere datamarkeringer synkronisert for å opprettholde datakonsistensen.
Oversikt over ETL-prosessen
ETL (Extraction, Transformation, and Loading) er en prosess for å trekke ut data fra forskjellige kildesystemer, transformere og laste dem til Data Warehouse-systemet. Det er en kompleks prosess som må samhandle med en rekke kildesystemer for datautvinning, og dermed også teknisk utfordrende.
Transformasjon trenger igjen mye analyse for å forstå formatet til kildesystemene og bringe data til det vanlige formatet slik at de samme dataene kan lagres i datalageret.
ETL-prosessen er en tilbakevendende jobb som kan kjøre daglig, ukentlig eller til og med månedlig, avhengig av forretningskravet.
Datavarehusarkitektur
La oss forstå arkitekturen til et datavarehus som hovedsakelig er designet for å lagre raffinerte data for forhåndsdefinerte forretningskrav. Arkitekturen består av 5 komponenter med dataflyt fra topp til bunn.
Komponentene er som følger:
- Datakilder
- Datastaging
- Datalager (datalagring)
- Datamarsj (datalagring)
- Datapresentasjon
La oss forstå alle trinnene som er oppført ovenfor en etter en.
# 1) Datakilder
Det er forskjellige kildesystemer som fungerer som input til datalagersystemer.
Disse kildesystemene kan være:
- Relasjonsdatabaser som Oracle, DB2, MySQL, MS Access, etc. som kan brukes til å registrere daglige transaksjoner i enhver organisasjon. Disse daglige forretningstransaksjonene kan være relatert til ERP, CRM, salg, økonomi og markedsføring, etc.
- Flate filer
- nettjenester
- RSS-feeder og lignende kilder.
# 2) Datastaging
Når datakildene er på plass, vil neste trinn være å trekke ut disse dataene fra kildesystemene til lagringsområdet.
Ettersom data er hentet fra forskjellige systemer som følger forskjellige lagringsformater, er det nødvendig å omstrukturere dataene for å bringe dem til et vanlig format. Derfor skjer datatransformasjon som et neste trinn.
Under transformasjon skjer datarensing som inkluderer anvendelse av forretningsregler, filtrering av data, fjerning av redundans, dataformatering, datasortering, etc.
# 3) Datalager (datalagring)
Når dataene er ekstrahert og transformert, vil de lastes inn i et flerdimensjonalt miljø, dvs. Data Warehouse. Nå kan disse behandlede dataene brukes til analyse og andre formål av sluttbrukere.
# 4) Datamerking (datalagring)
Som nevnt ovenfor, er data nå klare til å bli konsumert av sluttbrukere. Det er en valgfri prosess for å opprette Data Marts som neste trinn. Disse datamerkene kan brukes til å lagre oppsummerte data fra en bestemt avdeling eller en virksomhetslinje for dedikert bruk.
For eksempel, separate datamarter kan legges til avdelinger som salg, økonomi og markedsføring, etc. som et neste trinn som vil inneholde spesifikke data og som lar en analytiker utføre detaljerte spørsmål for forretningsbehov. Det forhindrer også alle andre sluttbrukere i å få tilgang til hele lageret og dermed gjør dataene sikre.
# 5) Data Access Tools (Data Presentation)
Det finnes en rekke forhåndsdefinerte Business Intelligence-verktøy som kan brukes av brukere for å få tilgang til datalager eller datamarkeringer. Disse frontend-verktøyene er designet på en ekstremt brukervennlig måte ved å gi brukerne en rekke alternativer for å få tilgang til data.
Alternativene er nevnt nedenfor:
flette sorteringsalgoritme c ++
- Ved å bruke spørringen på Oracle eller andre databaser direkte gjennom SQL.
- Rapportgenerering.
- Utvikler applikasjon.
- Bruke Data Mining verktøy etc.
Få populære lagerverktøy tilgjengelig i markedet er:
- Analytix DS
- Amazon Redshift
- Ab Initio programvare
- Code Futures
- Holistisk datastyring
- Informatics Corporation
Cloud Data Warehousing
Datalager er i overkant anerkjent av verden. Det neste spørsmålet som dukker opp: Bruker vi en optimalisert tilnærming for å distribuere datavarehus?
Deretter ble Cloud Data Warehousing introdusert som tar overtaket på Enterprise Data Warehousing (EDW). Konseptet med skybaserte datavarehus har gitt forskjellige fordeler.
Disse er som følger:
(i) Skalerbarhet: Data på skysystemer kan enkelt skaleres opp og ned uten problemer, mens det tar mye tid og ressurser å utføre skalering på tradisjonelle datalager.
(ii) Kostnadsbesparelse: Skibaserte datalager har gjort en bemerkelsesverdig forskjell i investeringen som kreves for et lageroppsett. De har redusert bulk på forhånd ved å eliminere kostnadene for
-
- Vedlikeholde maskinvare / serverrom.
- Personalet som kreves for vedlikehold.
- Andre driftskostnader.
(iii) Ytelse: Ytelse er en annen faktor som tillot skybaserte systemer å dominere over tradisjonelle. Hvis virksomheten utvides globalt og det er behov for tilgang til data fra forskjellige deler av verden med raskere behandling, er skybaserte lager best å bruke.
Massively Parallel Processing (MPP) er en av de behandlingsmetodene som brukes av lagre for å oppnå det samme.
(iv) Tilkobling: Som nevnt ovenfor, hvis data trenger tilgang fra flere geografiske steder, trenger brukerne utmerket tilkobling til disse lagrene, og et skybasert lager tilbyr det samme.
Konklusjon
Vi håper dere alle har fått en god ide om Oracle Data Warehousing-systemet etter å ha lest artikkelen ovenfor. Gi oss beskjed hvis du trenger innsikt i et bestemt emne rundt datalagring, slik at vi kan dekke det samme i kommende opplæringsprogrammer.
PREV Opplæring | NESTE veiledning
Anbefalt lesing
- Hva er en datasjø | Data Warehouse vs Data Lake
- Data Warehouse Testing Tutorial med eksempler | ETL Testing Guide
- Topp 10 populære datavareverktøy og testteknologier
- Dimensjonal datamodell i datalager - veiledning med eksempler
- Metadata i Data Warehouse (ETL) forklart med eksempler
- ETL Testing Tutorial Data Warehouse Testing Tutorial (En komplett guide)
- Skjematyper i datalagermodellering - Star & SnowFlake Schema
- Hva er ETL-prosess (pakke ut, transformere, laste) i datalageret?