what is data lake data warehouse vs data lake
Denne opplæringen forklarer alt om Data Lake inkludert behovet, definisjonen, arkitekturen, fordelene og forskjellene mellom Data Lake vs Data Warehouse:
Begrepet ‘Data Lake’ brukes ganske ofte i dagens IT-verden. Har du noen gang lurt på hva det er og hvor begrepet akkurat kommer fra?
I informasjonsteknologiens tidsalder der data forsterker dag og natt i mange former, blir begrepet data lake absolutt viktig og nyttig.
La oss utforske hva en datasjø er og hva er fordelene, bruken osv. I detalj her.
Hva du vil lære:
- Hva er en datasjø og hvordan fungerer den?
- Konklusjon
Hva er en datasjø og hvordan fungerer den?
En datasjø er et system eller sentralisert datalager som lar deg lagre alle dine strukturerte, semistrukturerte, ustrukturerte og binære data i sitt naturlige / opprinnelige / råformat.
Strukturerte data kan inkludere tabeller fra RDBMS; semistrukturerte data inkluderer CSV-filer, XML-filer, logger, JSON osv .; ustrukturerte data kan omfatte PDF-filer, orddokumenter, tekstfiler, e-post osv .; og binære data kan omfatte lyd-, video-, bildefiler.
Den følger en flat arkitektur for lagring av data. Generelt lagres data i form av objektblobber eller filer.
(bilde kilde )
Med en datasjø kan du lagre hele bedriften slik den er på ett sted, uten behov for å først strukturere dataene. Du kan direkte utføre de forskjellige typene analyser på den, inkludert maskinlæring, sanntidsanalyse, lokal databevegelse, sanntids databevegelse, dashboards og visualiseringer.
Den holder alle dataene i den opprinnelige formen og forutsetter at analysen vil skje senere, på forespørsel.
Analogy Of Data Lake
(bilde kilde )
Begrepet Data Lake ble laget av James Dixon, daværende CTO i Pentaho. Han definerer datamart (et delsett av et datalager) som ligner på en vannflaske fylt med renset, destillert vann, pakket og strukturert for direkte og enkel bruk.
På den annen side er den analog med en vannmasse i sin naturlige form. Data strømmer fra bekkene (ulike forretningsfunksjoner / kildesystemer) til sjøen. Forbrukere av data lake, dvs. brukere har tilgang til innsjøen for å analysere, undersøke, samle prøver og dykke inn.
Akkurat som vannet i sjøen tilfredsstiller forskjellige behov for mennesker som fiske, båtliv, drikkevann osv., Tjener datasjøarkitekturen flere formål.
selskaper som er involvert i internett av ting
En dataforsker kan bruke den til å utforske dataene og lage en hypotese. Det gir en mulighet for dataanalytikere til å analysere data og oppdage mønstre. Det gir en modus for forretningsbrukere og interessenter til å utforske data.
Det gir også en mulighet for rapporteringsanalytikere til å utforme rapporter og presentere dem for virksomheten. Tvert imot har datalageret pakket data for veldefinerte formål, akkurat som en bisleri-flaske som bare kan brukes til drikkevann.
Data Lake Market - Vekst, trender og spådommer
Data Lake-markedet er delt på grunnlag av produkt (løsning eller service), distribusjon (on-prem eller cloud), klienters industri (detaljhandel, bank, verktøy, forsikring, IT, helsevesen, telekom, publisering, produksjon) og geografisk regioner.
I henhold til rapporten publisert av Mordor Intelligence, nedenfor er øyeblikksbildet for data lake:
(bilde kilde )
# 1) Sammendrag av markedet
Data Lakes Market ble vurdert til 3,74 milliarder dollar i 2019 og forventes å berøre 17,60 milliarder dollar innen 2025, til en CAGR (sammensatt årlig vekstrate) på 29,9% over fremskrivningsperioden 2020 - 2025.
Disse datareservoarene viser seg i økende grad som et økonomisk alternativ for mange organisasjoner over datalager. I motsetning til datasjøer krever datalagring ytterligere behandling av data før du går inn i lageret.
Kostnadene ved å administrere en datasjø er mindre sammenlignet med et datalager på grunn av mye prosessering og det er nødvendig med plass for å lage databasen for lagre.
# 2) Store spillere
Det er spådd at Data Lake-markedet vil være et konsolidert marked dominert av de fem nøkkelaktørene som vist på bildet nedenfor.
kvalitetsanalytiker intervju spørsmål og svar pdf
# 3) Viktige trender
- Bruken forventes å vokse betydelig i banksektoren. Bankene vedtar datasjøer for å levere på farten analyser. Det hjelper også til å oppløse mange siloer i banksektoren.
- Siden det er en enorm økning i digitale betalinger / bruk av mobillommebøker over hele verden, øker muligheten for stor dataanalyse og dermed muligheten for dem.
- Det forventes at Nord-Amerika vil ha høy adopsjon for datasjøer. En studie utført av Capgemini sier at over 60% av finansorganisasjonene i USA mener at big data-analyse fungerer som en differensierer for virksomheten og gir dem et konkurransefortrinn. Over 90% av organisasjonene føler at investering i big data-prosjekter øker sjansene for suksess i fremtiden.
- De kreves for bruk av applikasjoner for smarte målere, og i USA forventes det at rundt 90 millioner smarte målere vil bli installert i 2021. Derfor er det en forventet høy etterspørsel etter dem.
Hvorfor kreves Data Lake?
Hensikten med en datasjø er å gi et ubehandlet syn på data (data i sin reneste form).
Eksempler
I dag har mange store selskaper, inkludert Google, Amazon, Cloudera, Oracle, Microsoft og noen få flere data lake-tilbud.
Mange organisasjoner bruker skylagringstjenester som Azure Data Lake eller Amazon S3. Bedrifter bruker også et distribuert filsystem som Apache Hadoop. Konseptet med en persondatasjø som lar deg administrere og dele dine egne store data har også utviklet seg.
Hvis vi snakker om industriell bruk, passer den veldig godt til helsedomenet. På grunn av det ustrukturerte formatet til mange data i helsetjenester ( For eksempel, Legeanmerkninger, kliniske data, pasientens sykdomshistorie osv.) Og kravet til sanntidsinnsikt, en datasjø er et flott alternativ over datalager.
Det tilbyr fleksible løsninger også i utdanningssektoren der dataene er veldig store og veldig rå.
I transportsektoren, hovedsakelig innen forsyningskjedestyring eller logistikk, hjelper det med å komme med spådommer og realisere kostnadsbesparende fordeler.
Luftfart og elektrisk kraftindustri bruker også datasjøer.
Et eksempel på implementeringen er GE Predix (utviklet av General Electric), som er en industriell data lake-plattform som tilbyr sterk datastyringskompetanse for å opprette, distribuere og styre industrielle applikasjoner som lenker til industrielle eiendeler, samle og analysere data og gi sanntid innsikt for forbedring av industriell infrastruktur og prosesser.
Forskjellen mellom Data Warehouse og Data Lake
Ofte har folk det vanskelig å forstå hvordan en innsjø er forskjellig fra et datalager. De hevder også at det er det samme som datalageret. Men dette er ikke virkeligheten.
Det eneste fellestrekket mellom datasjøen og datalageret er at begge er datalagringsregister. Hvil, de er forskjellige. De har forskjellige brukssaker og formål.
Forskjellene er avklart nedenfor:
Data Lake | Datavarehus | |
---|---|---|
Analytics | En datasjø kan brukes til maskinlæring, dataprofilering av dataoppdagelse og prediktiv analyse. | Et datalager kan brukes til Business Intelligence, visualiseringer og batchrapportering. |
Data | En Data Lake vil beholde alle rådataene i den. Det kan være strukturert, ustrukturert eller semi-strukturert. Det kan være mulig at noen av dataene i datasjøen aldri skal brukes. | Et datavarehus inneholder bare de dataene som behandles og raffineres, dvs. strukturerte data som er nødvendige for rapportering og løsning av spesifikke forretningsproblemer. |
Brukere | Generelt er brukerne av en datasjø dataforskere og datautviklere. | Generelt er brukerne av datalageret forretningsfolk, operasjonelle brukere og forretningsanalytikere. |
tilgjengelighet | Datasjøen er lett tilgjengelig og enkel og rask å oppdatere fordi de ikke har noen struktur. | I datalageret er oppdatering av data en mer komplisert og kostbar operasjon fordi datalager er strukturert etter design. |
Skjema | Skjema på skriving. Designet før DW-implementeringen. | Skjema-på-les. Skrevet på tidspunktet for analysen. |
Arkitektur | Flat arkitektur | Hierarkisk arkitektur |
Hensikt | Formålet med rådata lagret i datasjøer er ikke fast eller er ubestemt. Noen ganger kan dataene strømme inn i en datasjø med tanke på spesifikk fremtidig bruk eller bare for å ha dataene hendige. Datasjøen har mindre organiserte og mindre filtrerte data. | De behandlede dataene som er lagret i datalageret har et spesifikt og bestemt formål. En DW har organisert og filtrert data. Derfor krever det mindre lagringsplass enn datasjøen. |
Oppbevaring | Designet for billig lagring. Maskinvaren til datasjøen er veldig forskjellig fra maskinvaren til datalageret. Den bruker hyllevare-servere kombinert med billig lagring. Dette gjør datasjøen ganske økonomisk og skalerbar til terabyte og petabyte. Dette gjøres for å oppbevare alle dataene i en datasjø, slik at du når som helst kan gå tilbake til tiden for å gjøre analyser. | Dyrt for store datamengder. Datalageret har dyr disklagring for å gjøre det svært performant. Derfor, for å spare plass, blir datamodellen forenklet, og bare dataene som virkelig kreves for å ta forretningsbeslutninger blir lagret på datalageret. |
Støtte for datatyper | A Data Lake støtter veldig godt ikke-tradisjonelle datatyper som serverlogger, sensordata, sosiale nettverksaktiviteter, tekst, bilder, multimedia osv. Alle data lagres uavhengig av kilde og struktur. | Generelt består et datalager av data hentet fra transaksjonssystemer. Den støtter ikke veldig godt de ikke-tradisjonelle datatypene. Lagring og forbruk av ikke-tradisjonelle data kan være dyrt og vanskelig med datalageret. |
Sikkerhet | Sikkerheten til datasjøene er på 'modning' stadium siden dette er et relativt nytt konsept enn datalageret. | Sikkerheten til datalager er på det 'modne' stadiet. |
Smidighet | Svært smidig; konfigurere og konfigurere på nytt etter behov. | Mindre smidig; fast konfigurasjon. |
Data Lake Architecture
Arkitektur diagram
Ovenfor er det konseptuelle arkitekturdiagrammet til datasjøen. Til venstre kan du se at vi har datakildene som kan være strukturerte, semistrukturerte eller ustrukturerte.
Disse datakildene kombineres til en rå datalager som bruker opp data i sin råform, dvs. data uten transformasjoner. Dette er billig, permanent og skalerbar lagring.
Deretter har vi analytiske sandkasser som kan brukes til dataoppdagelse, utforskende dataanalyse og prediktiv modellering. I utgangspunktet brukes dette av dataforskere til å utforske data, bygge ny hypotese og definere brukstilfeller.
Deretter er det en batchbehandlingsmotor som behandler rådataene til brukervennlig form, dvs. i et strukturert format som kan brukes til rapportering til sluttbrukere.
Så har vi en sanntids prosesseringsmotor som tas i streaming av data og transformerer den.
Viktige kjennetegn ved Data Lake
For å bli klassifisert som Data Lake, bør et stort datalager ha følgende tre attributter:
Nr. 1) Et enkelt felles datalager som vanligvis ligger i et distribuert filsystem (DFS).
Hadoop-data sørger for å opprettholde data i sin opprinnelige form og fange opp endringer i data og relativ semantikk i løpet av datas livssyklus. Denne tilnærmingen er spesielt gunstig for samsvarskontroller og interne revisjoner.
Dette er en forbedring over det konvensjonelle Enterprise Data Warehouse der når data går gjennom transformasjoner, aggregeringer og modifikasjoner, er det vanskelig å sette data som en helhet når det er nødvendig, og bedrifter streber etter å finne ut kilden / opprinnelsen til dataene.
# 2) Inkluderer planleggings- og jobbplanleggingsfunksjoner (for eksempel gjennom ethvert planleggerverktøy som Garn, etc.).
Arbeidsmengdeutførelse er et viktig behov for bedrift Hadoop og YARN tilbyr ressursadministrasjon og en sentral plattform for å gi konstante prosesser, sikkerhet og datastyringsverktøy i Hadoop-klynger, og sørger for at analytiske arbeidsflyter har det nødvendige nivået på datatilgang og datakraft.
# 3) Omfatter settet med verktøy og funksjoner som kreves for å konsumere, behandle eller jobbe med dataene.
Enkel og rask tilgjengelighet for brukere er et av hovedtrekkene i en datasjø, fordi organisasjoner lagrer dataene i sin opprinnelige eller rene form.
Uansett hvilken form dataene er, dvs. strukturerte, ustrukturerte eller semistrukturerte, settes de inn som de er i datasjøen. Det lar dataeiere kombinere kunde-, leverandør- og driftsdata ved å kvitte seg med tekniske eller politiske barrierer for deling av data.
fordeler
(bilde kilde )
- Allsidig : Kompetent nok til å lagre alle slags strukturerte / ustrukturerte data, alt fra CRM-data til sosiale nettverksaktiviteter.
- Mer fleksibilitet i skjemaet : Trenger ikke planlegging eller forkunnskap om dataanalyse. Den lagrer alle dataene som de er i originalform og forutsetter at analysen vil skje senere, på forespørsel. Dette er veldig nyttig for OLAP. For eksempel, Hadoop-datasjøen tillater deg å være skjemafri der du kan koble skjema fra data.
- Sanntids avgjørelsesanalyse : De nyter fordelen av en enorm mengde konsistente data og dyplæringsalgoritmer for å nå sanntids beslutningsanalyser. Kan oppnå verdi fra ubegrensede datatyper.
- Skalerbar: De er langt mer skalerbare enn tradisjonelle datalager, og de er også billigere.
- Avansert analyse / kompatibilitet med SQL og andre språk: Med datasjøer er det mange måter å søke på dataene på. I motsetning til tradisjonelle datalager som bare støtter SQL for enkel analyse, gir de deg mange andre alternativer og språkstøtte for å analysere data. De er også kompatible med maskinlæringsverktøy som Spark MLlib.
- Demokratisere data: Demokratisert tilgang til data gjennom en enkelt, integrert visning av data i hele organisasjonen mens du bruker en effektiv datastyringsplattform. Dette sikrer all tilgjengeligheten av data.
- Bedre kvalitet på dataene: Samlet sett får du bedre kvalitet på data med innsjøer gjennom teknologiske fordeler som datalagring i eget format, skalerbarhet, allsidighet, skjemafleksibilitet, støtte for SQL og andre språk og avansert analyse.
Utfordringer og risikoer
Datasjøer gir mange fordeler. Men ja, det er også noen utfordringer og risikoer forbundet med dem som en organisasjon trenger å ta opp nøye.
De er:
- Hvis de ikke er skikkelig designet, kan de forvandles til datasumper. Noen ganger ender organisasjoner bare med å dumpe ubegrensede data i disse innsjøene uten noen strategi og hensikt i tankene.
- Noen ganger har analytikerne som vil bruke dataene ingen kunnskap om hvordan de skal gjøre det, da det er ganske utfordrende å drive gruvedrift i datasjøer. Dermed mister de relevans og fart etter en stund. Organisasjoner må jobbe for å fjerne denne barrieren for analytikere.
- Siden vi har mange uorganiserte data i datasjøer, er de ikke ferske eller aktuelle nok til å brukes i produksjonen. Derfor forblir dataene i disse innsjøene i pilotmodus og blir aldri satt i produksjon.
- Ustrukturerte data kan føre til ubrukelige data.
- Noen ganger opplever organisasjoner at det ikke har noen betydelig innvirkning på virksomheten med hensyn til investeringene som er gjort. Dette krever en tankegangsendring. For at konsekvenser skal oppstå, må bedrifter oppfordre ledere og ledere til å ta beslutninger basert på analysene som er hentet fra disse datareservoarene.
- Sikkerhet og tilgangskontroll er også en av risikoen når du jobber med dem. Noen av dataene som kan ha personvern og forskrifter som kreves, blir plassert i datasjøer uten tilsyn.
Gjennomføring
I en bedrift er det ganske fornuftig å gjøre implementeringen av datasjøen på en smidig måte.
Det vil si at å først implementere en Data Lake MVP får den testet av brukerne med hensyn til kvalitet, enkel tilgang, lagring og analytiske evner, motta tilbakemeldinger og deretter legge på de komplekse kravene og funksjonene for å gi verdi til innsjøen.
Vanligvis gjennomgår en organisasjon de fire grunnleggende trinnene for implementering:
(bilde kilde )
1. stadie:
The Basic Data Lake: På dette stadiet legger teamet seg ned på den grunnleggende arkitekturen, teknologien (skybasert eller arv) og sikkerhets- og styringspraksis for datasjøen. Den er laget i stand til å lagre alle rådataene som kommer fra forskjellige kilder og kombinere interne og eksterne data for å levere beriket informasjon.
Fase 2:
Sandkassen: Forbedring av analytisk evne: På dette stadiet får dataforskerne tilgang til datareservoaret for å utføre foreløpige eksperimenter for å bruke rådata og utforme analytiske modeller for å møte forretningsbehov.
Trinn 3:
mest populære operativsystemene for PC-er
Datavarehus og Data Lake-samarbeid: På dette stadiet begynner organisasjonen å bruke datasjø i synergi med eksisterende datalager. Data med lav prioritet sendes til dem slik at lagringsgrensen for datalager ikke overskrides.
Det presenterer et potensial for å produsere innsikt fra kalde data eller spørre den for å oppdage informasjon som ikke er indeksert av konvensjonelle databaser.
Trinn 4:
End to End-adopsjon av Data Lake: Dette er det siste trinnet og modenhetsoppkjøpet der det blir et nøkkelelement i organisasjonens dataarkitektur og effektivt direkte søkeoperasjon. På dette tidspunktet ville datasjøen ha erstattet EDW, og de ble den eneste kilden til alle bedriftsdataene.
En organisasjon kan gjøre følgende gjennom datasjøen:
- Lag komplekse datamodellerings- og analyseløsninger for forskjellige forretningsbehov.
- Design interaktive dashboards som konsoliderer forståelse fra datasjøen pluss forskjellige applikasjons- og datakilder.
- Implementere avanserte analyse- eller robotikkprogrammer, da det håndterer beregningsoperasjoner.
På dette punktet har den også sterke sikkerhetstiltak.
Data Lake-leverandører
Det er forskjellige leverandører som tilbyr data lake-verktøy i bransjen.
(bilde kilde )
Hvis vi ser på de store selskapene:
- Databehandling gir et intelligent data lake verktøy. BDM (Big Data Management) 10.2.2 er den siste tilgjengelige versjonen.
- Det er en leverandør som heter looker som også leverer verktøyet.
- Firmaet Talend som er populært for deres ETL-verktøy, gir også Data Lake-verktøyet.
- Deretter har vi et åpen kildekodeverktøy kalt Kylo fra Teradata selskap. Teamet kalt 'Think Big' team i Teradata-selskapet har utviklet dette verktøyet.
- Firmaet Fatdata Inc tilbyr også disse tjenestene.
- Fra Microsoft , du kan finne Azure data lake tilgjengelig i bransjen.
- Hvr-programvare gir også data lake konsolidering løsninger.
- Podiumdata, et Qlik-selskap leverer verktøyprodukter som data lake pipelines, multi-zone data lake.
- Snøfnugg har også et data lake-produkt.
- Zaloni er et datasjøfirma som håndterer enorme data ved hjelp av Big Data.
Så alt dette er de populære tjenesteleverandørene og leverandørene av slike verktøy.
Hvis du er ute etter å øve og bygge kunnskapen din om datasjøer, kan du gå til Informatica eller Kylo. Hvis du leter etter en skybasert tjeneste, kan du velge Looker, Informatica og Talend. Disse tre leverandørene leverer AWS cloud data lakes. Du kan også få en 1 måned gratis prøveperiode fra Kylo.
Konklusjon
I denne opplæringen diskuterte vi konseptet med datasjøen i detalj. Vi gikk gjennom den grunnleggende ideen bak datasjøen, dens arkitektur, nøkkelegenskaper, fordeler, sammen med eksemplene, brukssaker osv.
Vi så også hvordan en datasjø er forskjellig fra datalageret. Vi dekket også de største leverandørene som tilbyr relaterte tjenester.
Glad lesning !!
Anbefalt lesing
- Veiledning for testing av datavarehus med eksempler | ETL Testing Guide
- Topp 10 verktøy for testing og validering av strukturerte data for SEO
- Data Mining: Prosess, teknikker og store problemer i dataanalyse
- Data Mart Tutorial - Typer, eksempler og implementering av Data Mart
- Topp 10 populære datavareverktøy og testteknologier
- Dimensjonal datamodell i datavarehus - veiledning med eksempler
- 10+ beste datainnsamlingsverktøy med strategier for datainnsamling
- Data Pool Feature i IBM Rational Quality Manager for Test Data Management