complete guide big data analytics
Dette er en omfattende guide til Big Data Analytics med brukssaker, arkitektur, eksempler og sammenligning med Big Data og Data Science:
Stor dataanalyse har fått trekkraft fordi selskaper som Facebook, Google og Amazon har satt opp sine egne nye paradigmer for distribuert databehandling og analyse for å forstå kundens tilbøyeligheter for verdiutvinning fra big data.
I denne veiledningen forklarer vi big data-analyse og sammenligner den med Big Data og Data Science. Vi vil dekke de nødvendige attributtene som bedrifter trenger å ha i sin big data-strategi og metodikken som fungerer. Vi vil også nevne de nyeste trendene og noen brukstilfeller av dataanalyse.
Som vist i bildet nedenfor, krever Analytics at man bruker IT-ferdigheter, forretningsferdigheter og datavitenskap. Big data-analyse er sentralt i å benytte seg av verdier fra big data, og det hjelper med å få forbruksinnsikt for en organisasjon.
[bilde kilde ]
Hva du vil lære:
- Hva er Big Data Analytics
- Konklusjon
Hva er Big Data Analytics
Big Data Analytics tar for seg bruk av en samling av statistiske teknikker, verktøy og prosedyrer for analyse til Big Data.
Anbefalt Lesing => Introduksjon til store data
Det er analysene som hjelper til med å hente ut verdifulle mønstre og meningsfull innsikt fra big data for å støtte dataledet beslutningstaking. Det er på grunn av fremveksten av nye datakilder som sosiale medier og IoT-data at store data og analyser har blitt populære.
Denne trenden gir opphav til et praksis- og studieområde som kalles ”datavitenskap” som omfatter teknikker, verktøy, teknologier og prosesser for datautvinning, rengjøring, modellering og visualisering.
Big Data Vs Big Data Analytics Vs Data Science
TIL sammenligning mellom big data, data science og big data analytics kan forstås fra nedenstående tabell.
Basis | Stor Data | Datavitenskap | Big Data Analytics |
---|---|---|---|
Verktøy og teknologier | Hadoop Ecosystem, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Data Wrapper, Lumify, HPCC, Qubole, Microsoft HDInsight |
Arbeidsroller og ferdigheter | Oppbevaring av lagringsinfrastruktur, databehandling og kunnskap om Hadoop og integrering med andre verktøy. | Datatransformasjon, Data Engineering, Data Wrangling, Data Modeling, og Visualization | BI og avansert analyse, statistikk, datamodellering og maskinlæring, matematikkferdigheter, kommunikasjon, rådgivning. |
Betegnelser | Big Data Architect Big Data Developer Big Data Engineer | Data Scientist Machine Learning Engineer | Big Data Analyst Forretningsanalytiker Business Intelligence Engineer Business Analytics-spesialist Datavisualiseringsutvikler Analytics Manager |
Ca. Gjennomsnittlig årslønn i USD | 100.000 | 90.000 | 70.000 |
Foreslått lesing = >> Datavitenskap mot datavitenskap
Hva hver Big Data Analytics-strategi burde ha
En veldefinert, integrert og omfattende strategi bidrar til og støtter verdifull datadrevet beslutningstaking i en organisasjon. I denne delen har vi listet opp de mest kritiske trinnene som må vurderes når vi definerer en strategi for stor dataanalyse.
Trinn 1: Vurdering
En vurdering, som allerede er tilpasset forretningsmålene, krever involvering av sentrale interessenter, opprett et team av medlemmer med riktig ferdighetssett, evaluering av policyer, mennesker, prosesser og teknologi og data. Om nødvendig kan man involvere kunder av vurderte i denne prosessen.
Trinn 2: Prioritering
Etter vurderingen må man utlede brukstilfeller, prioritere dem ved bruk av prediktiv analyse av store data, reseptiv analyse og kognitiv analyse. Du kan også bruke et verktøy som prioriteringsmatrisen og videre filtrere brukssakene ved hjelp av tilbakemelding og innspill fra sentrale interessenter.
Trinn 3: veikart
I dette trinnet er det nødvendig å lage en tidsbundet veikart og publisere den for alle. En veikart må inneholde alle detaljene angående kompleksitet, midler, iboende fordeler med brukssakene og kartlagte prosjekter.
Trinn 4: Endringsledelse
Implementering av endringsledelse krever at man administrerer datatilgjengelighet, integritet, sikkerhet og brukervennlighet. Et effektivt endringsstyringsprogram, ved bruk av eksisterende datastyring, stimulerer aktiviteter og medlemmer basert på kontinuerlig overvåking.
Trinn 5: Riktig ferdighetssett
Å identifisere riktig ferdighetssett er avgjørende for organisasjonens suksess blant dagens trender i bransjen. Derfor må man følge de rette lederne og ta med opplæringsprogrammer for å utdanne kritiske interessenter.
Trinn 6: Pålitelighet, skalerbarhet og sikkerhet
Riktig tilnærming og effektiv strategi for stor dataanalyse gjør analyseprosessen pålitelig, med effektiv bruk av tolkbare modeller som involverer datavitenskapelige prinsipper. En stor dataanalysestrategi må også inkludere sikkerhetsaspekter helt fra begynnelsen for en robust og tett integrert analyserørledning.
Datarørledning og prosess for dataanalyse
Når du planlegger for dataanalyserørledningen, er det tre grunnleggende aspekter man må vurdere. Disse er som følger:
- Inngang: Dataformat og valg av teknologi å behandle, er det basert på dataens underliggende natur. dvs. om data er tidsserier og kvalitet.
- Produksjon: Valg av kontakter , rapporter og visualisering avhenger av den tekniske ekspertisen til sluttbrukere og deres datakonsumkrav.
- Volum: Skaleringsløsninger er planlagt basert på datamengden for å unngå overbelastning på det store databehandlingssystemet.
La oss nå diskutere en typisk prosess og trinnene for en big data analytics pipeline.
Trinn 1: Inntak av data
Inntak av data er det første og viktigste trinnet i datarørledningen. Den vurderer tre aspekter av data.
- Datakilde - Det er viktig med hensyn til valget av arkitekturen til big data pipeline.
- Datastruktur - Serialisering er nøkkelen til å opprettholde en homogen struktur på tvers av rørledningen.
- Renslighet av data - Analytics er like bra som dataene uten problemer som manglende verdier og outliers, etc.
Trinn 2: ETL / lager
Den neste viktige modulen er datalagringsverktøy for å utføre ETL (Extract Transform Load). Datalagring i et riktig datasenter avhenger av,
- Maskinvare
- Ledelseskompetanse
- Budsjett
[bilde kilde ]
Noen tidstestede verktøy for ETL / lager i datasentre er:
- Apache Hadoop
- Apache Hive
- Apache Parkett
- Presto Query-motor
Skyselskaper som Google, AWS, Microsoft Azure tilbyr disse verktøyene mot betaling per basis og sparer innledende kapitalutgifter.
Trinn 3: Analytics og visualisering
Tatt i betraktning Hadoops begrensning på rask spørring, må man bruke analytiske plattformer og verktøy som tillater rask og ad hoc-spørring med den nødvendige visualiseringen av resultatene.
>> Anbefalt lesing: Big Data-verktøy
Trinn 4: Overvåking
Etter å ha satt opp en infrastruktur for inntak, lagring og analyse med visualiseringsverktøy, er neste trinn å ha IT- og dataovervåkingsverktøy å overvåke. Disse inkluderer:
- CPU- eller GPU-bruk
- Minne og ressursforbruk
- Nettverk
Noen verktøy det er verdt å vurdere er:
- Datadog
- Grafana
Overvåkingsverktøy er uunnværlige i en stor dataanalyserørledning og hjelper med å overvåke kvaliteten og integriteten til rørledningen.
Big Data Analytics-arkitektur
Arkitekturdiagrammet nedenfor viser hvordan moderne teknologier bruker både ustrukturerte og strukturerte datakilder for Hadoop & Map-redusert prosessering, in-memory analytiske systemer og sanntidsanalyser for å gi kombinerte resultater for sanntidsoperasjoner og beslutningstaking.
[bilde kilde ]
Nåværende trender innen dataanalyse
I denne delen har vi listet opp de essensielle aspektene du må se etter når du implementerer eller følger trender innen big data-analyse i bransjen.
# 1) Store datakilder
Det er primært tre kilder til Big Data. Disse er vervet nedenfor:
- Sosiale data: Data generert på grunn av bruk av sosiale medier. Disse dataene hjelper til med å forstå følelser og kundenes oppførsel og kan være nyttig i markedsføringsanalyse.
- Maskindata: Disse dataene er hentet fra industrielt utstyr og applikasjoner som bruker IoT-sensorer. Det hjelper med å forstå folks oppførsel og gir innsikt i prosesser .
- Transaksjonsdata: Den genereres som et resultat av både frakoblede og online aktiviteter for brukere angående betalingsordrer, fakturaer, kvitteringer, etc. Det meste av denne typen data trenger forbehandling og rengjøring før den kan brukes til analyse.
# 2) SQL / NoSQL datalagring
Sammenlignet med tradisjonelle databaser eller RDBMS viser NoSQL-databaser seg å være bedre for oppgaver som kreves for stordataanalyse.
NoSQL-databaser kan iboende håndtere ustrukturerte data ganske bra og er ikke begrenset til dyre skjemaendringer, vertikal skalering og forstyrrelse av ACID-egenskaper.
# 3) Forutsigende analyse
Predictive Analytics tilbyr tilpasset innsikt som fører organisasjoner til å generere nye kundesvar eller kjøp og kryssalgsmuligheter. Organisasjoner bruker prediktiv analyse for å forutsi individuelle elementer på granulære nivåer for å forutsi fremtidige resultater og forhindre potensielle problemer. Dette er videre kombinert med historiske data og omgjort til forskriftsmessig analyse.
Noen områder der forutsigbar analyse av big data har blitt brukt med suksess, er forretning, barnevern, kliniske beslutningsstøttesystemer, porteføljeprognoser, spådommer på økonominivå og forsikring.
# 4) Dyp læring
Big data er overveldende for konvensjonell databehandling. Det viser seg at tradisjonelle maskinlæringsteknikker for dataanalyse flater ut i ytelse med økningen i variasjon og datamengde.
Analytics står overfor utfordringer med hensyn til formatvariasjoner, høyt distribuerte inngangskilder, ubalanserte inngangsdata og hurtiggående streamingdata, og Deep learning-algoritmer takler slike utfordringer ganske effektivt.
Dyp læring har funnet sin effektive bruk i semantisk indeksering, gjennomføring av diskriminerende oppgaver, semantisk bilde og videomerking, sosial målretting, og også i hierarkiske læringsmetoder på flere nivåer innen gjenkjenning av data, datamerking, informasjonsinnhenting og naturlig språk. behandling.
# 5) Datasjøer
Å lagre forskjellige datasett i forskjellige systemer og kombinere dem for analyse med tradisjonelle datahåndteringsmetoder er dyrt og nesten umulig. Derfor lager organisasjoner Data Lakes, som lagrer data i sitt rå, opprinnelige format for handlingsbar analyse.
Bildet nedenfor viser et eksempel på datasjø i big-data-arkitekturen.
[bilde kilde ]
Big Data Analytics bruker
Vi har vervet noen vanlige brukssaker nedenfor:
# 1) Kundeanalyse
Big Data Analytics er nyttig for ulike formål, for eksempel mikromarkedsføring, en-til-en-markedsføring, finere segmentering og massetilpasning for kundene i en bedrift. Bedrifter kan lage strategier for å tilpasse produktene og tjenestene sine i henhold til kundenes tilbøyelighet til å selge eller kryssalg et lignende eller annet utvalg av produkter og tjenester.
# 2) Operasjonsanalyse
Operasjonsanalyse hjelper deg med å forbedre den generelle beslutningstaking og forretningsresultater ved å utnytte eksisterende data og berike den med maskinen og IoT-data.
For eksempel, stor dataanalyse i helsevesenet har gjort det mulig å møte utfordringer og nye muligheter knyttet til optimalisering av helsetjenester, forbedre overvåking av kliniske studier, forutsi og planlegge svar på sykdomsepidemier som COVID-19.
# 3) Forebygging av svindel
Big data-analyse er sett på med potensialet til å gi en enorm fordel ved å bidra til å forutse og redusere svindelforsøk, primært i finans- og forsikringssektoren.
For eksempel, Forsikringsselskaper fanger opp sanntidsdata om demografi, inntjening, medisinske krav, advokatutgifter, vær, stemmeopptak fra en kunde og kundesenter. Spesifikke sanntidsdetaljer hjelper med å utlede prediktive modeller ved å kombinere informasjonen nevnt ovenfor med historiske data for å identifisere spekulerte falske påstander tidlig.
# 4) Prisoptimalisering
Bedrifter bruker big data-analyse for å øke fortjenestemarginene ved å finne den beste prisen på produktnivå, og ikke på kategorinivå. Store selskaper synes det er for overveldende å få detaljerte detaljer og kompleksiteten i prisvariabler, som endres regelmessig for tusenvis av produkter.
En analytisk drevet prisoptimaliseringsstrategi, for eksempel dynamisk avkastningsskåring, gjør det mulig for bedrifter å sette priser for klynger av produkter og segmenter basert på deres data og innsikt i individuelle avtalsnivåer for å score raske gevinster fra krevende kunder.
ofte stilte spørsmål
Spørsmål nr. 1) Er analyse av big data en god karriere?
Svar: Det er en merverdi for enhver organisasjon, slik at den kan ta informerte beslutninger og gi et forsprang på konkurrentene. Et Big Data karriere trekk øker sjansen din for å bli en sentral beslutningstaker for en organisasjon.
Spørsmål 2) Hvorfor er stor dataanalyse viktig?
Svar: Det hjelper organisasjoner med å skape nye vekstmuligheter og helt nye kategorier av produkter som kan kombinere og analysere bransjedata. Disse selskapene har god informasjon om produktene og tjenestene, kjøpere og leverandører, forbrukerpreferanser som kan fanges og analyseres.
Spørsmål 3) Hva kreves for analyse av stordata?
Svar: Utvalget av teknologier som en god big data-analytiker må være kjent med er enorm. For at man skal mestre Big Data-analyse, krever det en forståelse av forskjellige verktøy, programvare, maskinvare og plattformer. For eksempel, Regneark, SQL-spørringer og R / R Studio og Python er noen grunnleggende verktøy.
På bedriftsnivå er verktøy som MATLAB, SPSS, SAS og Congnos viktige i tillegg til Linux, Hadoop, Java, Scala, Python, Spark, Hadoop og HIVE.
Objektive spørsmål:
Q # 4) Hvilke av databasene nedenfor er ikke en NoSQL-database?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Svar: PostgreSQL
Q # 5) Er Cassandra en NoSQL?
- ekte
- Falsk
Svar: ekte
Sp # 6) Hvilket av følgende er ikke Hadoops eiendom?
forskjell mellom tilregnelighet og røykprøving
- Åpen kilde
- Basert på Java
- Distribuert behandling
- Sanntid
Svar: Sanntid
Q # 7) Velg alle aktivitetene som IKKE utføres av en dataforsker.
- Bygg maskinlæringsmodeller og forbedre ytelsen deres.
- Evaluering av statistiske modeller for å validere analyser
- Oppsummer avanserte analyser ved hjelp av datavisualiseringsverktøy
- Presentasjon av resultater av teknisk analyse for interne team og forretningskunder
Svar: Presentasjon av resultater av teknisk analyse for interne team og forretningskunder
Videre lesing = >> Viktige forskjeller mellom dataanalytiker og datavitenskapsmann
Q # 8) Hvilke aktiviteter utføres av en dataanalytiker?
- Rydde opp og organisere rådata
- Finne interessante trender i data
- lage dashbord og visualiseringer for enkel tolkning
- Alt ovenfor
Svar: Alt ovenfor
Sp # 9) Hvilket av følgende utføres av en dataingeniør?
- Integrering av nye datakilder til den eksisterende dataanalyserørledningen
- Utviklingen av API-er for dataforbruk
- overvåking og testing av systemet for fortsatt ytelse
- Alt ovenfor
Svar: Alt ovenfor
Q # 10) Den korrekte dataflyten for analyse er
- Datakilder, Dataforberedelse, Datatransformasjon, Algoritmedesign, Dataanalyse
- Datakilder, datatransformasjon, algoritmedesign, dataforberedelse, dataanalyse
- Datakilder, Algoritmedesign, Klargjøring av data, Datatransformasjon, Dataanalyse
- Datakilder, Utarbeidelse av data, Algoritmedesign, Datatransformasjon, Dataanalyse
Svar: Datakilder, Dataforberedelse, Datatransformasjon, Algoritmedesign, Dataanalyse
Q # 11) Dataanalyse er en lineær prosess.
- ekte
- Falsk
Svar: Falsk
Q # 12) Undersøkende analyse er IKKE
- Svar innledende dataanalysespørsmål i detalj
- Bestem problemer med datasettet
- Utvikle en skisse av svaret på spørsmålet
- Bestem om dataene er korrekte for å svare på et spørsmål
Svar: Svarinnledende dataanalysespørsmål i detalj
Q # 13) Prediksjonsspørsmål er et annet navn gitt til et inferensielt spørsmål.
- ekte
- Falsk
Svar: Falsk
Konklusjon
Vi dekket de viktigste aspektene ved stor dataanalyse. Vi forklarte de vanligste brukssakene og trendene i big data-analyseindustrien for å høste maksimale fordeler.
Anbefalt lesing
- Topp 7 BEST Data Analytics-selskaper i 2021 [Oppdatert 2021-liste]
- Topp 15 Big Data Tools (Big Data Analytics Tools) i 2021
- 10 beste verktøy for dataanalyse for perfekt datahåndtering [2021 LISTE]
- Topp 10 Data Science-verktøy i 2021 for å eliminere programmering
- Big Data Tutorial for nybegynnere | Hva er Big Data?
- Topp 13 beste store dataselskaper i 2021
- 10 beste datamodelleringsverktøy for å håndtere komplekse design
- 10+ beste datastyringsverktøy for å oppfylle dine behov i 2021