big data tutorial beginners what is big data
Denne veiledningen forklarer alt om Big Data Basics. Opplæringen inkluderer fordeler, utfordringer, teknologier og verktøy sammen med bruk av Big Data:
I denne digitale verden med teknologiske fremskritt, utveksler vi store datamengder daglig som i Terabyte eller petabyte .
Hvis vi utveksler den mengden data daglig, må vi også vedlikeholde den og lagre den et sted. Løsningen for å håndtere store datamengder med høy hastighet og ulik variasjon er Stor Data.
Den kan håndtere komplekse data som kommer fra flere kilder som forskjellige databaser, nettsteder, widgets, etc. Det kan også lenke til og matche dataene som kommer fra forskjellige kilder. Det gir faktisk raskere tilgang til dataene ( For eksempel, sosiale medier).
Liste over opplæringsprogrammer i denne Big Data-serien
Opplæring # 1: Hva er Big Data? (Denne veiledningen)
Opplæring # 2: Hva er Hadoop? Apache Hadoop opplæring for nybegynnere
Opplæring # 3: Hadoop HDFS - Hadoop distribuert filsystem
Opplæring # 4: Hadoop Architecture And HDFS Commands Guide
Opplæring # 5: Hadoop MapReduce-opplæring med eksempler | Hva er MapReduce?
Opplæring # 6: Apache Hadoop Garnopplæring for nybegynnere | Hva er garn?
Opplæring # 7: Omfattende Hadoop-testveiledning | Big Data Testing Guide
Hva du vil lære:
Hva er Big Data?
Ordet Huge er ikke nok til å forklare BigData, visse egenskaper klassifiserer dataene i BigData.
salgssted programvare for ipad
Vi har tre hovedegenskaper ved BigData, og hvis noen data tilfredsstiller disse egenskapene, vil de bli behandlet som BigData. Jeg t er kombinasjonen av de tre V-ene som er nevnt nedenfor:
- Volum
- Hastighet
- Variasjon
Volum : Dataene skal ha et stort volum. Big Data har løsningen for å opprettholde en stor mengde data som finnes i Terabyte eller Petabyte. Vi kan utføre CRUD (Create, Read, Update, and Delete) operasjoner på BigData enkelt og effektivt.
Hastighet : Det er ansvarlig for raskere tilgang til data. For eksempel, i dag trenger sosiale medier en rask utveksling av data innen en brøkdel av tiden, og BigData er den beste løsningen for det. Derfor er hastighet en annen egenskap, og det er behandlingshastigheten til data.
Variasjon : I sosiale medier har vi å gjøre med ustrukturerte data som lyd- eller videoopptak, bilder osv. Dessuten trenger forskjellige sektorer som banksektoren strukturerte og semistrukturerte data. BigData er løsningen for å opprettholde begge typer data på ett sted.
Variasjon betyr forskjellige typer data som strukturerte / ustrukturerte data som kommer fra flere kilder.
Strukturerte data : Dataene som har en riktig struktur eller den som enkelt kan lagres i tabellform i alle Relasjonsdatabaser som Oracle, SQL Server eller MySQL er kjent som Structured Data. Vi kan behandle eller analysere det enkelt og effektivt.
Et eksempel på strukturerte data er dataene som er lagret i en relasjonsdatabase som kan administreres ved hjelp av SQL (Structured Query Language). For eksempel, Ansattedata (navn, ID, betegnelse og lønn) kan lagres i tabellformat.
I en tradisjonell database kan vi bare utføre operasjoner eller behandle ustrukturerte eller semistrukturerte data etter at de er formatert eller passer inn i relasjonsdatabasen. Eksempler av strukturerte data er ERP, CRM, etc.
Semistrukturerte data: Semistrukturerte data er dataene som ikke er fullstendig formatert. Den lagres ikke i datatabeller eller i noen database. Men likevel kan vi enkelt klargjøre det og behandle det da disse dataene inneholder koder eller komma-atskilte verdier, etc. Eksempel av semistrukturerte data er XML-filer, CSV-filer, etc.
Ustrukturerte data: Ustrukturerte data er dataene som ikke har noen struktur. Det kan være i hvilken som helst form, det er ingen forhåndsdefinerte datamodeller. Vi kan ikke lagre det i tradisjonelle databaser. Det er komplisert å søke og behandle det.
Volumet av ustrukturerte data er også veldig høyt. Eksempel av ustrukturerte data er e-post, lyd, video, bilder, oppnådde dokumenter, etc.
Utfordringer med tradisjonelle databaser
- Den tradisjonelle databasen støtter ikke en rekke data, det vil si at den ikke kan håndtere ustrukturerte og semistrukturerte data.
- En tradisjonell database er treg når du håndterer en stor mengde data.
- I tradisjonelle databaser er bearbeiding eller analyse av store datamengder veldig vanskelig.
- En tradisjonell database kan lagre data i terabyte eller petabyte.
- En tradisjonell database kan ikke håndtere historiske data og rapporter.
- Etter en viss tid er dataopprydding av databasen nødvendig.
- Kostnaden for å opprettholde en stor datamengde er veldig høy med en tradisjonell database.
- Datanøyaktigheten er mindre i den tradisjonelle databasen, da fullstendige historiske data ikke opprettholdes i den.
Stor DataFordeler over tradisjonell database
- Big Data er ansvarlig for å håndtere, administrere og behandle forskjellige typer data som Structured, Semi-structured og Unstructured.
- Det er kostnadseffektivt når det gjelder å opprettholde en stor mengde data. Det fungerer på et distribuert databasesystem.
- Vi kan lagre store datamengder i lang tid ved hjelp av BigData-teknikker. Så det er enkelt å håndtere historiske data og generere nøyaktige rapporter.
- Databehandlingshastigheten er veldig rask, og dermed bruker sosiale medier Big Data-teknikker.
- Datanøyaktighet er en stor fordel med Big Data.
- Det lar brukerne ta effektive beslutninger for virksomheten sin basert på nåværende og historiske data.
- Feilhåndtering, versjonskontroll og kundeopplevelse er veldig effektive i BigData.
Foreslått lesing => Big Data vs Big Data Analytics vs Data Science
Utfordringer og risikoer i BigData
Utfordringer:
- En av de største utfordringene i Big Data er å håndtere store datamengder. I dag kommer data til et system fra forskjellige kilder med variasjon. Så det er en veldig stor utfordring for selskapene å administrere det riktig. For eksempel, for å generere en rapport som inneholder de siste 20 årene med data, krever det å lagre og vedlikeholde de siste 20 årene med data i et system. For å gi en nøyaktig rapport er det nødvendig å bare legge inn relevante data i systemet. Den skal ikke inneholde irrelevante eller unødvendige data, ellers vil det være en stor utfordring for selskapene å opprettholde den datamengden.
- En annen utfordring med denne teknologien er synkronisering av ulike typer data. Som vi alle vet støtter Big Data strukturerte, ustrukturerte og semistrukturerte data som kommer fra forskjellige kilder, det er veldig vanskelig å synkronisere dem og få konsistens i data.
- Den neste utfordringen bedriftene står overfor er gapet mellom eksperter som kan hjelpe og implementere problemene de står overfor i systemet. Det er et stort gap i talent på dette feltet.
- Håndteringsaspektet er dyrt.
- Datainnsamling, aggregering, lagring, analyse og rapportering av BigData koster enormt. Organisasjonen skal kunne håndtere alle disse kostnadene.
Risiko:
- Den kan håndtere en rekke data, men hvis selskaper ikke kan forstå kravene riktig og kontrollere datakilden, vil det gi feil resultater. Som et resultat vil det trenge mye tid og penger for å undersøke og korrigere resultatene.
- Datasikkerhet er en annen risiko med BigData. Med et høyt volum data er det større sjanser for at noen vil stjele det. Datahackere kan stjele og selge viktig informasjon (inkludert historiske data) om selskapet.
- Også personvern er en annen risiko for BigData. Hvis vi vil sikre personlige og sensitive data fra hackere, bør de beskyttes og må overholde alle personvernreglene.
Big Data Technologies
Følgende er teknologiene som kan brukes til å administrere Big Data:
- Apache Hadoop
- Microsoft HDInsight
- Ingen SQL
- Hive
- Sqoop
- BigData i Excel
En detaljert beskrivelse av disse teknologiene vil bli dekket i våre kommende opplæringsprogrammer.
Verktøy for å bruke big data-konsepter
Nedenfor er åpen kildekodeverktøy som kan hjelpe deg med å bruke Big Data-konsepter:
# 1) Apache Hadoop
# 2) Lumify
# 3) Apache Storm
# 4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) HPCC System BigData
Anvendelser av Big Data
Følgende er domenene der den brukes:
- Bank
- Media og underholdning
- Helsepersonell
- Forsikring
- utdanning
- Detaljhandel
- Produksjon
- Myndighetene
BigData og datalager
Data Warehouse er et grunnleggende konsept som vi trenger å forstå før vi diskuterer Hadoop eller BigData Testing.
topprangerte youtube til mp3-omformer
La oss forstå Data Warehouse fra et sanntidseksempel. For eksempel , det er et selskap som har etablert sine filialer i tre forskjellige land. La oss anta en filial i India, Australia og Japan.
I hver gren lagres hele kundedataene i den lokale databasen. Disse lokale databasene kan være normale klassiske RDBMSer som Oracle eller MySQL eller SQL Server etc., og alle kundedata vil bli lagret i dem daglig.
Nå, hvert kvartal, halvår eller år, ønsker organisasjonen å analysere disse dataene for forretningsutvikling. For å gjøre det samme, vil organisasjonen samle alle disse dataene fra flere kilder og deretter sette dem sammen på ett sted, og dette stedet kalles 'Datavarehus'.
Data Warehouse er en slags database som inneholder alle data hentet fra flere kilder eller flere databasetyper gjennom “ETL” (hvilken er den ER ekstrakt, T ransform og L oad) prosess. Når dataene er klare i datalageret, kan vi bruke dem til analytiske formål.
Så for analyse kan vi generere rapporter fra dataene som er tilgjengelige i datavarehuset. Flere diagrammer og rapporter kan genereres ved hjelp av Business Intelligence Tools.
Vi krever datavarehus for analytiske formål for å utvide virksomheten og ta passende beslutninger for organisasjonene.
ved hjelp av matriser i funksjoner c ++
Tre ting skjer i denne prosessen, for det første har vi hentet dataene fra flere kilder og plassert den på et sted som er Data Warehouse.
Her bruker vi “ETL” -prosessen, og når vi laster dataene fra flere kilder til ett sted, vil vi bruke dem i Transformation-røtter, og så kan vi bruke forskjellige typer ETL-verktøy her.
Når dataene er klare i Data Warehouse, kan vi generere forskjellige rapporter for å analysere forretningsdataene ved hjelp av Business Intelligence (BI) -verktøy, eller vi kaller dem også Rapporteringsverktøy. Verktøyene som Tableau eller Cognos kan brukes til å generere rapporter og dashboards for å analysere dataene for virksomheten.
OLTP og OLAP
La oss forstå hva OLTP og hva OLAP er?
Databaser som vedlikeholdes lokalt og brukes til transaksjonsformål kalles OLTP, dvs. online transaksjonsbehandling. De daglige transaksjonene lagres her og oppdateres umiddelbart, og det er grunnen til at vi kalte dem OLTP-systemet.
Her bruker vi tradisjonelle databaser, vi har flere tabeller og det er forhold, og dermed planlegges alt systematisk i henhold til databasen. Vi bruker ikke disse dataene til analytiske formål. Her kan vi bruke klassiske RDMBS-databaser som Oracle, MySQL, SQL Server, etc.
Når vi kommer til Data Warehouse-delen, bruker vi Teradata eller Hadoop Systems, som også er en slags database, men dataene i et DataWarehouse brukes vanligvis til analytiske formål og kalles OLAP eller Online analytisk behandling.
Her kan dataene oppdateres kvartalsvis, halvårlig eller årlig. Noen ganger oppdateres dataene også 'Offerly', hvor Offerly betyr at dataene oppdateres og hentes for analyse etter kundens behov.
Dataene for analyse oppdateres heller ikke daglig fordi vi vil få dataene fra flere kilder, på en planlagt basis, og vi kan utføre denne ETL-oppgaven. Slik fungerer Online Analytical Processing System.
Også her kan BI-verktøy eller rapporteringsverktøy generere rapporter så vel som dashboards, og basert på dette vil forretningsfolk ta beslutninger for å forbedre virksomheten.
Hvor kommer BigData inn i bildet?
BigData er dataene som ligger utenfor lagring og behandlingskapasitet for konvensjonelle databaser, og de er i strukturert og ustrukturert format, slik at de ikke kan håndteres av lokale RDBMS-systemer.
Denne typen data vil bli generert i TeraBytes (TB) eller PetaBytes (PB) eller videre, og den øker raskt i dag. Det er flere kilder for å få denne typen data som Facebook, WhatsApp (som er relatert til sosiale nettverk); Amazon, Flipkart relatert til e-handel; Gmail, Yahoo, Rediff relatert til e-post og Google og andre søkemotorer. Vi får også bigdata fra mobiltelefoner som SMS-data, samtaleopptak, samtalelogger, etc.
Konklusjon
Big data er løsningen for å håndtere store datamengder effektivt og sikkert. Det er også ansvarlig å vedlikeholde historiske data. Det er mange fordeler med denne teknologien, og derfor vil hvert selskap bytte til Big data
Forfatter: Vaishali Tarey, teknisk leder @ Syntel
Anbefalt lesing
- Data Mart Tutorial - Typer, eksempler og implementering av Data Mart
- Topp 10 databasedesignverktøy for å bygge komplekse datamodeller
- 20+ MongoDB-opplæring for nybegynnere: Gratis MongoDB-kurs
- Hva er en datasjø | Data Warehouse vs Data Lake
- Topp 10 strukturerte datatestings- og valideringsverktøy for SEO
- Dimensjonal datamodell i datalager - veiledning med eksempler
- Data Mining: Prosess, teknikker og store problemer i dataanalyse
- Hvordan utføre datadrevet testing i SoapUI Pro - SoapUI Tutorial # 14