top 29 data engineer interview questions
Liste over ofte stilte spørsmål om svar fra svar på dataingeniører og svar for å hjelpe deg med å forberede deg på det kommende intervjuet:
I dag er data engineering det mest ettertraktede feltet etter programvareutvikling, og det har blitt et av de raskest voksende jobbalternativene i verden. Intervjuer vil ha de beste dataingeniørene for teamet sitt, og det er derfor de pleier å intervjue kandidatene grundig. De ser etter visse ferdigheter og kunnskaper. Så du må være forberedt deretter for å oppfylle forventningene deres.
Hva du vil lære:
- Ansvar for en dataingeniør
- Ferdigheter til en dataingeniør
- Ofte stilte spørsmål om dataingeniørintervju
- Konklusjon
Ansvar for en dataingeniør
Ansvaret inkluderer:
- Å håndtere og føre tilsyn med dataene i selskapet.
- Vedlikehold og håndter dataens kildesystem og iscenesettingsområder.
- Forenkle datarensing sammen med påfølgende bygging og forbedring av reduplisering av data.
- Gjør tilgjengelig og utfør både datatransformasjon og ETL-prosess.
- Henter ut og gjør ad-hoc-databehandling.
Ferdigheter til en dataingeniør
Med kvalifikasjoner trenger du også visse ferdigheter. De er begge avgjørende når du forbereder deg på stillingen som dataingeniør. Her lister vi opp de fem beste ferdighetene, uten spesiell rekkefølge, som du trenger for å bli en vellykket dataingeniør.
- Ferdigheter i datavisualisering.
- Python og SQL.
- Datamodelleringskunnskap for både Big Data og Data Warehousing
- Matematikk
- Kunnskap i ETL
- Stor dataromopplevelse
Så du må jobbe med å forbedre disse ferdighetene før du begynner å forberede deg på intervjuet. Og når du har polert ferdighetene dine, er det noen intervjuespørsmål du kan forberede deg på for å få intervjuerne til å legge merke til deg og ansette deg også.
Ofte stilte spørsmål om dataingeniørintervju
Generelle intervjuspørsmål
Q # 1) Hvorfor studerte du dataingeniør?
Svar: Dette spørsmålet har som mål å lære om din utdannelse, arbeidserfaring og bakgrunn. Det kan ha vært et naturlig valg i fortsettelsen av din grad av informasjonssystemer eller informatikk. Eller kanskje du har jobbet i et lignende felt, eller du overgår fra et helt annet arbeidsområde.
Uansett hva historien din kan være, må du ikke holde deg tilbake eller vike unna. Og mens du deler, fortsett å fremheve ferdighetene du har lært underveis og det gode arbeidet du har gjort.
Ikke start historiefortelling. Begynn med utdanningsbakgrunnen din litt, og nå deretter til delen når du visste at du ville bli dataingeniør. Og så fortsett hvordan du kommer hit.
Spørsmål 2) Hva er det tøffeste med å være dataingeniør ifølge deg?
Svar: Du må svare på dette spørsmålet ærlig. Ikke alle aspekter av alle jobbene er enkle, og intervjueren din vet det. Målet med dette spørsmålet er ikke å finne svakheten din, men å vite hvordan du arbeider deg gjennom ting du synes det er vanskelig å takle.
Du kan si noe sånt som: “Som dataingeniør synes jeg det er vanskelig å fullføre forespørselen fra alle avdelingene i et selskap der de fleste ofte kommer med motstridende krav. Så jeg synes ofte det er utfordrende å balansere dem deretter.
Men det har gitt meg et verdifullt innblikk i avdelingenes funksjon og hvilken rolle de spiller i den samlede selskapets struktur. ' Og dette er bare ett eksempel. Du kan og bør sette ditt synspunkt.
Sp # 3) Fortell oss en hendelse der du skulle bringe data sammen fra forskjellige kilder, men møtte uventede problemer, og hvordan løste du det?
Svar: Dette spørsmålet er en mulighet for deg til å demonstrere dine ferdigheter i problemløsing og hvordan du tilpasser deg de plutselige planendringene. Spørsmålet kan adresseres generelt eller spesifikt i sammenheng med datateknikk. Hvis du ikke har vært gjennom en slik opplevelse, kan du levere et hypotetisk svar.
Her er et eksempel på svar: “I mitt forrige franchisefirma skulle jeg og teamet mitt samle inn data fra forskjellige steder og systemer. Men en av franchisene endret systemet uten å gi oss beskjed på forhånd. Dette resulterte i en håndfull problemer for datainnsamling og behandling.
For å løse dette måtte vi først komme med en rask kortsiktig løsning for å få viktige data inn i selskapets system. Og etter det har vi utviklet en langsiktig løsning for å forhindre at slike problemer oppstår igjen.
Sp # 4) Hvordan er jobben til en dataingeniør forskjellig fra en dataarkitekt?
Svar: Dette spørsmålet er ment for å sjekke om du forstår at det er forskjeller i teamet til et datalager. Du kan ikke gå galt med svaret. Ansvaret til dem begge overlapper eller varierer avhengig av hva databasen vedlikeholdsavdelingen eller selskapet trenger.
Du kan si at “i følge min erfaring varierer forskjellen mellom rollene til en dataingeniør og en dataarkitekt fra selskap til selskap. Selv om de jobber veldig tett sammen, er det forskjeller i deres generelle ansvar.
Administrere serverne og bygge arkitekturen til et datasystem til et selskap er en dataarkitekt. Og arbeidet til en dataingeniør er å teste og vedlikeholde den arkitekturen. I tillegg sørger vi, dataingeniører, for at dataene som blir gjort tilgjengelig for analytikerne er av høy kvalitet og pålitelige. ”
Tekniske intervju spørsmål
Sp # 5) Hva er Big Datas fire V-er?
(bilde kilde )
Svar:
De fire V-ene med Big Data er:
- Den første V er Hastighet som er referert til hastigheten som Big Data genereres over tid. Så det kan betraktes som å analysere dataene.
- Den andre V er Variasjon av forskjellige former for Big Data, det være seg innen bilder, loggfiler, mediefiler og stemmeopptak.
- Den tredje V er Volum av dataene. Det kan være antall brukere, antall tabeller, datastørrelse eller antall poster.
- Den fjerde V er Sannhet knyttet til usikkerheten eller sikkerheten til dataene. Med andre ord bestemmer det hvor sikker du kan være om nøyaktigheten av dataene.
Sp # 6) Hvordan skiller strukturerte data seg fra ustrukturerte data?
Svar: Tabellen nedenfor forklarer forskjellene:
Strukturerte data | Ustrukturerte data | |
---|---|---|
7) | Aggregerte data er inneholdt i en enkelt dimensjon. | Data er delt inn i forskjellige dimensjonstabeller. |
1) | Den kan lagres i MS Access, Oracle, SQL Server og andre lignende tradisjonelle databasesystemer. | Den kan ikke lagres i et tradisjonelt databasesystem. |
to) | Den kan lagres i forskjellige kolonner og rader. | Den kan ikke lagres i rader og kolonner. |
3) | Et eksempel på strukturerte data er online søknadstransaksjoner. | Eksempler på ustrukturerte data er tweets, Google-søk, Facebook-likes osv. |
4) | Det kan enkelt defineres innenfor datamodellen. | Det kan ikke defineres i henhold til datamodellen. |
5) | Den leveres med en fast størrelse og innhold. | Den kommer i forskjellige størrelser og innhold. |
Q # 7) Hvilke ETL-verktøy kjenner du til?
Svar: Nevn alle ETL-verktøyene du har jobbet med. Du kan si, “Jeg har jobbet med SAS Data Management, IBM Infosphere og SAP Data Services. Men min foretrukne er PowerCenter fra Informatica. Den er effektiv, har ekstremt høy ytelse og er fleksibel. Kort sagt, den har alle de viktige egenskapene til et godt ETL-verktøy.
De driver jevnlig forretningsdatadrift og garanterer tilgang til data selv når det skjer endringer i virksomheten eller dens struktur. ” Forsikre deg om at du bare snakker om de du har jobbet med og de du liker å jobbe med. Eller det kan tanken på intervjuet ditt senere.
Q # 8) Fortell oss om designskjemaer for datamodellering.
Svar: Datamodellering kommer med to typer designskjemaer.
De forklares som følger:
- Den første er Stjerneplan , som er delt inn i to deler - faktatabellen og dimensjonstabellen. Her er begge bordene koblet sammen. Stjerneskjema er den enkleste datamart-skjemastilen og blir også mest benyttet. Det heter det fordi strukturen ligner en stjerne.
- Den andre er Snøfnuggskjema som er utvidelsen av stjerneskjemaet. Det legger til flere dimensjoner og kalles et snøfnugg fordi strukturen ligner på et snøfnugg.
Sp # 9) Hva er forskjellen mellom stjerneskjema og snøfnuggskjema?
(bilde kilde )
Svar: Tabellen nedenfor forklarer forskjellene:
Stjerneplan | Snøfnuggskjema | |
---|---|---|
1) | Dimensjonstabellen inneholder hierarkiene for dimensjonene. | Det er separate tabeller for hierarkier. |
to) | Her dimensjonstabeller omgir et faktatabell. | Dimensjonstabeller omgir et faktatabell, og deretter er de ytterligere omgitt av dimensjonstabeller. |
3) | Et faktatabell og hvilken som helst dimensjonstabell er koblet sammen med bare en enkelt sammenføyning. | For å hente dataene krever det mange sammenføyninger. |
4) | Den leveres med en enkel DB-design. | Den har en kompleks DB-design. |
5) | Fungerer bra selv med denormaliserte spørsmål og datastrukturer. | Fungerer bare med normalisert datastruktur. |
6) | Dataredundans - høy. | Dataredundans - veldig lav. |
8) | Raskere kubebehandling. | Kompleks sammenføyning reduserer kubebehandlingen. |
Sp # 10) Hva er forskjellen mellom datalager og operativ database?
Svar: Tabellen nedenfor forklarer forskjellene:
Datavarehus | Operasjonell database | |
---|---|---|
7) | Støtter en håndfull OLTP som samtidige klienter. | Støtter mange samtidige kunder. |
1) | Disse er designet for å støtte den analytiske behandlingen av høyt volum. | Disse støtter transaksjonsbehandling av høyt volum. |
to) | Historiske data påvirker et datalager. | Nåværende data påvirker den operative databasen. |
3) | Nye, ikke-flyktige data legges til regelmessig, men forblir sjelden endret. | Data oppdateres regelmessig etter hvert som behovet oppstår. |
4) | Den er designet for å analysere forretningsmessige tiltak etter attributter, fagområder og kategorier. | Den er designet for sanntidsbehandling og forretningsforhold. |
5) | Optimalisert for tunge belastninger og komplekse spørsmål med tilgang til mange rader ved hvert bord. | Optimalisert for et enkelt sett med transaksjoner som å hente og legge til en rad om gangen for hvert bord. |
6) | Den er full av gyldig og konsistent informasjon og trenger ingen validering i sanntid. | Forbedret for validering av innkommende informasjon og bruker valideringstabeller. |
8) | Systemene er hovedsakelig fagorienterte. | Systemene er hovedsakelig prosessorienterte. |
9) | Data ut. | Data i. |
10) | Et stort antall data er tilgjengelig. | Et begrenset antall data er tilgjengelig. |
elleve) | Laget for OLAP, online analytisk prosessering. | Laget for OLTP, online transaksjonsbehandling. |
Q # 11) Pek på forskjellen mellom OLTP og OLAP.
Svar: Tabellen nedenfor forklarer forskjellene:
OLTP | OLAP | |
---|---|---|
7) | Datamengden er ikke veldig stor. | Den har et stort datamengde. |
1) | Brukes til å administrere operasjonelle data. | Brukes til å administrere informasjonsdata. |
to) | Kunder, kontorister og IT-fagpersoner bruker det. | Ledere, analytikere, ledere og andre kunnskapsarbeidere bruker det. |
3) | Det er kundeorientert. | Det er markedsorientert. |
4) | Den håndterer nåværende data, de som er ekstremt detaljerte og brukes til beslutningstaking. | Den administrerer en enorm mengde historiske data. Det gir også fasiliteter for aggregering og oppsummering sammen med administrering og lagring av data på forskjellige nivåer av granularitet. Derfor blir dataene mer komfortable å bli brukt i beslutningsprosesser. |
5) | Den har en databasestørrelse på 100 MB-GB. | Den har en databasestørrelse på 100 GB-TB. |
6) | Den bruker en ER (entity-relationship) datamodell sammen med en databasedesign som er applikasjonsorientert. | OLAP bruker enten et snøfnugg eller en stjernemodell sammen med en databasedesign som er fagorientert. |
8) | Tilgangsmodus - Les / skriv. | Tilgangsmodus er for det meste skrive. |
9) | Fullstendig normalisert. | Delvis normalisert. |
10) | Behandlingshastigheten er veldig rask. | Behandlingshastigheten avhenger av antall filer den inneholder, komplekse spørsmål og oppdatering av batchdata |
Q # 12) Forklar hovedkonseptet bak rammen til Apache Hadoop.
Svar: Den er basert på MapReduce-algoritmen. I denne algoritmen brukes kart- og reduksjonsoperasjoner til å behandle et stort datasett. Kartlegge, filtrere og sortere dataene mens Reduser, oppsummerer dataene. Skalerbarhet og feiltoleranse er nøkkelpunktene i dette konseptet. Vi kan oppnå disse funksjonene i Apache Hadoop ved effektivt å implementere MapReduce og Multi-threading.
Q # 13) Har du noen gang jobbet med Hadoop Framework?
(bilde kilde )
Svar: Mange ansettelsesledere spør om Hadoop-verktøyet i intervjuet for å vite om du er kjent med verktøyene og språkene selskapet bruker. Hvis du har jobbet med Hadoop Framework, fortell dem detaljene i prosjektet ditt for å få frem kunnskap og ferdigheter med verktøyet og dets evner. Og hvis du aldri har jobbet med det, vil det også fungere litt forskning for å vise kjennskap til egenskapene.
Du kan si, for eksempel, “Mens jeg jobbet med et teamprosjekt, har jeg hatt sjansen til å jobbe med Hadoop. Vi hadde fokus på å øke effektiviteten av databehandling, så på grunn av dets evne til å øke hastigheten på databehandling uten å gå på kompromiss med kvaliteten under den distribuerte behandlingen, bestemte vi oss for å bruke Hadoop.
Og da mitt forrige selskap forventet en betydelig økning i databehandlingen i løpet av de neste månedene, ble dets skalerbarhet også nyttig. Hadoop er også et open source-nettverk basert på Java, som gjør det til det beste alternativet for prosjekter med begrensede ressurser og en enkel å bruke uten ytterligere opplæring. ”
hvordan finner jeg en nettverkssikkerhetsnøkkel
Sp # 14) Nevn noen viktige trekk ved Hadoop.
Svar: Funksjonene er som følger:
- Hadoop er et gratis rammeverk med åpen kildekode der vi kan endre kildekoden i henhold til vårt krav.
- Den støtter raskere distribuert behandling av data. HDFS Hadoop lagrer data på en distribuert måte og bruker MapReduce til å prosessere dataene parallelt.
- Hadoop er svært tolerant, og som standard, på forskjellige noder, lar det brukeren lage tre kopier av hver blokk. Så hvis en av nodene ikke lykkes, kan vi gjenopprette dataene fra en annen node.
- Den er også skalerbar og er kompatibel med mange maskinvarer.
- Siden Hadoop lagret data i klynger, uavhengig av alle andre operasjoner. Derfor er det pålitelig. Lagrede data forblir upåvirket av feil på maskinene. Og så, det er også tilgjengelig.
Sp # 15) Hvordan kan du øke forretningsinntektene ved å analysere Big Data?
Svar: Big data-analyse er en viktig del av virksomhetene, siden det hjelper dem å skille seg fra hverandre sammen med å øke inntektene. Big data analytics tilbyr tilpassede forslag og anbefalinger til bedrifter gjennom prediktiv analyse.
Det hjelper også bedrifter med å lansere nye produkter basert på kundenes preferanser og behov. Dette hjelper bedriftene med å tjene betydelig mer, omtrent 5-20% mer. Bedrifter som Bank of America, LinkedIn, Twitter, Walmart, Facebook osv. Bruker Big Data Analysis for å øke inntektene.
Spørsmål nr. 16) Hvilke trinn må du følge når du distribuerer en Big Data-løsning?
Svar: Det er tre trinn som skal følges når du distribuerer en Big Data-løsning:
- Svelging av data Det er det første trinnet i å distribuere en Big Data-løsning. Det er utvinning av data fra forskjellige kilder som SAP, MYSQL, Salesforce, loggfiler, intern database, etc. Inntak av data kan skje gjennom streaming eller batchjobber i sanntid.
- Datalagring- Etter at dataene er inntatt, skal de ekstraherte dataene lagres et sted. Den lagres enten i HDFS- eller NoSQL-databaser. HDFS fungerer bra for sekvensiell tilgang gjennom HBase for tilfeldig lese- eller skrivetilgang.
- Databehandling- Dette er det tredje og det avsluttende trinnet for implementering på en Big Data-løsning. Etter lagring behandles dataene gjennom et av hovedrammene som MapReduce eller Pig.
Sp # 17) Hva er en blokkerings- og blokkeringsskanner i HDFS?
Svar: En blokk er den minste mengden data som kan skrives eller leses i HDFS. 64 MB er standardstørrelsen på en blokk.
Blokkeskanneren er et program som sporer antall blokker på en DataNode med jevne mellomrom, sammen med å verifisere dem for eventuelle kontrollsumfeil og datakorrupsjon.
Spørsmål nr. 18) Hva er utfordringene du har møtt med å introdusere nye dataanalyseapplikasjoner hvis du noen gang har introdusert en?
Svar: Hvis du aldri har introdusert ny dataanalyse, kan du bare si det. Fordi de er ganske dyre, og det er derfor ikke ofte selskaper gjør det. Men hvis et selskap bestemmer seg for å investere i det, kan det være et ekstremt ambisiøst prosjekt. Det vil trenge høyt trente ansatte for å installere, koble til, bruke og vedlikeholde disse verktøyene.
Så hvis du noen gang har vært gjennom prosessen, fortell dem hvilke hindringer du møtte og hvordan du overvant dem. Hvis du ikke har gjort det, fortell dem i detalj hva du vet om prosessen. Dette spørsmålet avgjør om du har grunnleggende kunnskap for å komme deg gjennom problemene som kan oppstå under introduksjonen av nye dataanalyseapplikasjoner.
Eksempel på svar; “Jeg har vært med på å introdusere ny dataanalyse i mitt forrige selskap. Hele prosessen er forseggjort og trenger en godt planlagt prosess for en jevnest mulig overgang.
Selv med plettfri planlegging kan vi imidlertid ikke alltid unngå uforutsette omstendigheter og problemer. Et slikt problem var en utrolig høy etterspørsel etter brukerlisenser. Det gikk utover det vi forventet. For å få ytterligere lisenser måtte selskapet omfordele de økonomiske ressursene.
Også trening måtte planlegges på en måte som ikke hindrer arbeidsflyten. Vi måtte også optimalisere infrastrukturen for å støtte det høye antallet brukere. ”
Spørsmål nr. 19) Hva om NameNode krasjer i HDFS-klyngen?
Svar: HDFS-klyngen har bare én NameNode, og den vedlikeholder DataNodes metadata. Å ha bare én NameNode gir HDFS-klynger et enkelt feilpunkt.
Så hvis NameNode krasjer, kan systemene bli utilgjengelige. For å forhindre det kan vi spesifisere en sekundær NameNode som tar de periodiske kontrollpunktene i HDFS-filsystemer, men det er ikke en sikkerhetskopi av NameNode. Men vi kan bruke den til å gjenskape NameNode og starte på nytt.
Q # 20) Forskjell mellom NAS og DAS i Hadoop-klyngen.
Svar: I NAS er lagrings- og beregningslag skilt, og lagring distribueres mellom forskjellige servere på nettverket. Mens du er i DAS, er lagring vanligvis knyttet til beregningsnoden. Apache Hadoop er basert på prinsippet om behandling nær en bestemt datalokasjon.
Derfor bør lagringsdisken være lokal for beregning. DAS hjelper deg med å få ytelse på en Hadoop-klynge og kan brukes på råvaremaskinvare. Med enkle ord er det mer kostnadseffektivt. NAS-lagring foretrekkes med høy båndbredde på rundt 10 GbE.
Spørsmål nr. 21) Er det bedre å bygge en NoSQL-database enn å bygge en relasjonsdatabase?
(bilde kilde )
Svar: Som svar på dette spørsmålet må du vise frem din kunnskap om begge databasene. Du må også sikkerhetskopiere det med et eksempel på situasjonen som viser hvordan du vil eller har brukt kunnskapen i et reelt prosjekt.
Svaret ditt kan være omtrent slik: “I noen situasjoner kan det være fordelaktig å bygge en NoSQL-database. I mitt siste selskap da franchise-systemet eksponentielt økte i størrelse, måtte vi øke raskt for å få mest mulig ut av alle drifts- og salgsdata vi hadde.
Å skalere ut er bedre enn å skalere opp med større servere når du håndterer den økte databehandlingsbelastningen. Det er kostnadseffektivt og lettere å oppnå med NoSQL-databaser, da det lett kan håndtere store datamengder. Det er nyttig når du trenger å svare raskt på betydelige datalastforskyvninger i fremtiden.
Selv om relasjonsdatabaser har bedre tilkobling til alle analyseverktøy. Men NoSQL-databaser har mye å tilby. ”
Spørsmål nr. 22) Hva gjør du når du får et uventet problem med datavedlikehold? Har du prøvd noen out-of-the-box-løsninger for det?
Svar: Uunngåelig oppstår uventede problemer innimellom i hver rutineoppgave, selv under vedlikehold av data. Dette spørsmålet har som mål å vite om du kan håndtere høytrykkssituasjoner og hvordan.
Du kan si noe som “datavedlikehold kan være en rutinemessig oppgave, men det er viktig å følge nøye med på de spesifikke oppgavene, inkludert å sørge for vellykket gjennomføring av skriptene.
En gang mens jeg gjennomførte integritetskontrollen, kom jeg over en korrupt indeks som kunne ha forårsaket alvorlige problemer i fremtiden. Derfor kom jeg opp med en ny vedlikeholdsoppgave for å forhindre tilførsel av korrupte indekser i databasen til selskapet. '
Q # 23) Har du noen gang trent noen innen ditt felt? Hvis ja, hva har du funnet mest utfordrende med det?
Svar: Vanligvis er det behov for dataingeniører for å trene sine kolleger i nye systemer eller prosesser du har opprettet eller trene nye ansatte i allerede eksisterende systemer og arkitektur. Så, med dette spørsmålet, vil intervjueren din vite om du kan takle det. Hvis du ikke har hatt sjansen til å trene noen selv, snakk om utfordringene noen som trente eller du vet du sto overfor.
Et utvalg av det ideelle svaret vil være noe sånt som dette. “Ja, jeg har hatt sjansen til å trene små og store begge gruppene av medarbeidere. Å trene nye ansatte med betydelig erfaring i et annet selskap er den mest utfordrende oppgaven jeg har kommet over. De er ofte så vant til å nærme seg data fra ett annet perspektiv at de sliter med å akseptere måten vi gjør ting på.
Ofte er de ekstremt meningsfylte og tror de vet alt riktig, og det tar derfor mye tid for dem å innse at et problem kan ha mer enn én løsning. Jeg prøver å oppmuntre dem til å åpne sinnet og akseptere alternative muligheter ved å understreke hvor vellykket vår arkitektur og prosesser har vært. ”
Spørsmål nr. 24) Hva er fordeler og ulemper ved å jobbe innen cloud computing?
(bilde kilde )
Svar:
Fordeler:
- Ingen infrastrukturkostnader.
- Minimum ledelse.
- Ingen problemer med ledelse og administrasjon.
- Lett tilgjengelig.
- Betal for det du bruker.
- Det er pålitelig.
- Det tilbyr datakontroll, sikkerhetskopiering og gjenoppretting.
- Stor oppbevaring.
Ulemper:
- Det trenger en god internettforbindelse med like god båndbredde for å fungere godt.
- Det har sin nedetid.
- Din kontroll over infrastruktur vil være begrenset.
- Det er liten fleksibilitet.
- Det har visse løpende kostnader.
- Det kan være sikkerhets- og tekniske problemer.
Q # 25) Arbeidet til dataingeniører er vanligvis ‘backstage’. Er du komfortabel med å jobbe deg borte fra ‘søkelyset’?
Svar: Din ansettelsesleder vil vite om du elsker rampelys, eller om du kan jobbe bra i begge situasjoner. Svaret ditt skal fortelle dem at selv om du liker rampelyset, er du komfortabel med å jobbe i bakgrunnen også.
“Det som betyr noe for meg er at jeg skal være ekspert på mitt felt og bidra til selskapets vekst. Hvis jeg må jobbe i rampelyset, er jeg komfortabel med å gjøre det også. Hvis det er et problem som ledere trenger å ta opp, vil jeg ikke nøle med å heve stemmen min og gjøre det oppmerksom på dem. ”
Spørsmål nr. 26) Hva skjer når Block-skanneren oppdager en ødelagt datablokk?
Svar: Først og fremst rapporterer DataNode til NameNode. Deretter begynner NameNode å lage en ny kopi gjennom replikken til den korrupte blokken. Korrupt datablokk blir ikke slettet hvis replikasjonsantallet for de riktige replikaene samsvarer med replikasjonsfaktoren.
Spørsmål nr. 27) Har du noen gang funnet en ny innovativ bruk for allerede eksisterende data? Påvirket det selskapet positivt?
Svar: Dette spørsmålet er ment for dem å finne ut om du er selvmotivert og ivrig nok til å bidra til suksessen til prosjektene. Hvis det er mulig, kan du svare på spørsmålet med et eksempel der du tok ansvaret for et prosjekt eller kom på en idé. Og hvis du noen gang presenterte en ny løsning på et problem, ikke gå glipp av det heller.
Eksempel på svar: “I min siste jobb var jeg med på å finne ut hvorfor vi har høy ansattes omsetningshastighet. Jeg observerte dataene nøye fra forskjellige avdelinger hvor jeg fant svært korrelerte data innen sentrale områder som økonomi, markedsføring, drift osv. Og omsetningshastigheten.
Samarbeidet med avdelingsanalytikerne for bedre forståelse av disse sammenhenger. Med vår forståelse gjorde vi noen strategiske endringer som påvirket den ansattes omsetningshastighet positivt. ”
Spørsmål nr. 28) Hvilke ikke-tekniske ferdigheter tror du kommer til nytte som dataingeniør?
Svar: Prøv å unngå de mest åpenbare svarene som kommunikasjon eller mellommenneskelige ferdigheter. Du kan si, “prioritering og multitasking har ofte kommet godt med i jobben min. Vi får ulike oppgaver på en dag fordi vi jobber med forskjellige avdelinger. Og derfor blir det viktig at vi prioriterer dem. Det gjør arbeidet vårt enkelt og hjelper oss med å fullføre dem alle effektivt. ”
Spørsmål nr. 29) Hva er noen vanlige problemer du har møtt som dataingeniør?
Svar: Dette er:
- Kontinuerlig og sanntidsintegrasjon.
- Lagring av store mengder data og informasjon fra disse dataene.
- Begrensninger av ressurser.
- Vurderer hvilke verktøy du skal bruke og hvilke som kan levere de beste resultatene.
Konklusjon
Data engineering kan høres ut som en rutinemessig kjedelig jobb, men det er mange interessante fasetter. Det fremgår av de mulige scenariospørsmål intervjuere kan stille. Du bør være klar til å svare på ikke bare tekniske bookish spørsmål, men også situasjonelle spørsmål som de ovennevnte spørsmålene. Først da vil du kunne bevise at du kan gjøre jobben din godt og fortjener den.
Beste ønsker!!
Anbefalt lesing
- Intervju spørsmål og svar
- ETL Testing Intervju Spørsmål og svar
- Topp 32 beste spørsmål og svar på datastasjonsintervju
- Topp JSON intervju spørsmål og svar
- Topp Teradata intervju spørsmål og svar
- Topp 24 spørsmål om datamodellering med detaljerte svar
- Topp 50+ Database Intervju Spørsmål og svar
- Topp 30 SAS intervju spørsmål og svar