top 32 best datastage interview questions
Liste over hyppigst stilte spørsmål og svar på datastasjonintervjuer og svar for å hjelpe deg med å forberede deg på det kommende intervjuet:
DataStage er et veldig populært ETL-verktøy som var tilgjengelig i dagens marked.
I denne artikkelen deler jeg et sett med veldig nyttige spørsmålssvar ment for IBM Datastage-intervjuer. Gjennomgå nedenfor Datastage intervju spørsmål kan gjøre det enkelt for deg å knekke intervjuet.
Vi har dekket detaljerte svar på Datastage Interview Questions som vil være nyttige for nybegynnere og erfarne fagfolk.
Anbefalt lesing => ETL testing intervju spørsmål
De vanligste spørsmålene og svarene på datastasjonen
La oss begynne!
Spørsmål nr. 1) Hva er datastasjon?
Svar: Datastage er en ETL-verktøy gitt av IBM som bruker en GUI til å designe dataintegrasjonsløsninger. Dette var det første ETL-verktøyet som ga et parallellkonsept.
Den er tilgjengelig i følgende 3 forskjellige utgaver
- Serverutgave
- Enterprise Edition
- MVS Edition
Q # 2) Fremhev hovedfunksjonene i Datastage?
Svar: Hovedtrekkene i Datastage er fremhevet nedenfor:
- Det er dataintegrasjonskomponenten til IBM Infosphere informasjonsserver.
- Det er et GUI-basert verktøy. Vi trenger bare å dra og slippe Datastage-objektene, og vi kan konvertere den til Datastage-kode.
- Den brukes til å utføre ETL-operasjonene (Extract, Transform, Load)
- Det gir tilkobling til flere kilder og flere mål samtidig
- Det gir partisjonering og parallellbehandlingsteknikker som gjør det mulig for Datastage-jobbene å behandle et enormt datamengde ganske raskere.
- Den har tilkobling på bedriftsnivå.
Spørsmål nr. 3) Hva er de primære bruksområdene i Datastage-verktøyet?
Svar: Datastage er et ETL-verktøy som primært brukes til å trekke ut data fra kildesystemer, transformere dataene og til slutt laste dem til målsystemer.
Q # 4) Hva er de viktigste forskjellene du har observert mellom 7.x og 8.x versjon av DataStage?
Svar: Her er de viktigste forskjellene mellom begge versjonene
7.x | 8.x |
---|---|
7.x-versjonen var plattformavhengig | Denne versjonen er plattformuavhengig |
Den har 2-lags arkitektur der datastage er bygget på toppen av Unix-serveren | Den har 3-lags arkitektur der vi har UNIX-serverdatabase nederst og deretter XMETA-database som fungerer som et repositorty, og så har vi datastage på toppen. |
Det er ikke noe begrep med parametersett | Vi har parametersett som kan brukes hvor som helst i prosjektet. |
Vi hadde designer og manager som to separate klienter | I denne versjonen ble managerklienten slått sammen til designerklient |
Vi måtte manuelt søke etter jobbene i denne versjonen | Her har vi hurtigfunnalternativ i depotet der vi enkelt kan søke etter jobbene. |
Sp # 5) Kan du markere hovedfunksjonene til IBM Infosphere informasjonsserver?
Svar: Hovedtrekkene i IBM Infosphere informasjonsserverpakke er:
hvordan åpne en torrentfil Windows 10
- Det gir en enkelt plattform for dataintegrasjon. Den har muligheten til å koble til flere kildesystemer samt skrive til flere målsystemer.
- Den er basert på sentraliserte lag. Alle komponentene i suiten kan dele baselinearkitekturen til suiten.
- Den har lag for det enhetlige depotet, for integrerte metadatatjenester og en felles parallellmotor.
- Det gir verktøy for analyse, rensing, overvåking, transformering og levering av data.
- Den har massivt parallelle prosesseringsmuligheter. Det viser seg at behandlingen er veldig rask.
Sp # 6) Hva er de forskjellige lagene i informasjonsserverarkitekturen?
Svar: Nedenfor er de forskjellige lagene med informasjonsserverarkitektur
- Samlet brukergrensesnitt
- Felles tjenester
- Enhetlig parallell behandling
- Enhetlige metadata
- Vanlig tilkobling
Sp # 7) Hva kan være et datakildesystem?
Svar: Det kan være en databasetabell, en flat fil eller til og med en ekstern applikasjon som folk myke.
Q # 8) På hvilket grensesnitt vil du jobbe som utvikler?
Svar: Som en Datastage-utvikler jobber vi med Datastage-klientgrensesnittet, som er kjent som en Datastage-designer som må installeres på det lokale systemet. I backend er den koblet til Datastage-serveren.
Sp # 9) Hva er de forskjellige vanlige tjenestene i Datastage?
Svar: Nedenfor er listen over vanlige tjenester i Datastage:
- Metadatatjenester
- Enhetlig distribusjon av tjenester
- Sikkerhetstjenester
- Looping og rapporteringstjenester.
Sp # 10) Hvordan begynner du å utvikle et Datastage-prosjekt?
Svar: Det aller første trinnet er å opprette en Datastage-jobb på Datastage-serveren. Alle Datastage-objektene vi lager, lagres i Datastage-prosjektet. Et Datastage-prosjekt er et eget miljø på serveren for jobber, tabeller, definisjoner og rutiner.
Et Datastage-prosjekt er et eget miljø på serveren for jobber, tabeller, definisjoner og rutiner.
Sp # 11) Hva er en DataStage-jobb?
Svar: Datastage-jobben er ganske enkelt en DataStage-kode som vi lager som utvikler. Den inneholder forskjellige trinn knyttet sammen for å definere data og prosessflyt.
Stadier er bare funksjonalitetene som blir implementert.
For eksempel: La oss anta at jeg vil gjøre en sum av salgsbeløpet. Dette kan være en “gruppe for” -operasjon som vil bli utført av ett trinn.
Nå vil jeg skrive resultatet til en målfil. Så denne operasjonen vil bli utført av et annet stadium. Når jeg først har definert begge trinnene, må jeg definere dataflyten fra trinnet “gruppe for” til trinnet for målfilen. Denne datastrømmen er definert av DataStage-lenker.
Når jeg først har definert begge trinnene, må jeg definere dataflyten fra trinnet “gruppe for” til trinnet for målfilen. Denne datastrømmen er definert av DataStage-lenker.
Sp # 12) Hva er DataStage-sekvenser?
Svar: Datastagesekvens kobler DataStage-jobbene i en logisk flyt.
Spørsmål nr. 13) Hvordan vil du oppnå dette hvis du vil bruke samme kode i forskjellige jobber?
Svar: Dette kan gjøres ved å bruke delte containere. Vi har delte containere for gjenbrukbarhet. En delt container er et gjenbrukbart jobbelement som består av trinn og lenker. Vi kan ringe en delt container i forskjellige Datastage-jobber.
Sp # 14) Hvor lagres Datastage-jobbene?
Svar: Datastage-jobbene blir lagret i depotet. Vi har forskjellige mapper der vi kan lagre Datastage-jobbene.
Sp # 15) Hvor ser du forskjellige stadier i designeren?
Svar: Alle scenene er tilgjengelige i et vindu som heter ' Palett ' . Den har forskjellige kategorier avhengig av hvilken type funksjon scenen gir.
De forskjellige kategoriene av trinn i paletten er - Generelt, Datakvalitet, Database, Utvikling, Fil, Behandling, etc.
Spørsmål nr. 16) Hva er behandlingsstadiene?
Svar: Behandlingsstadiene tillater oss å bruke den faktiske datatransformasjonen.
For eksempel , The ' Aggregatortrinnet under behandlingskategorien lar oss anvende alle gruppene etter operasjoner. På samme måte har vi andre stadier i behandlingen som 'Join' -fasen som lar oss koble sammen dataene som kommer fra to forskjellige inngangsstrømmer.
Spørsmål nr. 17) Hva er trinnene som trengs for å lage en enkel grunnleggende datastasjonsjobb?
Svar: Klikk på Fil -> Klikk på Ny -> Velg parallell jobb og trykk OK. Et parallelt jobbvindu åpnes. I denne parallelle jobben kan vi sette sammen forskjellige trinn og definere dataflyten mellom dem. Den enkleste DataStage-jobben er en ETL-jobb.
I dette må vi først trekke ut dataene fra kildesystemet som vi kan bruke enten et filfase eller et databasescene fordi kildesystemet mitt enten kan være en databasetabell eller en fil.
Anta at vi leser data fra en tekstfil. I dette tilfellet vil vi dra og slippe trinnet 'Sekvensiell fil' til det parallelle jobbvinduet. Nå må vi utføre noen transformasjoner på toppen av disse dataene. Vi vil bruke “Transformer” -fasen som er tilgjengelig under behandlingskategorien. Vi kan skrive hvilken som helst logikk under Transformer-scenen.
Til slutt må vi laste de behandlede dataene til en måltabell. La oss si at måldatabasen min er DB2. Så for dette velger vi DB2-kontakttrinnet. Deretter vil vi koble disse datatilstandene gjennom sekvensielle lenker.
Etter dette , vi må konfigurere trinnene slik at de peker på riktig filsystem eller database.
beste gratis pc-renser og optimizer
For eksempel, For sekvensiell filfase må vi definere de obligatoriske parametrene som filnavn, filplassering, kolonnemetadata.
Da må vi kompilere Datastage-jobben. Kompilering av jobbsjekk for syntaksen til jobben og oppretter en kjørbar fil for Datastage-jobben som kan utføres på kjøretid.
Q # 18) Nevn de forskjellige sorteringsmetodene i Datastage.
Svar: Det er to metoder tilgjengelige:
- Koblingssortering
- Innebygd sortering av datastasjer
Spørsmål nr. 19) Hvis en jobb mislykkes i mellom, og du vil starte batchen fra den aktuelle jobben og ikke fra bunnen av, hva gjør du da?
Svar: I Datastage er det et alternativ i jobbsekvens - 'Legg til sjekkpunkter slik at sekvensen kan startes på nytt ved feil' . Hvis dette alternativet er merket av, kan vi kjøre jobbsekvensen på nytt fra det punktet der den mislyktes.
Spørsmål nr. 20) Hvordan importerer og eksporterer du Datastage-jobbene?
Svar: F eller dette, under kommandolinjefunksjonene for dette
- Import: dsimport.exe
- Eksport: dsexport.exe
Spørsmål nr. 21) Hva er rutiner i Datastage? Verve forskjellige typer rutiner.
Svar: Rutinemessig er et sett med funksjoner som er definert av DS-lederen. Den kjøres via transformatorstadiet.
Det er tre typer rutiner:
- Parallelle rutiner
- Mainframe-rutiner
- Serverrutiner
Spørsmål nr. 22) Hvordan fjerner du duplikatverdier i DataStage?
Svar: Det er to måter å håndtere dupliserte verdier på
- Vi kan bruke remove duplicate stage for å eliminere duplikater.
- Vi kan bruke sorteringsfasen for å fjerne duplikat. Sorteringsfasen har en egenskap som heter ‘tillat duplikater’. Vi får ikke dupliserte verdier i sortens utdata når vi setter denne egenskapen til falsk.
Spørsmål nr. 23) Hva er forskjellige visninger som er tilgjengelige i en Datastage-direktør?
Svar: Det er tre typer visninger tilgjengelig i Datastage-direktøren. De er:
- Loggvisning
- Statusvisning
- Jobbvisning
Q # 24) Skille mellom Informatica og Datastage. Hvilken ville du velge og hvorfor?
Svar: Både Informatica og DataStage er kraftige ETL-verktøy.
Innrullerte punkter skiller mellom begge verktøyene:
Databehandling | Datastasjon | |
---|---|---|
Parallell behandling | Informatica støtter ikke parallell behandling. | I motsetning til dette gir datastage mekanisme for parallell behandling. |
Implementering av SCD-er | Det er ganske enkelt å implementere SCDer (sakte skiftende dimensjoner) i Informatica. | Imidlertid er det komplisert å implementere SCDer i datastage. Datastage støtter SCD-er bare gjennom tilpassede skript. |
Versjonskontroll | Informatica støtter versjonskontroll gjennom innsjekking og utsjekking av objekter. | Vi har imidlertid ikke denne funksjonaliteten tilgjengelig i datastage. |
Tilgjengelige transformasjoner | Mindre transformasjoner er tilgjengelige. | Datastage tilbyr mer variasjon av transformasjoner enn Informatica. |
Oppslagskraft | Informatica gir veldig kraftig dynamisk hurtigbufferoppslag | Vi har ingen lignende ting i datastadiet. |
Etter min personlige mening vil jeg gå med Informatica over Datastage. Årsaken er at jeg har funnet Informatica mer systematisk og brukervennlig enn DataStage.
En annen sterk grunn er at feilsøking og feilhåndtering er mye bedre i Informatica sammenlignet med Datastage. Så, å fikse problemer blir lettere i Informatica. Datastage gir ikke komplett støtte for feilhåndtering.
=> Vil du lære mer om Informatica? Vi har en detaljert forklaring her.
hvordan man erklærer en liste i java
Q # 25) Gi en ide om systemvariabler.
Svar: Systemvariabler er de skrivebeskyttede variablene som begynner med ‘@’ som kan leses av enten transformatorstadiet eller rutinen. De brukes til å få systeminformasjonen.
Q # 26) Hva er forskjellen mellom passivt stadium og aktivt stadium?
Svar: Passive stadier brukes til ekstraksjon og lasting, mens aktive stadier brukes til transformasjon.
Spørsmål nr. 27) Hva er de forskjellige typer containere som er tilgjengelige i Datastage?
Svar: Vi har under 2 containere i Datastage:
- Lokal container
- Delt container
SP # 28) Lagres verdien av iscenesettelsesvariabelen midlertidig eller permanent?
Svar: Midlertidig. Det er en midlertidig variabel.
Spørsmål nr. 29) Hva er de forskjellige typene jobber i Datastage?
Svar: Vi har to typer jobber i Datastage:
- Serverjobber (De kjører på en sekvensiell måte)
- Parallelle jobber (de blir henrettet på en parallell måte)
Spørsmål nr. 30) Hva er bruken av Datastage Director?
Svar: Gjennom Datastage-direktør kan vi planlegge en jobb, validere jobben, utføre jobben og overvåke jobben.
Q # 31) Hva er de forskjellige typene av hash-filen?
Svar: Vi har to typer hash-filer:
- Statisk hash-fil
- Dynamisk hash-fil
Spørsmål nr. 32) Hva er et kvalitetsstadium?
Svar: Kvalitetsstadiet (også kalt integritetsstadium) er et stadium som hjelper til å kombinere dataene sammen fra forskjellige kilder.
Konklusjon
Du bør ha en praktisk kunnskap om Datastage-arkitektur, dens hovedfunksjoner, og du skal kunne forklare hvordan den er forskjellig fra noen andre populære ETL-verktøy.
I tillegg , du bør ha en god ide om forskjellige stadier og deres bruk, end-to-end en måte å opprette en Datastage-jobb på og kjøre den.
Anbefalt lesing => Hva er ETL-testing?
Beste ønsker!
Anbefalt lesing
- ETL Testing Intervju Spørsmål og svar
- De 10 beste verktøyene for datakarting som er nyttige i ETL-prosessen (2021 LIST)
- 15 beste ETL-verktøy i 2021 (en komplett oppdatert liste)
- Veiledning for testing av datavarehus med eksempler | ETL Testing Guide
- ETL Testing Data Warehouse Testing Tutorial (En komplett guide)
- ETL vs DB Testing - En nærmere titt på ETL Testing Need, Planning og ETL Tools
- Hvordan utføre ETL-testing ved hjelp av Informatica PowerCenter Tool
- Metadata i Data Warehouse (ETL) forklart med eksempler
- Pressemelding - iCEDQ Soft New Version Release of ETL Testing & Data Migration Testing Platform
- Topp 10 ETL-testverktøy i 2021
- Hva er ETL-prosess (pakke ut, transformere, laste) i datalageret?