data mining process models
Denne veiledningen om prosessen med datautvinning dekker modeller for datamining, trinn og utfordringer involvert i prosessen med datautvinning:
Data Mining teknikker ble forklart i detalj i vår forrige opplæring i dette Komplett datautdanningstrening for alle . Data Mining er et lovende felt innen vitenskap og teknologi.
Data Mining, som også er kjent som Knowledge Discovery in Databases, er en prosess for å oppdage nyttig informasjon fra store datamengder som er lagret i databaser og datalager. Denne analysen er gjort for beslutningsprosesser i selskapene.
Data Mining blir utført ved hjelp av forskjellige teknikker som klynging, tilknytning og sekvensiell mønsteranalyse og beslutningstreet.
Hva du vil lære:
- Hva er data mining?
- Datautvinning som en prosess
- Data Mining Modeller
- Trinn i prosessen med datautvinning
- Data Mining Process i Oracle DBMS
- Data Mining Process In Datawarehouse
- Hva er anvendelsen av datautvinning?
- Data Mining Utfordringer
- Konklusjon
- Anbefalt lesing
Hva er data mining?
Data Mining er en prosess for å oppdage interessante mønstre og kunnskap fra store datamengder. Datakildene kan omfatte databaser, datalager, Internett og andre informasjonsregister eller data som streames dynamisk inn i systemet.
Hvorfor trenger bedrifter datautvinning?
Med fremkomsten av Big Data har data mining blitt mer utbredt. Big data er ekstremt store datasett som kan analyseres av datamaskiner for å avsløre visse mønstre, assosiasjoner og trender som kan forstås av mennesker. Big data har omfattende informasjon om varierte typer og variert innhold.
Derfor, med denne datamengden, ville ikke enkel statistikk med manuell intervensjon ikke fungere. Dette behovet blir oppfylt av data mining prosessen. Dette fører til endring fra enkel datastatistikk til komplekse data mining algoritmer.
Data mining prosessen vil trekke ut relevant informasjon fra rådata som transaksjoner, bilder, videoer, flate filer og automatisk behandle informasjonen for å generere rapporter som er nyttige for bedrifter å ta grep.
Dermed er prosessen for datautvinning avgjørende for bedrifter å ta bedre beslutninger ved å oppdage mønstre og trender i data, oppsummere dataene og ta ut relevant informasjon.
Datautvinning som en prosess
Ethvert forretningsproblem vil undersøke rådataene for å bygge en modell som vil beskrive informasjonen og få frem rapportene som skal brukes av virksomheten. Å bygge en modell fra datakilder og dataformater er en iterativ prosess, da rådataene er tilgjengelige i mange forskjellige kilder og mange former.
Data øker dag for dag, og når en ny datakilde blir funnet, kan den endre resultatene.
Nedenfor er oversikten over prosessen.
[bilde kilde ]
Data Mining Modeller
Mange bransjer som produksjon, markedsføring, kjemikalier og luftfart benytter seg av datautvinning. Dermed økes etterspørselen etter standard og pålitelige data mining prosesser drastisk.
De viktige dataminningsmodellene inkluderer:
# 1) Standardprosess for datautvinning (CRISP-DM)
CRISP-DM er en pålitelig dataminningsmodell som består av seks faser. Det er en syklisk prosess som gir en strukturert tilnærming til data mining prosessen. De seks fasene kan implementeres i hvilken som helst rekkefølge, men det vil noen ganger kreve tilbakesporing til de forrige trinnene og gjentakelse av handlinger.
team foundation server tutorial for nybegynnere
De seks fasene av CRISP-DM inkluderer:
Nr. 1) Forretningsforståelse: I dette trinnet blir målene til virksomhetene satt, og de viktige faktorene som vil hjelpe til å nå målet blir oppdaget.
# 2) Dataforståelse: Dette trinnet vil samle hele dataene og fylle ut dataene i verktøyet (hvis du bruker noe verktøy). Dataene er oppført med datakilde, plassering, hvordan de ervervet og om det oppstår problemer. Data visualiseres og spørres for å sjekke om de er fullstendige.
# 3) Klargjøring av data: Dette trinnet innebærer å velge passende data, rengjøring, konstruere attributter fra data, integrere data fra flere databaser.
qa intervju spørsmål og svar for nybegynnere
# 4) Modellering: Valg av data miningsteknikk som beslutningstreet, generere testdesign for evaluering av den valgte modellen, bygge modeller fra datasettet og vurdere den innebygde modellen med eksperter for å diskutere resultatet gjøres i dette trinnet.
# 5) Evaluering: Dette trinnet vil bestemme i hvilken grad den resulterende modellen oppfyller forretningskravene. Evaluering kan gjøres ved å teste modellen på virkelige applikasjoner. Modellen gjennomgås for eventuelle feil eller trinn som bør gjentas.
# 6) Implementering: I dette trinnet blir det laget en distribusjonsplan, en strategi for å overvåke og vedlikeholde resultatene for dataminingmodellen for å kontrollere om den er nyttig, blir endelige rapporter laget, og gjennomgang av hele prosessen gjøres for å kontrollere eventuelle feil og se om noen trinn blir gjentatt .
[bilde kilde ]
# 2) SEMMA (Sample, Explore, Modify, Model, Assess)
SEMMA er en annen data mining metodikk utviklet av SAS Institute. Forkortelsen SEMMA står for prøve, utforske, modifisere, modellere, vurdere.
SEMMA gjør det enkelt å bruke utforskende statistiske og visualiseringsteknikker, velge og transformere de signifikante forutsagte variablene, lage en modell ved hjelp av variablene for å komme ut med resultatet, og sjekke nøyaktigheten. SEMMA er også drevet av en svært iterativ syklus.
Fremgangsmåte i SEMMA
- Prøve: I dette trinnet blir et stort datasett ekstrahert, og et utvalg som representerer fullstendige data tas ut. Prøvetaking vil redusere beregningskostnadene og behandlingstiden.
- Utforske: Dataene blir utforsket for eventuelle outlier og avvik for bedre forståelse av dataene. Dataene blir visuelt sjekket for å finne ut trendene og grupperingene.
- Endre: I dette trinnet gjøres manipulering av data som gruppering og undergruppering ved å holde modellen i fokus i fokus.
- Modell: Basert på utforskningene og modifikasjonene er modellene som forklarer mønstrene i data konstruert.
- Vurdere: Nyttigheten og påliteligheten til den konstruerte modellen blir vurdert i dette trinnet. Testing av modellen mot reelle data gjøres her.
Både SEMMA- og CRISP-tilnærmingen fungerer for kunnskapsoppdagelsesprosessen. Når modeller er bygget, blir de distribuert for bedrifter og forskningsarbeid.
Trinn i prosessen med datautvinning
Data mining prosessen er delt i to deler, dvs. Data Preprocessing og Data Mining. Data Preprocessing innebærer rengjøring av data, dataintegrasjon, datareduksjon og datatransformasjon. Data mining-delen utfører data mining, mønsterevaluering og kunnskapsrepresentasjon av data.
[bilde kilde ]
Hvorfor forbehandler vi dataene?
Det er mange faktorer som bestemmer nytten av data som nøyaktighet, fullstendighet, konsistens, aktualitet. Dataene må ha kvalitet hvis de tilfredsstiller det tiltenkte formålet. Dermed er forbehandling svært viktig i data mining prosessen. De viktigste trinnene som er involvert i forbehandling av data er forklart nedenfor.
# 1) Datarengjøring
Datarengjøring er det første trinnet i data mining. Det er viktig da skitne data hvis de brukes direkte i gruvedrift kan føre til forvirring i prosedyrer og gi unøyaktige resultater.
I utgangspunktet innebærer dette trinnet fjerning av støyende eller ufullstendige data fra samlingen. Mange metoder som vanligvis renser data alene er tilgjengelige, men de er ikke robuste.
Dette trinnet utfører det rutinemessige rengjøringsarbeidet ved å:
(i) Fyll de manglende dataene:
Manglende data kan fylles ut med metoder som:
- Ignorer tupelen.
- Fylle den manglende verdien manuelt.
- Bruk mål på sentral tendens, median eller
- Fyll ut den mest sannsynlige verdien.
(ii) Fjern støyende data: Tilfeldig feil kalles støyende data.
Metoder for å fjerne støy er:
Binning: Binnemetoder brukes ved å sortere verdier i bøtter eller kasser. Utjevning utføres ved å konsultere de nærliggende verdiene.
Binning gjøres ved å glatte etter søppel, dvs. hver søppel erstattes av gjennomsnittet for søpla. Utjevning med en median, der hver bin-verdi erstattes av en bin-median. Utjevning etter søppelgrenser, dvs. minimums- og maksimumsverdiene i søpla er søppelgrenser, og hver søppelverdi erstattes av nærmeste grenseverdi.
- Identifisere avvikerne
- Løse inkonsekvenser
# 2) Dataintegrasjon
Når flere heterogene datakilder som databaser, datakuber eller filer kombineres for analyse, kalles denne prosessen dataintegrasjon. Dette kan bidra til å forbedre nøyaktigheten og hastigheten til prosessen med datautvinning.
Ulike databaser har forskjellige navngivningskonvensjoner av variabler, ved å forårsake avskedigelser i databasene. Ytterligere datarengjøring kan utføres for å fjerne overflødighetene og inkonsekvensene fra dataintegrasjonen uten å påvirke påliteligheten til dataene.
Dataintegrering kan utføres ved hjelp av datamigreringsverktøy som Oracle Data Service Integrator og Microsoft SQL etc.
# 3) Datareduksjon
Denne teknikken brukes for å skaffe relevante data for analyse fra innsamlingen av data. Størrelsen på representasjonen er mye mindre i volum, samtidig som den opprettholder integriteten. Datareduksjon utføres ved hjelp av metoder som Naive Bayes, Decision Trees, Neural network, etc.
Noen strategier for datareduksjon er:
- Dimensjonsreduksjon: Redusere antall attributter i datasettet.
- Numerosity Reduction: Erstatte det opprinnelige datavolumet med mindre former for datarepresentasjon.
- Datakomprimering: Komprimert representasjon av originaldataene.
# 4) Datatransformasjon
I denne prosessen blir data transformert til et skjema som er egnet for data mining prosessen. Data konsolideres slik at gruveprosessen blir mer effektiv og mønstrene er lettere å forstå. Datatransformasjon innebærer datakarting og generering av kode.
Strategier for datatransformasjon er:
- Utjevning: Fjerne støy fra data ved hjelp av klynging, regresjonsteknikker, etc.
- Aggregering: Sammendragsoperasjoner brukes på data.
- Normalisering: Skalering av data til å falle innenfor et mindre område.
- Diskretisering: Råverdier av numeriske data erstattes av intervaller. For eksempel, Alder.
# 5) Data Mining
Data Mining er en prosess for å identifisere interessante mønstre og kunnskap fra en stor mengde data. I disse trinnene brukes intelligente mønstre for å trekke ut datamønstrene. Dataene er representert i form av mønstre og modeller er strukturert ved hjelp av klassifisering og grupperingsteknikker.
# 6) Mønsterevaluering
Dette trinnet innebærer å identifisere interessante mønstre som representerer kunnskapen basert på interessante mål. Dataoppsummering og visualiseringsmetoder brukes til å gjøre dataene forståelige for brukeren.
# 7) Kunnskapsrepresentasjon
Kunnskapsrepresentasjon er et trinn der datavisualisering og kunnskapsrepresentasjonsverktøy brukes til å representere de utvunne dataene. Data visualiseres i form av rapporter, tabeller osv.
Data Mining Process i Oracle DBMS
RDBMS representerer data i form av tabeller med rader og kolonner. Du kan få tilgang til data ved å skrive databasespørsmål.
Relasjonelle databasestyringssystemer som Oracle støtter datautvinning ved bruk av CRISP-DM. Fasilitetene i Oracle-databasen er nyttige i datautarbeidelse og forståelse. Oracle støtter data mining gjennom java-grensesnitt, PL / SQL-grensesnitt, automatisert data mining, SQL-funksjoner og grafiske brukergrensesnitt.
Data Mining Process In Datawarehouse
Et datalager er modellert for en flerdimensjonal datastruktur kalt datakube. Hver celle i en datakube lagrer verdien av noen samlede tiltak.
Datautvinning i flerdimensjonalt rom utført i OLAP-stil (Online Analytical Processing) hvor det tillater utforsking av flere kombinasjoner av dimensjoner på varierende granularitetsnivå.
Hva er anvendelsen av datautvinning?
Liste over områder der datautvinning er mye brukt inkluderer:
# 1) Finansiell dataanalyse: Data Mining er mye brukt i bank-, investerings-, kredittjenester, pantelån, billån og forsikring og aksjeinvesteringstjenester. Dataene som er samlet inn fra disse kildene er komplette, pålitelige og av høy kvalitet. Dette letter systematisk dataanalyse og datautvinning.
# 2) Detaljhandel og telekommunikasjonsindustri: Retail Sector samler enorme mengder data om salg, kundehistorikk, varetransport, forbruk og service. Datautvinning for detaljhandel hjelper deg med å identifisere kjøpsatferd hos kunder, shoppingmønstre og trender, forbedre kvaliteten på kundeservice, bedre kundetilbakeholdelse og tilfredshet.
beste kloningsprogramvaren for Windows 10
# 3) Vitenskap og ingeniørfag: Data mining data engineering og engineering kan bidra til å overvåke systemstatus, forbedre systemytelsen, isolere programvarefeil, oppdage programvareplagiering og gjenkjenne systemfeil.
# 4) Påvisning og forebygging av inntrenging: Inntrenging er definert som ethvert sett med handlinger som truer integriteten, konfidensialiteten eller tilgjengeligheten til nettverksressurser. Data mining metoder kan hjelpe deg med å oppdage og forhindre innbrudd for å forbedre ytelsen.
# 5) Anbefalingssystemer: Anbefalingssystemer hjelper forbrukerne ved å komme med produktanbefalinger som er av interesse for brukerne.
Data Mining Utfordringer
Nedenfor er de forskjellige utfordringene involvert i Data Mining.
- Data Mining trenger store databaser og datainnsamling som er vanskelig å administrere.
- Datautvinningsprosessen krever domeneneksperter som igjen er vanskelige å finne.
- Integrering fra heterogene databaser er en kompleks prosess.
- Praksis på organisasjonsnivå må endres for å bruke datautvinningsresultatene. Omstrukturering av prosessen krever innsats og kostnader.
Konklusjon
Data Mining er en iterativ prosess der gruveprosessen kan finpusses, og nye data kan integreres for å få mer effektive resultater. Data Mining oppfyller kravet til effektiv, skalerbar og fleksibel dataanalyse.
Det kan betraktes som en naturlig evaluering av informasjonsteknologi. Som en kunnskapsoppdagelsesprosess fullfører dataopparbeidelse og datautvinningsoppgaver datautvinningsprosessen.
Data mining prosesser kan utføres på alle slags data som databasedata og avanserte databaser som tidsserier etc. Data mining prosessen kommer også med sine egne utfordringer.
Følg med på vår kommende opplæring for å vite mer om Data Mining Eksempler!
PREV Opplæring | NESTE veiledning
Anbefalt lesing
- Data Mining: Prosess, teknikker og store problemer i dataanalyse
- Data Mining Techniques: Algorithm, Methods & Top Data Mining Tools
- De 10 beste verktøyene for datakarting som er nyttige i ETL-prosessen [2021 LIST]
- Topp 10 databasedesignverktøy for å bygge komplekse datamodeller
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning
- Topp 15 beste gratis dataverktøy: Den mest omfattende listen
- Test Data Management Konsept, prosess og strategi
- JMeter-dataparameterisering ved bruk av brukerdefinerte variabler