Data Mining Process: Modeller, prosessstrinn og utfordringer involvert

data mining process models

Prøv Instrumentet Vårt For Å Eliminere Problemer

Velg Operativsystemet Velg Et Projeksjonsprogram (Valgfritt)

Beskriv Problemet Ditt

Denne veiledningen om prosessen med datautvinning dekker modeller for datamining, trinn og utfordringer involvert i prosessen med datautvinning:

Data Mining teknikker ble forklart i detalj i vår forrige opplæring i dette Komplett datautdanningstrening for alle . Data Mining er et lovende felt innen vitenskap og teknologi.

Data Mining, som også er kjent som Knowledge Discovery in Databases, er en prosess for å oppdage nyttig informasjon fra store datamengder som er lagret i databaser og datalager. Denne analysen er gjort for beslutningsprosesser i selskapene.

Data Mining blir utført ved hjelp av forskjellige teknikker som klynging, tilknytning og sekvensiell mønsteranalyse og beslutningstreet.

Data Mining Process

Hva du vil lære:

Hva er data mining?
Datautvinning som en prosess
Data Mining Modeller
- # 1) Standardprosess for datautvinning (CRISP-DM)
- # 2) SEMMA (Sample, Explore, Modify, Model, Assess)
Trinn i prosessen med datautvinning
Data Mining Process i Oracle DBMS
Data Mining Process In Datawarehouse
Hva er anvendelsen av datautvinning?
Data Mining Utfordringer
Konklusjon
Anbefalt lesing

Hva er data mining?

Data Mining er en prosess for å oppdage interessante mønstre og kunnskap fra store datamengder. Datakildene kan omfatte databaser, datalager, Internett og andre informasjonsregister eller data som streames dynamisk inn i systemet.

Hvorfor trenger bedrifter datautvinning?

Med fremkomsten av Big Data har data mining blitt mer utbredt. Big data er ekstremt store datasett som kan analyseres av datamaskiner for å avsløre visse mønstre, assosiasjoner og trender som kan forstås av mennesker. Big data har omfattende informasjon om varierte typer og variert innhold.

Derfor, med denne datamengden, ville ikke enkel statistikk med manuell intervensjon ikke fungere. Dette behovet blir oppfylt av data mining prosessen. Dette fører til endring fra enkel datastatistikk til komplekse data mining algoritmer.

Data mining prosessen vil trekke ut relevant informasjon fra rådata som transaksjoner, bilder, videoer, flate filer og automatisk behandle informasjonen for å generere rapporter som er nyttige for bedrifter å ta grep.

Dermed er prosessen for datautvinning avgjørende for bedrifter å ta bedre beslutninger ved å oppdage mønstre og trender i data, oppsummere dataene og ta ut relevant informasjon.

Datautvinning som en prosess

Ethvert forretningsproblem vil undersøke rådataene for å bygge en modell som vil beskrive informasjonen og få frem rapportene som skal brukes av virksomheten. Å bygge en modell fra datakilder og dataformater er en iterativ prosess, da rådataene er tilgjengelige i mange forskjellige kilder og mange former.

Data øker dag for dag, og når en ny datakilde blir funnet, kan den endre resultatene.

Nedenfor er oversikten over prosessen.

Oversikt over data mining prosessen

(bilde kilde )

Data Mining Modeller

Mange bransjer som produksjon, markedsføring, kjemikalier og luftfart benytter seg av datautvinning. Dermed økes etterspørselen etter standard og pålitelige data mining prosesser drastisk.

De viktige dataminningsmodellene inkluderer:

# 1) Standardprosess for datautvinning (CRISP-DM)

CRISP-DM er en pålitelig dataminningsmodell som består av seks faser. Det er en syklisk prosess som gir en strukturert tilnærming til data mining prosessen. De seks fasene kan implementeres i hvilken som helst rekkefølge, men det vil noen ganger kreve tilbakesporing til de forrige trinnene og gjentakelse av handlinger.

team foundation server tutorial for nybegynnere

De seks fasene av CRISP-DM inkluderer:

Nr. 1) Forretningsforståelse: I dette trinnet blir målene til virksomhetene satt, og de viktige faktorene som vil hjelpe til å nå målet blir oppdaget.

# 2) Dataforståelse: Dette trinnet vil samle hele dataene og fylle ut dataene i verktøyet (hvis du bruker noe verktøy). Dataene er oppført med datakilde, plassering, hvordan de ervervet og om det oppstår problemer. Data visualiseres og spørres for å sjekke om de er fullstendige.

# 3) Klargjøring av data: Dette trinnet innebærer å velge passende data, rengjøring, konstruere attributter fra data, integrere data fra flere databaser.

qa intervju spørsmål og svar for nybegynnere

# 4) Modellering: Valg av data miningsteknikk som beslutningstreet, generere testdesign for evaluering av den valgte modellen, bygge modeller fra datasettet og vurdere den innebygde modellen med eksperter for å diskutere resultatet gjøres i dette trinnet.

# 5) Evaluering: Dette trinnet vil bestemme i hvilken grad den resulterende modellen oppfyller forretningskravene. Evaluering kan gjøres ved å teste modellen på virkelige applikasjoner. Modellen gjennomgås for eventuelle feil eller trinn som bør gjentas.

# 6) Implementering: I dette trinnet blir det laget en distribusjonsplan, en strategi for å overvåke og vedlikeholde resultatene for dataminingmodellen for å kontrollere om den er nyttig, blir endelige rapporter laget, og gjennomgang av hele prosessen gjøres for å kontrollere eventuelle feil og se om noen trinn blir gjentatt .

CRISP - DM-modell

(bilde kilde )

# 2) SEMMA (Sample, Explore, Modify, Model, Assess)

SEMMA er en annen data mining metodikk utviklet av SAS Institute. Forkortelsen SEMMA står for prøve, utforske, modifisere, modellere, vurdere.

SEMMA gjør det enkelt å bruke utforskende statistiske og visualiseringsteknikker, velge og transformere de signifikante forutsagte variablene, lage en modell ved hjelp av variablene for å komme ut med resultatet, og sjekke nøyaktigheten. SEMMA er også drevet av en svært iterativ syklus.

SEMMA

Fremgangsmåte i SEMMA

Prøve: I dette trinnet blir et stort datasett ekstrahert, og et utvalg som representerer fullstendige data tas ut. Prøvetaking vil redusere beregningskostnadene og behandlingstiden.
Utforske: Dataene blir utforsket for eventuelle outlier og avvik for bedre forståelse av dataene. Dataene blir visuelt sjekket for å finne ut trendene og grupperingene.
Endre: I dette trinnet gjøres manipulering av data som gruppering og undergruppering ved å holde modellen i fokus i fokus.
Modell: Basert på utforskningene og modifikasjonene er modellene som forklarer mønstrene i data konstruert.
Vurdere: Nyttigheten og påliteligheten til den konstruerte modellen blir vurdert i dette trinnet. Testing av modellen mot reelle data gjøres her.

Både SEMMA- og CRISP-tilnærmingen fungerer for kunnskapsoppdagelsesprosessen. Når modeller er bygget, blir de distribuert for bedrifter og forskningsarbeid.

Trinn i prosessen med datautvinning

Data mining prosessen er delt i to deler, dvs. Data Preprocessing og Data Mining. Data Preprocessing innebærer rengjøring av data, dataintegrasjon, datareduksjon og datatransformasjon. Data mining-delen utfører data mining, mønsterevaluering og kunnskapsrepresentasjon av data.

Data Mining Process - Trinn

Ulike trinn i Data Mining Process

(bilde kilde )

Hvorfor forbehandler vi dataene?

Det er mange faktorer som bestemmer nytten av data som nøyaktighet, fullstendighet, konsistens, aktualitet. Dataene må ha kvalitet hvis de tilfredsstiller det tiltenkte formålet. Dermed er forbehandling svært viktig i data mining prosessen. De viktigste trinnene som er involvert i forbehandling av data er forklart nedenfor.

# 1) Datarengjøring

Datarengjøring er det første trinnet i data mining. Det er viktig da skitne data hvis de brukes direkte i gruvedrift kan føre til forvirring i prosedyrer og gi unøyaktige resultater.

I utgangspunktet innebærer dette trinnet fjerning av støyende eller ufullstendige data fra samlingen. Mange metoder som vanligvis renser data alene er tilgjengelige, men de er ikke robuste.

Dette trinnet utfører det rutinemessige rengjøringsarbeidet ved å:

(i) Fyll de manglende dataene:

Manglende data kan fylles ut med metoder som:

Ignorer tupelen.
Fylle den manglende verdien manuelt.
Bruk mål på sentral tendens, median eller
Fyll ut den mest sannsynlige verdien.

(ii) Fjern støyende data: Tilfeldig feil kalles støyende data.

Metoder for å fjerne støy er:

Binning: Binnemetoder brukes ved å sortere verdier i bøtter eller kasser. Utjevning utføres ved å konsultere de nærliggende verdiene.

Binning gjøres ved å glatte etter søppel, dvs. hver søppel erstattes av gjennomsnittet for søpla. Utjevning med en median, der hver bin-verdi erstattes av en bin-median. Utjevning etter søppelgrenser, dvs. minimums- og maksimumsverdiene i søpla er søppelgrenser, og hver søppelverdi erstattes av nærmeste grenseverdi.

Identifisere avvikerne
Løse inkonsekvenser

# 2) Dataintegrasjon

Når flere heterogene datakilder som databaser, datakuber eller filer kombineres for analyse, kalles denne prosessen dataintegrasjon. Dette kan bidra til å forbedre nøyaktigheten og hastigheten til prosessen med datautvinning.

Ulike databaser har forskjellige navngivningskonvensjoner av variabler, ved å forårsake avskedigelser i databasene. Ytterligere datarengjøring kan utføres for å fjerne overflødighetene og inkonsekvensene fra dataintegrasjonen uten å påvirke påliteligheten til dataene.

Dataintegrering kan utføres ved hjelp av datamigreringsverktøy som Oracle Data Service Integrator og Microsoft SQL etc.

# 3) Datareduksjon

Denne teknikken brukes for å skaffe relevante data for analyse fra innsamlingen av data. Størrelsen på representasjonen er mye mindre i volum, samtidig som den opprettholder integriteten. Datareduksjon utføres ved hjelp av metoder som Naive Bayes, Decision Trees, Neural network, etc.

Noen strategier for datareduksjon er:

Dimensjonsreduksjon: Redusere antall attributter i datasettet.
Numerosity Reduction: Erstatte det opprinnelige datavolumet med mindre former for datarepresentasjon.
Datakomprimering: Komprimert representasjon av originaldataene.

# 4) Datatransformasjon

I denne prosessen blir data transformert til et skjema som er egnet for data mining prosessen. Data konsolideres slik at gruveprosessen blir mer effektiv og mønstrene er lettere å forstå. Datatransformasjon innebærer datakarting og generering av kode.

Strategier for datatransformasjon er:

Utjevning: Fjerne støy fra data ved hjelp av klynging, regresjonsteknikker, etc.
Aggregering: Sammendragsoperasjoner brukes på data.
Normalisering: Skalering av data til å falle innenfor et mindre område.
Diskretisering: Råverdier av numeriske data erstattes av intervaller. For eksempel, Alder.

# 5) Data Mining

Data Mining er en prosess for å identifisere interessante mønstre og kunnskap fra en stor mengde data. I disse trinnene brukes intelligente mønstre for å trekke ut datamønstrene. Dataene er representert i form av mønstre og modeller er strukturert ved hjelp av klassifisering og grupperingsteknikker.

# 6) Mønsterevaluering

Dette trinnet innebærer å identifisere interessante mønstre som representerer kunnskapen basert på interessante mål. Dataoppsummering og visualiseringsmetoder brukes til å gjøre dataene forståelige for brukeren.

# 7) Kunnskapsrepresentasjon

Kunnskapsrepresentasjon er et trinn der datavisualisering og kunnskapsrepresentasjonsverktøy brukes til å representere de utvunne dataene. Data visualiseres i form av rapporter, tabeller osv.

Data Mining Process i Oracle DBMS

RDBMS representerer data i form av tabeller med rader og kolonner. Du kan få tilgang til data ved å skrive databasespørsmål.

Relasjonelle databasestyringssystemer som Oracle støtter datautvinning ved bruk av CRISP-DM. Fasilitetene i Oracle-databasen er nyttige i datautarbeidelse og forståelse. Oracle støtter data mining gjennom java-grensesnitt, PL / SQL-grensesnitt, automatisert data mining, SQL-funksjoner og grafiske brukergrensesnitt.

Data Mining Process In Datawarehouse

Et datalager er modellert for en flerdimensjonal datastruktur kalt datakube. Hver celle i en datakube lagrer verdien av noen samlede tiltak.

Datautvinning i flerdimensjonalt rom utført i OLAP-stil (Online Analytical Processing) hvor det tillater utforsking av flere kombinasjoner av dimensjoner på varierende granularitetsnivå.

Hva er anvendelsen av datautvinning?

Liste over områder der datautvinning er mye brukt inkluderer:

# 1) Finansiell dataanalyse: Data Mining er mye brukt i bank-, investerings-, kredittjenester, pantelån, billån og forsikring og aksjeinvesteringstjenester. Dataene som er samlet inn fra disse kildene er komplette, pålitelige og av høy kvalitet. Dette letter systematisk dataanalyse og datautvinning.

# 2) Detaljhandel og telekommunikasjonsindustri: Retail Sector samler enorme mengder data om salg, kundehistorikk, varetransport, forbruk og service. Datautvinning for detaljhandel hjelper deg med å identifisere kjøpsatferd hos kunder, shoppingmønstre og trender, forbedre kvaliteten på kundeservice, bedre kundetilbakeholdelse og tilfredshet.

beste kloningsprogramvaren for Windows 10

# 3) Vitenskap og ingeniørfag: Data mining data engineering og engineering kan bidra til å overvåke systemstatus, forbedre systemytelsen, isolere programvarefeil, oppdage programvareplagiering og gjenkjenne systemfeil.

# 4) Påvisning og forebygging av inntrenging: Inntrenging er definert som ethvert sett med handlinger som truer integriteten, konfidensialiteten eller tilgjengeligheten til nettverksressurser. Data mining metoder kan hjelpe deg med å oppdage og forhindre innbrudd for å forbedre ytelsen.

# 5) Anbefalingssystemer: Anbefalingssystemer hjelper forbrukerne ved å komme med produktanbefalinger som er av interesse for brukerne.

Data Mining Utfordringer

Nedenfor er de forskjellige utfordringene involvert i Data Mining.

Data Mining trenger store databaser og datainnsamling som er vanskelig å administrere.
Datautvinningsprosessen krever domeneneksperter som igjen er vanskelige å finne.
Integrering fra heterogene databaser er en kompleks prosess.
Praksis på organisasjonsnivå må endres for å bruke datautvinningsresultatene. Omstrukturering av prosessen krever innsats og kostnader.

Konklusjon

Data Mining er en iterativ prosess der gruveprosessen kan finpusses, og nye data kan integreres for å få mer effektive resultater. Data Mining oppfyller kravet til effektiv, skalerbar og fleksibel dataanalyse.

Det kan betraktes som en naturlig evaluering av informasjonsteknologi. Som en kunnskapsoppdagelsesprosess fullfører dataopparbeidelse og datautvinningsoppgaver datautvinningsprosessen.

Data mining prosesser kan utføres på alle slags data som databasedata og avanserte databaser som tidsserier etc. Data mining prosessen kommer også med sine egne utfordringer.

Følg med på vår kommende opplæring for å vite mer om Data Mining Eksempler!

PREV Opplæring | NESTE veiledning

Data Mining Process: Modeller, prosessstrinn og utfordringer involvert

Hva er data mining?

Datautvinning som en prosess

Data Mining Modeller

# 1) Standardprosess for datautvinning (CRISP-DM)

# 2) SEMMA (Sample, Explore, Modify, Model, Assess)

Trinn i prosessen med datautvinning

# 1) Datarengjøring

# 2) Dataintegrasjon

# 3) Datareduksjon

# 4) Datatransformasjon

# 5) Data Mining

# 6) Mønsterevaluering

# 7) Kunnskapsrepresentasjon

Data Mining Process i Oracle DBMS

Data Mining Process In Datawarehouse

Hva er anvendelsen av datautvinning?

Data Mining Utfordringer

Konklusjon

Anbefalt lesing

Interessante Artikler

Redaksjonens

Left 4 Dead er for tapere - prøv Left 2 Die

Nintendo DS blir Hot Tech-Cessory for motebevisste kvinner

Adept vs Amateur: Octopath Traveler Impressions

No More Heroes 3 drar til nye plattformer i oktober

With You, et søtt 15-minutters co-op 'date-spill', er gratis på Steam

15 BESTE verktøy og programvare for datavisualisering i 2021

Anmeldelse: Energy Hook

Slik kommer du deg til The Halls of Valor i WoW Dragonflight

Hvordan få Wild Stickers i Monopoly GO

Hvordan løfte skipet fra Tar Pits Jedi Survivor

PS4-portrapport: Zero Time Dilemma

Skurker: Jeg er ikke sikker på at du har rett for meg, Ganondorf