data mining process
Denne grundige opplæringen for datautvinning forklarer hva som er datautvinning, inkludert prosesser og teknikker som brukes til dataanalyse:
La oss forstå betydningen av begrepet gruvedrift ved å ta eksemplet med gruvedrift av gull fra bergarter, som kalles gullgruvedrift. Her er det nyttige 'Gull', derfor kalles det gullgruvedrift.
På samme måte blir nyttig informasjon fra store mengder data kalt Knowledge mining, og er populært kjent som Data Mining. Med begrepet nyttig informasjon betegner vi dataene som kan hjelpe oss med å forutsi en produksjon.
For eksempel å finne trendene for å kjøpe en bestemt ting (si jern) av en bestemt aldersgruppe ( Eksempel: 40-70 år).
=>BLA NEDOVERfor å se hele listen over 7 dybdegående opplæringsdataopplæringer for nybegynnere
Hva du vil lære:
rotårsaksanalyse eksempler programvareutvikling
- Liste over opplæringsprogrammer for datautvinning
- Oversikt over opplæringsprogrammer i denne databrukserien
- Hva er data mining?
- Hvilke slags data kan utvinnes?
- Hvilke teknikker brukes i datautvinning?
- Hovedproblemer i dataanalyse
- Konklusjon
Liste over opplæringsprogrammer for datautvinning
Opplæring # 1: Data Mining: Prosess, teknikker og store problemer i dataanalyse (Denne opplæringen)
Opplæring # 2: Data Mining Techniques: Algorithm, Methods & Top Data Mining Tools
Opplæring # 3: Data Mining Process: Modeller, prosesstrinn og utfordringer involvert
Opplæring # 4: Data Mining Eksempler: De vanligste applikasjonene av Data Mining 2019
Opplæring # 5: Beslutningstres algoritmeeksempler i datautvinning
Opplæring # 6: Apriori-algoritme i datautvinning: implementering med eksempler
Opplæring # 7: Frequent Pattern (FP) Growth Algorithm In Data Mining
Oversikt over opplæringsprogrammer i denne databrukserien
Opplæringen # | Hva du vil lære |
---|---|
Opplæring_ # 7: | Frequent Pattern (FP) Growth Algorithm In Data Mining Dette er en detaljert opplæring om hyppig mønstervekstalgoritme som representerer databasen i form av et FP-tre. FP Growth Vs Apriori Comparison er også forklart her. |
Opplæring_ nr. 1: | Data Mining: Prosess, teknikker og store problemer i dataanalyse Denne grundige opplæringen for datautvinning forklarer hva som er datautvinning, inkludert prosesser og teknikker som brukes til dataanalyse. |
Opplæring_ 2: | Data Mining Techniques: Algorithm, Methods & Top Data Mining Tools Denne opplæringen om datautvinningsteknikker forklarer algoritmer, datautvinningsverktøy og metoder for å hente ut nyttige data. |
Opplæring_ # 3: | Data Mining Process: Modeller, prosesstrinn og utfordringer involvert Denne opplæringen om datautvinningsprosess dekker modeller for datamining, trinn og utfordringer involvert i datautvinningsprosessen. |
Opplæring_ # 4: | Data Mining Eksempler: De vanligste applikasjonene av Data Mining 2019 De mest populære eksemplene på datautvinning i det virkelige liv er omtalt i denne veiledningen. Du får vite mer om Data Mining Application i Finance, Marketing, Healthcare og CRM. |
Opplæring_ # 5: | Beslutningstres algoritmeeksempler i datautvinning Denne grundige veiledningen forklarer alt om beslutningstresalgoritme i datautvinning. Du vil lære om eksempler på beslutningstreet, algoritme og klassifisering. |
Opplæring_ # 6: | Apriori-algoritme i datautvinning: implementering med eksempler Dette er en enkel opplæring om Apriori-algoritme for å finne ut hyppige varesett i datautvinning. Du vil også bli kjent med trinnene i Apriori og forstå hvordan det fungerer. |
Hva er data mining?
Data Mining er i stor etterspørsel i dag, ettersom det hjelper bedriftene å studere hvordan salget av produktene deres kan øke. Vi kan forstå dette ved et eksempel på en motebutikk som registrerer hver av sine kunder som kjøper en vare fra butikken sin.
Basert på dataene gitt av kunden som alder, kjønn, inntektsgruppe, yrke, etc., vil butikken kunne finne ut hvilken type kunder som kjøper forskjellige produkter. Her kan vi se at navnet på kunden ikke er til nytte, ettersom vi ikke kan forutsi trenden med kjøp ved navn om den personen vil kjøpe et bestemt produkt eller ikke.
Dermed kan nyttig informasjon bli funnet ut ved hjelp av aldersgruppe, kjønn, inntektsgruppe, yrke, etc. Å søke etter kunnskap eller interessant mønster i data er 'Data Mining'. Andre begreper som kan brukes på plass er Knowledge Mining from data, Knowledge Extraction, Data Analysis, Pattern Analysis, etc.
Et annet begrep som ofte brukes i data mining er Knowledge Discovery from Data eller KDD.
Dataanalyseprosess
Kunnskapsprosessen er en sekvens av følgende trinn:
- Datarengjøring: Dette trinnet fjerner støy og inkonsekvente data fra inngangsdataene.
- Dataintegrasjon: Dette trinnet kombinerer flere datakilder. Datarengjøring og dataintegrering går sammen for å danne forbehandling av data. De forhåndsbehandlede dataene blir deretter lagret i datalageret.
- Valg av data: Disse trinnene velger dataene til analyseoppgaven fra databasen.
- Datatransformasjon: I dette trinnet brukes forskjellige dataaggregerings- og dataoppsummeringsteknikker for å transformere dataene til et nyttig skjema for gruvedrift.
- Datautvinning: I dette trinnet ekstraheres datamønstre ved å bruke intelligente metoder.
- Mønsterevaluering: De ekstraherte datamønstrene evalueres og gjenkjennes i henhold til interessanthetsmålene.
- Kunnskapsrepresentasjon: Visualisering og kunnskapsrepresentasjonsteknikker brukes til å presentere den utvunne kunnskapen for brukerne.
Trinn 1 til 4 kommer under databearbeidingsfasen. Her er data mining representert som et enkelt trinn, men det refererer til hele kunnskapsoppdagelsesprosessen.
Dermed kan vi si at dataanalyse er prosessen med å oppdage interessante mønstre og kunnskap fra en stor datamengde. Datakildene kan omfatte databaser, datalager, World Wide Web, flate filer og andre informative filer.
Hvilke slags data kan utvinnes?
De mest grunnleggende dataene for gruvedrift er databasedata, datalagerdata og transaksjonsdata. Datautvinningsteknikkene kan også brukes på andre former som datastrømmer, sekvensert data, tekstdata og romlige data.
# 1) Databasedata: Databasehåndteringssystemet er et sett med sammenhengende data og et sett med programvare for å administrere og få tilgang til dataene. Det relasjonelle databasesystemet er en samling av tabeller, og hver tabell består av et sett med attributter og tupler.
Gruvedrift av relasjonsdatabaser søker i trender og datamønstre F.eks . kredittrisiko hos kunder basert på alder, inntekt og tidligere kredittrisiko. Også gruvedrift kan finne ut avvik fra forventet F.eks. en betydelig prisøkning på en vare.
# 2) Data Warehouse Data: Et datalager er en samling informasjon samlet fra flere datakilder, lagret under et enhetlig skjema på en enkelt sit. En DW er modellert som en flerdimensjonal datastruktur kalt datakube med celler og dimensjoner som gir forhåndsberegning og raskere tilgang til data.
qa testing intervju spørsmål og svar
Datautvinning utføres i en OLAP-stil ved å kombinere dimensjonene på varierende granularitetsnivå.
# 3) Transaksjonsdata: Transaksjonsdata registrerer en transaksjon. Den har en transaksjons-ID og en liste over elementer som brukes i transaksjonen.
# 4) Andre typer data: Andre data kan omfatte: tidsrelaterte data, romlige data, hypertekstdata og multimediedata.
Hvilke teknikker brukes i datautvinning?
Data Mining er et svært applikasjonsdrevet domene. Mange teknikker som statistikk, maskinlæring, mønstergjenkjenning, informasjonsinnhenting, visualisering osv., Påvirker utviklingen av dataanalysemetoder.
La oss diskutere noen av dem her !!
Statistikk
Studien av innsamling, analyse, tolkning og presentasjon av data kan gjøres ved hjelp av statistiske modeller. For eksempel , kan statistikk brukes til å modellere støy og manglende data, og deretter kan denne modellen brukes i store datasett for å identifisere støy og manglende verdier i data.
Maskinlæring
ML brukes til å forbedre ytelsen basert på data. Hovedforskningsområdet er at dataprogrammer automatisk skal lære å gjenkjenne komplekse mønstre og ta intelligente beslutninger basert på dataene.
Machine Learning fokuserer på nøyaktighet og data mining fokuserer på effektiviteten og skalerbarheten til gruvedrift metoder på store datasett, komplekse data, etc.
Maskinlæring er av tre typer:
- Veiledet læring: Målet datasettet er kjent og maskinen er trent i henhold til måleverdiene.
- Uovervåket læring: Målverdiene er ikke kjent, og maskinene lærer av seg selv.
- Semi-overvåket læring: Den bruker både teknikkene for veiledet og uten tilsyn læring.
Informasjonsinnhenting (IR)
Det er vitenskapen om å søke etter dokumenter eller informasjon i dokumenter.
Den bruker to prinsipper:
- Data som skal søkes er ustrukturerte.
- Spørsmålene er dannet hovedsakelig av nøkkelord.
Ved å bruke dataanalyse og IR kan vi finne viktige emner i samlingen av dokumenter og også de viktigste emnene som er involvert i hvert dokument.
Hovedproblemer i dataanalyse
Data Mining har en rekke problemer knyttet til det som nevnt nedenfor:
Gruvedrift Metodikk
- Siden det er forskjellige applikasjoner, fortsetter nye gruveoppgaver å dukke opp. Disse oppgavene kan bruke den samme databasen på forskjellige måter og krever utvikling av nye data miningsteknikker.
- Mens vi søker etter kunnskap i store datasett, må vi utforske flerdimensjonalt rom. For å finne interessante mønstre, må forskjellige kombinasjoner av dimensjoner brukes.
- Usikre, støyende og ufullstendige data kan noen ganger føre til feil avledning.
Brukerinteraksjon
- Dataanalyseprosessen skal være svært interaktiv. Det er viktig for å legge til rette for gruveprosessen å være brukerinteraktiv.
- Domenekunnskapen, bakgrunnskunnskapen, begrensninger osv., Bør alle innlemmes i data mining prosessen.
- Kunnskapen som oppdages ved gruvedrift av dataene, kan være brukbar for mennesker. Systemet bør ta i bruk en uttrykksfull representasjon av kunnskap, brukervennlige visualiseringsteknikker, etc.
Effektivitet og skalerbarhet
- Data mining algoritmer bør være effektive og skalerbare for effektivt å trekke ut interessante data fra en enorm mengde data i datalagerene.
- Bred distribusjon av data, kompleksitet i beregning motiverer utviklingen av parallelle og distribuerte datakrevende algoritmer.
Mangfold av databasetyper
- Konstruksjonen av effektive og effektive dataanalyseverktøy for ulike applikasjoner, bredt spekter av datatyper fra ustrukturerte data, tidsdata, hypertekst, multimediedata og programvarekode er fortsatt et utfordrende og aktivt forskningsområde.
Sosial innvirkning
- Offentliggjøring for å bruke dataene og potensielt brudd på individets privatliv og beskyttelse av rettigheter er de bekymringsområdene som må tas opp.
Konklusjon
Data Mining hjelper i beslutningstaking og analyse av en stor mengde data. I dag er det den vanligste forretningsteknikken. Det tillater automatisk analyse av data og identifiserer populære trender og atferd.
Dataanalyse kan kombineres med maskinlæring, statistikk, kunstig intelligens, etc., for avansert dataanalyse og atferdstudie.
Data Mining bør brukes ved å ta i betraktning forskjellige faktorer, for eksempel kostnadene ved å hente ut informasjon og mønster fra databaser (komplekse algoritmer som krever ekspertressurser må brukes), type informasjon (ettersom historisk data kanskje ikke er den samme som den er i dag, så analysen vil ikke være nyttig).
Vi håper denne opplæringen beriket din kunnskap om begrepet Data Mining !!
Anbefalt lesing
- 10 beste verktøy for dataanalyse for perfekt datahåndtering (2021 LISTE)
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning
- De 10 beste verktøyene for datakarting som er nyttige i ETL-prosessen (2021 LIST)
- Hva er testdata? Testdata Klargjøringsteknikker med eksempel
- JMeter-dataparameterisering ved bruk av brukerdefinerte variabler
- Topp 15 beste gratis dataverktøy: Den mest omfattende listen
- 10+ beste datainnsamlingsverktøy med strategier for datainnsamling
- Data Pool Feature i IBM Rational Quality Manager for Test Data Management