weka explorer visualization
Denne opplæringen forklarer hvordan du utfører datavisualisering, K-betyr klyngeanalyse og tilknytningsregelmining ved hjelp av WEKA Explorer:
I Forrige veiledning , lærte vi om WEKA-datasett, klassifiserings- og J48-algoritme for beslutningstreet.
Som vi har sett før, er WEKA et åpen kildekodeverktøy som brukes av mange forskere og studenter til å utføre mange maskinlæringsoppgaver. Brukerne kan også bygge sine maskinlæringsmetoder og utføre eksperimenter på eksempeldatasett gitt i WEKA-katalogen.
Datavisualisering i WEKA kan utføres ved hjelp av eksempeldatasett eller brukerlagde datasett i .arff, .csv-format.
=> Les gjennom hele opplæringsserien for maskinlæring
Association Rule Mining utføres ved bruk av Apriori-algoritmen. Det er den eneste algoritmen som tilbys av WEKA som utfører hyppig mønsterdrift.
Det er mange algoritmer til stede i WEKA for å utføre klyngeanalyse som FartherestFirst, FilteredCluster og HierachicalCluster, etc. Av disse vil vi bruke SimpleKmeans, som er den enkleste metoden for klynging.
Hva du vil lære:
- Association Rule Mining ved hjelp av WEKA Explorer
- K-betyr algoritme ved hjelp av WEKA Explorer
- Implementere datavisualisering ved hjelp av WEKA
- Konklusjon
Association Rule Mining ved hjelp av WEKA Explorer
La oss se hvordan vi implementerer Association Rule Mining ved hjelp av WEKA Explorer.
Association Rule Mining
Den er utviklet og designet av Srikant og Aggarwal i 1994. Det hjelper oss å finne mønstre i dataene. Det er en data mining prosess som finner funksjoner som forekommer sammen eller funksjoner som er korrelert.
intervjuspørsmål for helpdesk
Anvendelser av tilknytningsregler inkluderer markedskurvanalyse for å analysere varene som er kjøpt i en enkelt kurv; Cross Marketing, for å jobbe med andre virksomheter som øker verdien av forretningsproduktet vårt, for eksempel bilforhandler og Oil Company.
Foreningsregler blir utvunnet etter at hyppige varesett i et stort datasett er funnet. Disse datasettene blir funnet ved hjelp av gruvedriftsalgoritmer som Apriori og FP Growth. Hyppig Itemset gruvedrift gruvedata ved hjelp av støtte- og tillitstiltak.
Støtte og tillit
Brukerstøtte måler sannsynligheten for at to varer blir kjøpt sammen i en enkelt transaksjon, for eksempel brød og smør. Selvtillit er et mål som angir sannsynligheten for at to varer blir kjøpt etter hverandre, men ikke sammen, for eksempel antivirusprogramvare for bærbar PC og datamaskin.
Minimum terskelstøtte og minimum terskelverdier antas å beskjære transaksjonene og finne ut det hyppigst forekommende varesettet.
Implementering ved hjelp av WEKA Explorer
WEKA inneholder en implementering av Apriori-algoritme for læringsforeningsregler. Apriori fungerer bare med binære attributter, kategoriske data (nominelle data), så hvis datasettet inneholder noen numeriske verdier, konverterer de dem til nominelle først.
Apriori finner ut alle regler med minimum støtte og tillitsterskel.
Følg trinnene nedenfor:
#1) Forbered et Excel-fildatasett og navngi det som “ apriori.csv '.
#to) Åpne WEKA Explorer og velg 'apriori.csv' -fil under Preprocess-fanen.
# 3) Filen lastes nå inn i WEKA Explorer.
# 4) Fjern transaksjonsfeltet ved å merke av i avmerkingsboksen og klikke på Fjern som vist på bildet nedenfor. Lagre nå filen som “aprioritest.arff”.
# 5) Gå til kategorien Associate. Apriori-reglene kan utvinnes herfra.
# 6) Klikk på Velg for å angi støtte- og tillitsparametere. De forskjellige parametrene som kan stilles inn her er:
- ' lowerBoundMinSupport ”Og“ upperBoundMinSupport ”, Dette er støttenivåintervallet som algoritmen vår vil fungere i.
- Delta er økningen i støtten. I dette tilfellet er 0,05 trinnet for støtte fra 0,1 til 1.
- metricType kan være “Tillit”, “Løft”, “Utnyttelse” og “Overbevisning”. Dette forteller oss hvordan vi rangerer foreningsreglene. Generelt velges tillit.
- numRules forteller antall foreningsregler som skal utvinnes. Som standard er den satt til 10.
- Signifikansnivå skildrer hva som er betydningen av tillitsnivået.
# 7) Tekstboksen ved siden av valgknappen viser “ Apriori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 ”, Som viser de oppsummerte reglene som er satt for algoritmen i innstillingsfanen.
# 8) Klikk på Start-knappen. Foreningsreglene genereres i høyre panel. Dette panelet består av to seksjoner. Først er algoritmen, datasettet valgt å kjøre. Den andre delen viser Apriori-informasjonen.
La oss forstå kjøreinformasjonen i høyre panel:
- Ordningen brukte oss Apriori.
- Forekomster og attributter: Den har 6 forekomster og 4 attributter.
- Minimum støtte og minimum tillit er henholdsvis 0,4 og 0,9. Av 6 forekomster, er 2 forekomster funnet med min støtte,
- Antall sykluser utført for gruveforeningsregelen er 12.
- De genererte store artikelsettene er 3: L (1), L (2), L (3), men disse er ikke rangert da størrelsene er henholdsvis 7, 11 og 5.
- Regler funnet er rangert. Tolkningen av disse reglene er som følger:
- Smør T 4 => Øl F 4: betyr at av 6 viser 4 tilfeller at øl er usant for smør. Dette gir en sterk tilknytning. Tillitsnivå er 0,1.
Produksjon
Foreningens regler kan utvinnes ved hjelp av WEKA Explorer med Apriori Algorithm. Denne algoritmen kan brukes på alle typer datasett tilgjengelig i WEKA-katalogen, så vel som andre datasett laget av brukeren. Støtte og tillit og andre parametere kan stilles inn ved hjelp av innstillingsvinduet til algoritmen.
K-betyr algoritme ved hjelp av WEKA Explorer
La oss se hvordan vi implementerer K-betyr-algoritmen for klynging ved hjelp av WEKA Explorer.
Hva er klyngeanalyse
Clustering Algorithms er læringsalgoritmer uten tilsyn som brukes til å lage grupper av data med lignende egenskaper. Den samler objekter med likheter i grupper og undergrupper, og fører til partisjonering av datasett. Klyngeanalyse er prosessen med deling av datasett i delmengder. Disse delmengdene kalles klynger og settet med klynger kalles klynging.
Klyngeanalyse brukes i mange applikasjoner som bildegjenkjenning, mønstergjenkjenning, websøk og sikkerhet, i forretningsinformasjon som gruppering av kunder med lignende smak.
Hva er K-betyr klynging
K betyr at klynging er den enkleste klyngealgoritmen. I K-Clustering-algoritmen er datasettet delt inn i K-klynger. En objektiv funksjon brukes til å finne kvaliteten på partisjonene slik at lignende objekter er i en klynge og forskjellige objekter i andre grupper.
I denne metoden er det funnet at midten til en klynge representerer en klynge. Centroid blir tatt som sentrum av klyngen som beregnes som gjennomsnittsverdien av poeng i klyngen. Nå er kvaliteten på klynging funnet ved å måle den euklidiske avstanden mellom punktet og sentrum. Denne avstanden skal være maks.
Hvordan fungerer K-Mean Clustering Algorithm
Trinn 1: Velg en verdi på K der K er antall klynger.
Steg 2: Iterer hvert punkt og tilordner klyngen som har nærmeste sentrum. Når hvert element blir iterert, må du beregne sentroid av alle klyngene.
Trinn 3: Iterer hvert element fra datasettet og beregne den euklidiske avstanden mellom punktet og midtpunktet i hver klynge. Hvis noe punkt er tilstede i klyngen som ikke er nærmest den, tilordner du det punktet til nærmeste klynge, og etter å ha utført dette til alle punktene i datasettet, beregner du igjen sentroid for hver klynge.
Trinn 4: Utfør trinn 3 til det ikke er noe nytt oppdrag som fant sted mellom de to påfølgende iterasjonene.
K-betyr Clustering Implementation Using WEKA
Trinnene for implementering ved bruk av Weka er som følger:
#1) Åpne WEKA Explorer og klikk på Åpne fil i kategorien Forbehandling. Velg datasett “vote.arff”.
#to) Gå til 'Cluster' -fanen og klikk på 'Velg' -knappen. Velg klyngemetoden som “SimpleKMeans”.
# 3) Velg Innstillinger og angi følgende felt:
- Avstand fungerer som euklidisk
- Antall klynger som 6. Med flere klynger vil summen av kvadratfeilen reduseres.
- Frø som 10. av
Klikk på Ok og start algoritmen.
# 4) Klikk på Start i venstre panel. Algoritmen viser resultater på den hvite skjermen. La oss analysere kjøreinformasjonen:
- Skjema, relasjon, forekomster og attributter beskriver egenskapen til datasettet og klyngemetoden som brukes. I dette tilfellet har vote.arff-datasettet 435 forekomster og 13 attributter.
- Med Kmeans-klyngen er antall iterasjoner 5.
- Summen av den kvadrerte feilen er 1098,0. Denne feilen vil reduseres med en økning i antall klynger.
- De 5 siste klyngene med sentroider er representert i form av en tabell. I vårt tilfelle er sentroider av klynger 168.0, 47.0, 37.0, 122.0.33.0 og 28.0.
- Klyngede forekomster representerer antall og prosentandel av totale forekomster som faller i klyngen.
# 5) Velg “Classes to Clusters Evaluations” og klikk på Start.
Algoritmen tildeler klassetiketten til klyngen. Klynge 0 representerer republikaner og Klynge 3 representerer demokrat. Den feilklyngede forekomsten er 39,77%, som kan reduseres ved å ignorere de uviktige attributtene.
# 6) Å ignorere de uviktige attributtene. Klikk på “Ignorer attributter” -knappen og velg attributtene som skal fjernes.
# 7) Bruk 'Visualiser' -fanen for å visualisere Clustering-algoritmeresultatet. Gå til fanen og klikk på hvilken som helst rute. Flytt Jitter til maks.
- X-aksen og Y-aksen representerer attributtet.
- Den blå fargen representerer klassemerkedemokrat, og den røde fargen representerer klassemerket republikansk.
- Jitter brukes til å se klynger.
- Klikk på boksen på høyre side av vinduet for å endre x-koordinatattributtet og se gruppering med hensyn til andre attributter.
Produksjon
K betyr klynging er en enkel klyngeanalysemetode. Antall klynger kan stilles inn ved å bruke innstillingsfanen. Sentroid av hver klynge beregnes som gjennomsnittet av alle punkter i klyngene. Med økningen i antall klynger reduseres summen av kvadratfeil. Objektene i klyngen har lignende egenskaper og egenskaper. Klyngene representerer klassetikettene.
Implementere datavisualisering ved hjelp av WEKA
Datavisualisering
Metoden for å representere data gjennom grafer og plotter med sikte på å forstå data tydelig er datavisualisering.
Det er mange måter å representere data på. Noen av dem er som følger:
# 1) Pixelorientert visualisering: Her representerer fargen på pikselet dimensjonsverdien. Fargen på pikselet representerer de tilsvarende verdiene.
# 2) Geometrisk representasjon: De flerdimensjonale datasettene er representert i 2D-, 3D- og 4D-spredningsdiagrammer.
# 3) Ikonbasert visualisering: Dataene er representert ved hjelp av Chernoffs ansikter og stikkfigurer. Chernoffs ansikter bruker menneskets sinns evne til å gjenkjenne ansiktsegenskaper og forskjeller mellom dem. Stick-figuren bruker 5 stick-figurer for å representere flerdimensjonale data.
# 4) Hierarkisk datavisualisering: Datasettene er representert ved hjelp av treemaps. Den representerer hierarkiske data som et sett med nestede trekanter.
Datavisualisering ved hjelp av WEKA Explorer
Datavisualisering ved hjelp av WEKA gjøres på datasettet IRIS.arff.
Fremgangsmåten er som følger:
#1) Gå til Preprocess-fanen og åpne IRIS.arff-datasettet.
#to) Datasettet har 4 attributter og 1 klassetikett. Attributtene i dette datasettet er:
- Sepallengde: Type -nummer
- Sepalwidth: Typetall
- Petalength: Typetall
- Petalwidth: Typetall
- Klasse: Type-nominell
# 3) For å visualisere datasettet, gå til Visualiser-fanen. Fanen viser attributtene plot matrix. Datasettattributtene er merket på x-aksen og y-aksen mens forekomsten er plottet. Boksen med attributt for x-akse og attributt for y-akse kan forstørres.
# 4) Klikk på ruten til plottet for å forstørre. For eksempel, x: petallength og y: petalwidth. Klassemerkene er representert i forskjellige farger.
- Klassemerket - Iris-setosa: blå farge
- Klassemerket - Iris-versicolor: rød
- Klassemerking-Iris-virginica-grønn
Disse fargene kan endres. For å endre farge, klikk på klassetiketten nederst, et fargevindu vises.
# 5) Klikk på forekomsten representert av ‘x’ i plottet. Det vil gi forekomsten detaljer. For eksempel:
- Forekomstnummer: 91
- Sepalengde: 5.5
- Sepalwidth: 2.6
- Petalength: 4.4
- Petalwidth: 1.2
- Klasse: Iris-versicolor
Noen av punktene i handlingen virker mørkere enn andre punkter. Disse punktene representerer 2 eller flere forekomster med samme klassemerking og samme verdi av attributter som er tegnet på grafen, for eksempel petalwidth og petallength.
Figuren nedenfor representerer et punkt med 2 instansinformasjon.
forretningsobjekter intervjuer spørsmål og svar
# 6) Attributtene X og Y-aksen kan endres fra høyre panel i Visualiser graf. Brukeren kan se forskjellige plott.
# 7) Jitteren brukes til å tilføre plottet tilfeldighet. Noen ganger overlapper punktene. Med jitter representerer de mørkere flekkene flere forekomster.
# 8) For å få en klarere oversikt over datasettet og fjerne outliers, kan brukeren velge en forekomst fra rullegardinmenyen. Klikk på rullegardinmenyen 'velg forekomst'. Velg “Rektangel”. Med dette vil brukeren kunne velge punkter i plottet ved å tegne et rektangel.
# 9) Klikk på “Send”. Bare de valgte datasettpunktene vises, og de andre punktene ekskluderes fra grafen.
Figuren nedenfor viser punktene fra den valgte rektangulære formen. Plottet representerer poeng med bare 3 klassemerker. Brukeren kan klikke på 'Lagre' for å lagre datasettet eller 'Tilbakestill' for å velge en annen forekomst. Datasettet lagres i en egen .ARFF-fil.
Produksjon:
Datavisualisering ved hjelp av WEKA er forenklet ved hjelp av boksplottet. Brukeren kan se hvilket som helst granularitetsnivå. Attributtene er tegnet på X-aksen og y-aksen mens forekomsten er tegnet opp mot X- og Y-aksen. Noen punkter representerer flere forekomster som er representert av punkter med mørk farge.
Konklusjon
WEKA er et effektivt data mining verktøy for å utføre mange data mining oppgaver samt eksperimentere med nye metoder over datasett. WEKA er utviklet av Institutt for informatikk, University of Waikato i New Zealand.
Dagens verden er overveldet med data fra shopping i supermarkedet til sikkerhetskameraer hjemme hos oss. Data mining bruker disse rådataene, konverterer den til informasjon for å komme med spådommer. WEKA ved hjelp av Apriori Algorithm hjelper i regler for gruvedrift i datasettet. Apriori er en hyppig algoritme for mønsterdrift som teller antall forekomster av et varesett i transaksjonen.
Klyngeanalyse er en teknikk for å finne ut klynger av data som representerer lignende egenskaper. WEKA tilbyr mange algoritmer for å utføre klyngeanalyse der simplekmeans er høyt brukt.
Datavisualisering i WEKA kan utføres på alle datasett i WEKA-katalogen. Rå datasettet kan sees så vel som andre resulterende datasett for andre algoritmer som klassifisering, klynging og tilknytning kan visualiseres ved hjelp av WEKA.
=> Besøk her for den eksklusive maskinlæringsserien
Anbefalt lesing
- Weka Tutorial - Slik laster du ned, installerer og bruker Weka Tool
- WEKA-datasett, klassifiserings- og J48-algoritme for beslutningstreet
- 15 BESTE verktøy og programvare for datavisualisering i 2021
- D3.js Tutorial - Data Visualization Framework For Beginners
- D3.js Data Visualization Tutorial - Shapes, Graph, Animation
- 7 Prinsipper for programvaretesting: Feilklynging og Pareto-prinsipp
- Data Mining: Prosess, teknikker og store problemer i dataanalyse
- Data Mining Techniques: Algorithm, Methods & Top Data Mining Tools