weka dataset classifier
Denne veiledningen forklarer WEKA-datasett, klassifiserings- og J48-algoritme for beslutningstreet. Gir også informasjon om ARFF-datasett for Weka:
I Forrige veiledning , vi lærte om Weka Machine Learning-verktøyet, dets funksjoner, og hvordan du laster ned, installerer og bruker Weka Machine Learning-programvare.
WEKA er et bibliotek med maskinlæringsalgoritmer for å løse data miningproblemer på ekte data. WEKA gir også et miljø for å utvikle mange maskinlæringsalgoritmer. Den har et sett med verktøy for å utføre ulike data mining-oppgaver, for eksempel dataklassifisering, dataklynging, regresjon, attributtvalg, hyppig utvinning av varesett og så videre.
Alle disse oppgavene kan utføres på sample.ARFF-filen som er tilgjengelig i WEKA-arkivet, eller brukere kan forberede datafilene. Eksemplet på .arff-filer er datasett som har innebygd historisk data samlet inn av forskere.
=> Les gjennom hele opplæringsserien for maskinlæring
I denne opplæringen vil vi se noen eksempler på datasett i WEKA og vil også utføre beslutningstreet algoritmedatamining ved hjelp av weather.arff datasett.
Hva du vil lære:
Utforske WEKA-datasett
WEKA maskinlæringsverktøy gir en katalog med noen eksempler på datasett. Disse datasettene kan lastes direkte inn i WEKA slik at brukerne kan begynne å utvikle modeller umiddelbart.
WEKA-datasettene kan utforskes fra koblingen 'C: Program Files Weka-3-8 data'. Datasettene er i .arff-format.
Eksempel på WEKA-datasett
Noen eksempler på datasett i WEKA er oppført i tabellen nedenfor:
S.No. | Eksempel på datasett |
---|---|
7. | diabetes |
1. | airline.arff |
2. | brystkreft. tøff |
3. | kontaktlinser.arff |
Fire. | cpu.arff |
5. | cpu.with-vendor.arff |
6. | kreditt-g.arff |
8. | glass.arff |
9. | hypothyroid.arff |
10. | ionospehre.arff |
elleve. | iris.2D.arff |
12. | iris.arff |
1. 3. | arbeidskraft |
14. | ReutersCorn-train.arff |
femten. | ReutersCorn-test.arff |
16. | ReutersGrain-train.arff |
17. | ReutersGrain-test.arff |
18. | segment-challenge.arff |
19. | segment-test.arff |
tjue. | soyabønne.arff |
tjueen. | supermarked.arff |
22. | ubalansert |
2. 3. | vote.arff |
24. | weather.numeric.arff |
25. | vær.nominal.arff |
La oss ta en titt på noen av disse:
kontaktlinser.arff
contact-lens.arff datasett er en database for montering av kontaktlinser. Den ble donert av giveren Benoit Julien i 1990.
Database: Denne databasen er komplett. Eksemplene som brukes i denne databasen er komplette og støyfrie. Databasen har 24 forekomster og 4 attributter.
Attributter: Alle fire attributtene er nominelle. Det mangler attributtverdier. De fire attributtene er som følger:
#1) Pasientens alder: Attributtalderen kan ta verdier:
- ung
- pre-presbyopisk
- presbyopisk
#to) Brilleresept: Dette attributtet kan ta verdier:
- nærsynthet
- hypermetrope
# 3) Astigmatic: Denne attributtet kan ta verdier
- Nei
- ja
# 4) Tåreproduksjon: Verdiene kan være
- redusert
- normal
Klasse: Tre klassemerker er definert her. Disse er:
- pasienten skal være utstyrt med harde kontaktlinser.
- pasienten skal være utstyrt med myke kontaktlinser.
- pasienten skal ikke utstyres med kontaktlinser.
Klassedistribusjon: Forekomstene som er klassifisert i klassetiketter er vervet nedenfor:
Klasseetikett | Ingen tilfeller | |
---|---|---|
1. | Harde kontaktlinser | 4 |
2. | Myke kontaktlinser | 5 |
3. | Ingen kontaktlinser | femten |
iris.arff
iris.arff datasett ble opprettet i 1988 av Michael Marshall. Det er Iris Plants-databasen.
konvertere flere youtube-videoer til mp3
Database: Denne databasen brukes til gjenkjenning av mønstre. Datasettet inneholder 3 klasser på 50 forekomster. Hver klasse representerer en type irisplante. Den ene klassen kan skilles lineært fra den andre 2, men sistnevnte kan ikke skilles lineært fra hverandre. Den forutsier hvilken art av de 3 irisblomstene observasjonen tilhører. Dette kalles et klassesettdatasett i flere klasser.
Attributter: Den har 4 numeriske, prediktive attributter og klassen. Det mangler attributter.
Attributtene er:
- sepal lengde i cm
- sepal bredde i cm
- kronbladlengde i cm
- kronbladbredde i cm
- klasse:
- Iris Setosa
- Iris Versicolor
- Iris Virginica
Oppsummeringsstatistikk:
Min | Maks | Mener | SD | Klassekorrelasjon | |
---|---|---|---|---|---|
sepal lengde | 4.3 | 7.9 | 5,84 | 0,83 | 0,7826 |
sepal bredde | 2.0 | 4.4 | 3.05 | 0,43 | -0,4194 |
kronbladlengde | 1.0 | 6.9 | 3,76 | 1,76 | 0.9490 (høy!) |
kronbladbredde | 0,1 | 2.5 | 1.20 | 0,76 | 0.9565 (høy!) |
Klassedistribusjon: 33,3% for hver av tre klasser
Noen andre datasett:
diabetes
Databasen til dette datasettet er Pima Indians Diabetes. Dette datasettet forutsier om pasienten er utsatt for å være diabetiker de neste 5 årene. Pasientene i dette datasettet er alle kvinner på minst 21 år fra Pima Indian Heritage. Den har 768 forekomster og 8 numeriske attributter pluss en klasse. Dette er et binært klassifiseringsdatasett der beregnet outputvariabel er nominell og består av to klasser.
ionosphere.arff
Dette er et populært datasett for binær klassifisering. Forekomsten i dette datasettet beskriver egenskapene til radarretur fra atmosfæren. Den brukes til å forutsi hvor ionosfæren har en eller annen struktur. Den har 34 numeriske attributter og en klasse.
Klasseattributtet er “bra” eller “dårlig” som forutsies basert på 34 attributtobservasjoner. De mottatte signalene behandles av autokorrelasjonsfunksjonen som tar tidspuls og pulsnummer som argumenter.
Regresjonsdatasett
Regresjonsdatasettene kan lastes ned fra WEKA-nettsiden “ Samlinger av datasett ”. Den har 37 regresjonsproblemer hentet fra forskjellige kilder. Den nedlastede filen vil opprette numerisk / katalog med regresjonsdatasett i .arff-format.
De populære datasettene i katalogen er: Longley økonomiske datasett (longley.arff), Boston husprisdatasett (Housing.arff), og sove i pattedyr datasett (sleep.arff).
La oss nå se hvordan vi identifiserer virkelig verdsatte og nominelle attributter i datasettet ved hjelp av WEKA explorer.
Hva er virkelig verdsatte og nominelle egenskaper
Virkelige verdifulle attributter er numeriske attributter som bare inneholder reelle verdier. Dette er målbare størrelser. Disse attributtene kan intervall skaleres slik som temperatur eller forhold skaleres slik som gjennomsnitt, median.
Nominelle attributter representerer navn eller noen representasjon av ting. Det er ingen orden i slike attributter, og de representerer en kategori. For eksempel, farge.
Følg trinnene som er oppført nedenfor for å bruke WEKA til å identifisere reelle verdier og nominelle attributter i datasettet.
#1) Åpne WEKA og velg “Utforsker” under ‘Applikasjoner’.
#to) Velg 'Pre-Process' -fanen. Klikk på 'Åpne fil'. Med WEKA-bruker kan du få tilgang til WEKA-eksempelfiler.
# 3) Velg inndatafilen fra WEKA3.8-mappen som er lagret på det lokale systemet. Velg den forhåndsdefinerte .arff-filen 'credit-g.arff' -filen og klikk på 'Åpne'.
# 4) En attributtliste åpnes på venstre panel. Valgt attributtstatistikk vises på høyre panel sammen med histogrammet.
Analyse av datasettet:
I venstre panel viser gjeldende forhold:
- Forholdet navn: german_credit er eksempelfilen.
- Forekomster: 1000 antall datarader i datasettet.
- Attributter: 21 attributter i datasettet.
Panelet under gjeldende forhold viser navnet på attributtene.
I høyre panel, den valgte attributtstatistikken vises. Velg attributt “kontrollstatus”.
Det viser:
- Navnet på attributtet
- Savnet: Eventuelle manglende verdier for attributtet i datasettet. 0% i dette tilfellet.
- Tydelig: Attributtet har 4 forskjellige verdier.
- Type: Attributtet er av den nominelle typen det vil si, det tar ikke noen numerisk verdi.
- Telle: Blant de 1000 forekomstene er tellingen av hver distinkt klassetikett skrevet i tellingskolonnen.
- Histogram: Det viser utgangsklassetiketten for attributtet. Klassemerket i dette datasettet er enten bra eller dårlig. Det er 700 forekomster av god (merket med blått) og 300 forekomster av dårlig (merket med rødt).
- For merkelappen<0, the instances for good or bad are almost the same in number.
- For etikett, 0<= X<200, the instances with decision good are more than instances with bad.
- Tilsvarende, for etikett> = 200, forekommer maksimale forekomster for godt, og ingen kontrolletiketter har flere forekomster med avgjørelsesgodt.
For neste attributt 'varighet'.
Det høyre panelet viser:
- Navn: Dette er navnet på attributtet.
- Type: Attributtypen er numerisk.
- Manglende verdi: Attributtet har ingen manglende verdi.
- Tydelig: Den har 33 forskjellige verdier i 1000 tilfeller. Det betyr at det i 1000 tilfeller har 33 forskjellige verdier.
- Unik: Den har 5 unike verdier som ikke samsvarer med hverandre.
- Minimum verdi: Minste verdien av attributtet er 4.
- Maksimal verdi: Maksimumsverdien for attributtet er 72.
- Mener: Gjennomsnitt er å legge til alle verdiene delt på forekomster.
- Standardavvik: Avvik fra attributtvarighet.
- Histogram: Histogrammet viser varigheten på 4 enheter, maksimalt forekommer for en god klasse. Når varigheten øker til 38 enheter, reduseres antall forekomster for etiketter av god klasse. Varigheten når 72 enheter som bare har en forekomst som klassifiserer avgjørelsen som dårlig.
Klassen er klassifiseringsfunksjonen til den nominelle typen. Den har to forskjellige verdier: bra og dårlig. Den gode klassemerket har 700 forekomster og den dårlige klassemerket har 300 forekomster.
For å visualisere alle attributtene til datasettet, klikk på “Visualiser alt”.
# 5) For å finne ut bare numeriske attributter, klikk på Filter-knappen. Derfra klikker du på Velg -> WEKA> FILTER -> Uovervåket type -> Fjern type.
WEKA-filtre har mange funksjoner for å transformere attributtverdiene til datasettet for å gjøre det egnet for algoritmene. For eksempel, den numeriske transformasjonen av attributter.
Filtrering av nominelle og virkelig verdsatte attributter fra datasettet er et annet eksempel på bruk av WEKA-filtre.
# 6) Klikk på Fjern type i filterfanen. Et objektredigeringsvindu åpnes. Velg attributt Skriv 'Slett numeriske attributter' og klikk på OK.
# 7) Bruk filteret. Bare numeriske attributter vises.
Klasseattributtet er av nominell type. Den klassifiserer utdataene og kan derfor ikke slettes. Dermed ses det med det numeriske attributtet.
Produksjon:
Egenskapene til virkelig verdi og nominelle verdier i datasettet identifiseres. Visualisering med klassemerket ses i form av histogrammer.
Weka Decision Tree Classification Algorithms
Nå skal vi se hvordan du implementerer beslutningstreetsklassifisering på weather.nominal.arff-datasettet ved hjelp av J48-klassifisereren.
vær.nominal.arff
Det er et eksempeldatasett som er til stede direkte fra WEKA. Dette datasettet forutsier om været er egnet for å spille cricket. Datasettet har 5 attributter og 14 forekomster. Klassemerket 'spill' klassifiserer utdataene som 'ja' eller 'nei'.
Hva er beslutningstreet
Decision Tree er klassifiseringsteknikken som består av tre komponenter rotnode, gren (kant eller lenke) og bladnode. Rot representerer testbetingelsen for forskjellige attributter, grenen representerer alle mulige utfall som kan være der i testen, og bladnoder inneholder etiketten til klassen den tilhører. Rotnoden er i begynnelsen av treet, som også kalles toppen av treet.
J48 klassifisering
Det er en algoritme for å generere et beslutningstreet som genereres av C4.5 (en utvidelse av ID3). Det er også kjent som en statistisk klassifikator. For klassifisering av beslutningstreet trenger vi en database.
Fremgangsmåten inkluderer:
#1) Åpne WEKA explorer.
#to) Velg weather.nominal.arff-fil fra 'velg fil' under alternativet for forhåndsbehandling.
# 3) Gå til 'Klassifiser' -fanen for å klassifisere uklassifiserte data. Klikk på 'Velg' -knappen. Fra dette velger du “trær -> J48”. La oss også se raskt på andre alternativer i Velg-knappen:
- Bayes: Det er en tetthetsestimering for numeriske attributter.
- Meta: Det er en lineær regresjon med flere responser.
- Funksjoner: Det er logistisk regresjon.
- Lat: Det setter blandingsentropien automatisk.
- Regel: Det er en regelelev.
- Trær: Trees klassifiserer dataene.
# 4) Klikk på Start-knappen. Klassifiseringsutgangen vises på høyre panel. Den viser kjøreinformasjonen i panelet som:
- Ordning: Klassifiseringsalgoritmen som brukes.
- Forekomster: Antall datarader i datasettet.
- Attributter: Datasettet har 5 attributter.
- Antall blader og størrelsen på treet beskriver beslutningstreet.
- Det tok tid å bygge modellen: Tid for produksjonen.
- Full klassifisering av J48 beskåret med attributtene og antall forekomster.
# 5) For å visualisere treet, høyreklikk på resultatet og velg visualiser treet.
Produksjon :
Resultatet er i form av et beslutningstreet. Hovedattributtet er “outlook”.
Hvis utsikten er solrik, deretter analyserer treet fuktigheten videre. Hvis luftfuktigheten er høy, er klassespillet = “ja”.
Hvis utsiktene er overskyet, klassemerket, lek er “ja”. Antall tilfeller som følger klassifiseringen er 4.
Hvis utsikten er regnfull, videre klassifisering finner sted for å analysere attributtet 'vind'. Hvis vind = sant, er spillet = “nei”. Antall tilfeller som følger klassifiseringen for utsikter = vind og vind = sant er 2.
Konklusjon
WEKA tilbyr et bredt utvalg av eksempeldatasett for å anvende maskinlæringsalgoritmer. Brukerne kan utføre maskinlæringsoppgaver som klassifisering, regresjon, attributtvalg, tilknytning til disse eksempeldatasettene, og kan også lære verktøyet ved hjelp av dem.
WEKA explorer brukes til å utføre flere funksjoner, fra forbehandling. Forbehandling tar input som en .arff-fil, behandler input og gir en output som kan brukes av andre dataprogrammer. I WEKA gir produksjonen av forbehandling de attributtene som er tilstede i datasettet, som kan brukes videre til statistisk analyse og sammenligning med klassetiketter.
WEKA tilbyr også mange klassifiseringsalgoritmer for beslutningstreet. J48 er en av de populære klassifiseringsalgoritmene som gir ut et beslutningstreet. Ved å bruke kategorien Klassifiser kan brukeren visualisere beslutningstreet. Hvis beslutningstreet er for fylt, kan treskjæring brukes fra Preprocess-fanen ved å fjerne attributtene som ikke er påkrevd og starte klassifiseringsprosessen på nytt.
=> Besøk her for den eksklusive maskinlæringsserien
Anbefalt lesing
- Weka Tutorial - Slik laster du ned, installerer og bruker Weka Tool
- Hvordan skrive komplekse forretningslogiske testscenarier ved hjelp av beslutningstabellteknikk
- WEKA Explorer: Visualisering, klynging, Association Rule Mining
- Beslutningstres algoritmeeksempler i datautvinning
- Beslutningstaking konstruerer i C ++
- B Tree og B + Tree Datastruktur i C ++
- Datastruktur for binært tre i C ++
- AVL Tree and Heap Datastruktur i C ++