weka tutorial how download
Denne WEKA-opplæringen forklarer hva som er Weka Machine Learning-verktøyet, dets funksjoner, og hvordan du laster ned, installerer og bruker Weka Machine Learning Software:
I Forrige veiledning , vi lærte om Support Vector Machine i ML og tilhørende konsepter som Hyperplane, Support Vectors & Applications of SVM.
Machine Learning er et vitenskapsfelt der maskiner fungerer som et kunstig intelligent system. Maskinene kan lære av seg selv uten å kreve noen eksplisitt koding. Det er en iterativ prosess som får tilgang til data, lærer av seg selv og forutsier resultatet. For å utføre maskinlæringsoppgaver kreves mange verktøy og skript.
WEKA er en maskinlæringsplattform som består av mange verktøy som muliggjør mange maskinlæringsaktiviteter.
=> Les gjennom hele opplæringsserien for maskinlæring
hvordan du konfigurerer junit i formørkelse
Hva du vil lære:
- Hva er WEKA
- Konklusjon
Hva er WEKA
Weka er et open source-verktøy designet og utviklet av forskere / forskere ved University of Waikato, New Zealand. WEKA står for Waikato Environment for Knowledge Analysis. Den er utviklet av det internasjonale vitenskapelige samfunnet og distribuert under gratis GNU GPL-lisens.
WEKA er fullt utviklet i Java. Det gir integrasjon med SQL-databasen ved hjelp av Java Database-tilkobling. Det gir mange maskinlæringsalgoritmer for å implementere data mining-oppgaver. Disse algoritmene kan enten brukes direkte ved hjelp av WEKA-verktøyet eller kan brukes med andre applikasjoner som bruker Java-programmeringsspråk.
Det gir mange verktøy for databehandling, klassifisering, klynging, regresjonsanalyse, oppretting av tilknytningsregel, ekstraksjon av funksjoner og datavisualisering. Det er et kraftig verktøy som støtter utviklingen av nye algoritmer innen maskinlæring.
Hvorfor bruke WEKA maskinlæringsverktøy
Med WEKA er maskinlæringsalgoritmene lett tilgjengelige for brukerne. ML-spesialistene kan bruke disse metodene til å hente ut nyttig informasjon fra store datamengder. Her kan spesialistene skape et miljø for å utvikle nye maskinlæringsmetoder og implementere dem på reelle data.
WEKA brukes av maskinlæring og anvendt vitenskap forskere for læringsformål. Det er et effektivt verktøy for å utføre mange data miningoppgaver.
WEKA nedlasting og installasjon
#1) Last ned programvaren fra her .
Sjekk konfigurasjonen til datasystemet og last ned den stabile versjonen av WEKA (for tiden 3.8) fra denne siden.
#to) Etter vellykket nedlasting, åpne filplasseringen og dobbeltklikk på den nedlastede filen. Step Up-veiviseren vises. Klikk på Neste.
# 3) Lisensavtalsvilkårene åpnes. Les den grundig og klikk på “Jeg er enig”.
# 4) I henhold til dine behov, velg komponentene som skal installeres. Full komponentinstallasjon anbefales. Klikk på Neste.
# 5) Velg målmappen og klikk på Neste.
# 6) Deretter starter installasjonen.
# 7) Hvis Java ikke er installert i systemet, installeres Java først.
# 8) Etter at installasjonen er fullført, vises følgende vindu. Klikk på Neste.
# 9) Merk av for Start Weka. Klikk på Fullfør.
# 10) Vinduet WEKA Tool and Explorer åpnes.
#elleve) WEKA-manualen kan lastes ned fra her.
Grafisk brukergrensesnitt av WEKA
GUI av WEKA gir fem alternativer: Utforsker, eksperimentator, kunnskapsflyt, arbeidsbenk og enkel CLI. La oss forstå hver av disse individuelt.
# 1) Enkel CLI
Enkel CLI er Weka Shell med kommandolinje og utgang. Med “hjelp” kan du se oversikten over alle kommandoene. Enkel CLI gir tilgang til alle klasser, for eksempel klassifiserere, klynger og filtre, etc.
Noen av de enkle CLI-kommandoene er:
- Gå i stykker: For å stoppe den gjeldende tråden
- Exit: Gå ut av CLI
- Hjelp() : Skriver ut hjelpen for den angitte kommandoen
- -java weka.classifiers.trees.J48 -t c: /temp/iris.arff: For å påkalle en WEKA-klasse, prefiks den med Java. Denne kommandoen vil lede WEKA til å laste klassen og utføre den med gitte parametere. I denne kommandoen påkalles J48-klassifikator på IRIS-datasettet.
# 2) Utforsker
WEKA Explorer-vinduene viser forskjellige faner som begynner med forhåndsbehandling. Opprinnelig er forhåndsbehandlingsfanen aktiv, da datasettet først blir forhåndsbehandlet før algoritmer brukes på det og utforsket datasettet.
Fanene er som følger:
- Forbehandling: Velg og modifiser innlastede data.
- Klassifisere: Bruk trenings- og testalgoritmer på dataene som vil klassifisere og regressere dataene.
- Klynge: Form klynger fra dataene.
- Forbinder: Min ut tilknytningsregel for dataene.
- Velg attributter: Attributtvalgtiltak brukes.
- Visualiser: 2D-representasjon av data er sett.
- Statuslinjen: Den nederste delen av vinduet viser statuslinjen. Denne delen viser hva som for øyeblikket skjer i form av en melding, for eksempel at en fil lastes inn. Høyreklikk på dette, Hukommelse informasjon kan sees, og også Løpe søppel samler for å frigjøre plass kan kjøres.
- Logg-knapp: Den lagrer en logg over alle handlinger i Weka med tidsstempelet. Logger vises i et eget vindu når du klikker på Logg-knappen.
- WEKA fugleikon: Tilstede nederst i høyre hjørne viser WEKA-fugl med representerer antall prosesser som kjører samtidig (av x.). Når prosessen er i gang, vil fuglen bevege seg.
# 3) Eksperimentator
WEKA eksperimentator-knappen lar brukerne lage, kjøre og endre forskjellige ordninger i ett eksperiment på et datasett. Eksperimenteren har to typer konfigurasjoner: Enkelt og avansert. Begge konfigurasjonene lar brukerne kjøre eksperimenter lokalt og på eksterne datamaskiner.
- 'Åpne' og 'Ny' -knappen åpner et nytt eksperimentvindu som brukerne kan gjøre.
- Resultater: Angi resultatmålfilen fra ARFF, JDFC og CSV-fil.
- Eksperimenttype: Brukeren kan velge mellom kryssvalidering og tog- / testprosentandel. Brukeren kan velge mellom Klassifisering og Regresjon basert på datasettet og klassifisereren som brukes.
- Datasett: Brukeren kan bla gjennom og velge datasett herfra. Avkrysningsruten for den relative stien klikkes hvis du arbeider på forskjellige maskiner. Formatet for datasett som støttes er ARFF, C4.5, CSV, libsvm, bsi og XRFF.
- Iterasjon: Standard iterasjonsnummer er satt til 10. Datasett først og algoritmer hjelper først med å veksle mellom datasett og algoritmer slik at algoritmer kan kjøres på alle datasett.
- Algoritmer: Nye algoritmer blir lagt til av “Ny knapp”. Brukeren kan velge en klassifikator.
- Lagre eksperimentet ved hjelp av Lagre-knappen.
- Kjør eksperimentet ved hjelp av Run-knappen.
# 4) Kunnskapsflyt
Kunnskapsflyt viser en grafisk fremstilling av WEKA-algoritmer. Brukeren kan velge komponentene og opprette en arbeidsflyt for å analysere datasettene. Dataene kan håndteres batchvis eller trinnvis. Parallelle arbeidsflyter kan utformes, og hver vil kjøre i en egen tråd.
De forskjellige komponentene som er tilgjengelige er Datakilder, dataservere, filtre, klassifikatorer, klynger, evaluering og visualisering.
# 5) Arbeidsbenk
WEKA har arbeidsbenkmodul som inneholder alle GUI-ene i ett vindu.
Funksjoner av WEKA Explorer
# 1) Datasett
Et datasett er laget av elementer. Det representerer et objekt for eksempel: i markedsføringsdatabasen, vil den representere kunder og produkter. Datasettene er beskrevet av attributter. Datasettet inneholder datatupler i en database. Et datasett har attributter som kan være nominelle, numeriske eller streng. I Weka er datasettet representert av weka.core.Instances klasse.
Representasjon av datasettet med 5 eksempler:
@data
solrik, FALSK, 85,85, nr
solrik, SANT, 80,90, nr
overskyet, FALSE, 83,86, ja
regnfull, FALSK, 70,96, ja
regnfull, FALSK, 68,80, ja
Hva er et attributt?
Et attributt er et datafelt som representerer karakteristikken til et dataobjekt. For eksempel, i en kundedatabase vil attributtene være customer_id, customer_email, customer_address, etc. Attributter har forskjellige typer.
Disse mulige typene er:
A) Nominelle attributter: Attributt som er relatert til et navn og har forhåndsdefinerte verdier som farge, vær. Disse attributtene kalles kategoriske attributter . Disse attributtene har ikke noen rekkefølge, og deres verdier kalles også enumerasjoner.
@attribute outlook {solrik, overskyet, regnfull}: erklæring om det nominelle attributtet.
B) Binære egenskaper: Disse attributtene representerer bare verdiene 0 og 1. Dette er typen nominelle attributter med bare to kategorier. Disse attributtene kalles også boolsk.
C) Ordinære attributter: Attributtene som bevarer en viss orden eller rangering blant dem er ordinære attributter. Suksessive verdier kan ikke forutsies, men bare orden opprettholdes. Eksempel: størrelse, karakter osv.
D) Numeriske attributter: Attributter som representerer målbare størrelser er numeriske attributter. Disse er representert med reelle tall eller heltall. Eksempel: temperatur, fuktighet.
@attribute fuktighet ekte: erklæring om et numerisk attributt
E) Strengegenskaper: Disse attributtene representerer en liste med tegn som er representert i dobbelt anførselstegn.
# 2) ARFF Dataformat
WEKA jobber med ARFF-filen for dataanalyse. ARFF står for Attribute Relation File Format. Den har tre seksjoner: forhold, attributter og data. Hver seksjon starter med “@”.
ARFF-filer har dataattributter for nominell, numerisk, streng, dato og relasjon. Noen av de kjente datasettene for maskinlæring er til stede i WEKA som ARFF.
Format for ARFF er:
@forhold
@Egenskap
@data
Et eksempel på en ARFF-fil er:
@relation weather @attribute outlook {sunny, overcast, rainy}: @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} //class attribute: The class attribute represents the output. @data sunny, FALSE,85,85,no sunny, TRUE,80,90,no overcast, FALSE,83,86,yes rainy, FALSE,70,96,yes rainy, FALSE,68,80,yes
# 3) XRFF-dataformat
XRFF står for XML-attributtet Relation File Format. Den representerer data som kan lagre kommentarer, attributter og instansvekter. Den har filtypen .xrff og .xrff.gz (komprimert format). XRFF-filene representerte data i XML-format.
# 4) Databasetilkobling
Med WEKA er det enkelt å koble til en database ved hjelp av en JDBC-driver. JDBC-driveren er nødvendig for å koble til databasen, eksempel:
MS SQL Server (com.microsoft.jdbc.sqlserver.SQLServerDriver)
Oracle (oracle.jdbc.driver.OracleDriver)
# 5) Klassifikatorer
For å forutsi utdataene inneholder WEKA klassifikatorer. Klassifiseringsalgoritmene som er tilgjengelige for læring er beslutningstrær, støttevektormaskiner, forekomstbaserte klassifiserere og logistisk regresjon og Bayesiske nettverk. Avhengig av kravet ved bruk av prøving og test, kan brukeren finne ut en passende algoritme for analyse av data. Klassifikatorer brukes til å klassifisere datasettene basert på egenskapene til attributtene.
# 6) Klynging
WEKA bruker kategorien Cluster for å forutsi likhetene i datasettet. Basert på gruppering kan brukeren finne ut attributtene som er nyttige for analyse og ignorere andre attributter. De tilgjengelige algoritmene for klynging i WEKA er k-middel, EM, Spindelvev, X-middel og FarhtestFirst.
# 7) Forening
Den eneste algoritmen som er tilgjengelig i WEKA for å finne ut tilknytningsregler, er Apriori.
# 8) Attributt Seksjonstiltak
WEKA bruker to tilnærminger for best attributtvalg for beregningsformål:
- Ved hjelp av algoritmen for søkemetoden: Beste-først, fremovervalg, tilfeldig, uttømmende, genetisk algoritme og rangeringsalgoritme.
- Ved hjelp av algoritmer for evalueringsmetode: Korrelasjonsbasert, wrapper, informasjonsgevinst, chi-squared.
# 9) Visualisering
WEKA støtter 2D-representasjon av data, 3D-visualiseringer med rotasjon og 1D-representasjon av enkeltattributt. Den har 'Jitter' -alternativet for nominelle attributter og 'skjulte' datapunkter.
Andre hovedtrekk ved WEKA er:
- Det er et åpen kildekodeverktøy med grafisk brukergrensesnitt i form av “Explorer”, “Experimenter” og “Knowledge Flow”.
- Det er plattformuavhengig.
- Den inneholder 49 databehandlingsverktøy.
- 76 klassifiserings- og regresjonsalgoritmer, 8 klyngealgoritmer er til stede i WEKA
- Den har 15 attributtvalgalgoritmer og 10 funksjonsvalgalgoritmer.
- Den har 3 algoritmer for å finne tilknytningsregel.
- Ved hjelp av WEKA kan brukere utvikle tilpasset kode for maskinlæring.
Konklusjon
I denne WEKA-opplæringen ga vi en introduksjon til WEKA Machine Learning Software med åpen kildekode og forklarte trinnvis nedlasting og installasjonsprosess. Vi har også sett de fem alternativene som er tilgjengelige for Weka Graphical User Interface, nemlig Explorer, Experimenter, Knowledge flow, Workbench og Simple CLI.
Vi har også lært om funksjonene til WEKA med eksempler. Funksjonene inkluderer datasett, ARFF dataformat, databasetilkobling, etc.
=> Besøk her for den eksklusive maskinlæringsserien
Anbefalt lesing
- WEKA-datasett, klassifiserings- og J48-algoritme for beslutningstreet
- WEKA Explorer: Visualisering, klynging, Association Rule Mining
- De 11 mest populære maskinlæringsverktøyene i 2021
- En komplett guide til kunstig nevralt nettverk innen maskinlæring
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning
- Machine Learning Tutorial: Introduksjon til ML og dets applikasjoner
- Topp 13 BESTE maskinlæringsselskaper (Oppdatert 2021-liste)
- Hva er Support Vector Machine (SVM) i maskinlæring