Beslutningstres algoritmeeksempler i datautvinning

decision tree algorithm examples data mining

Prøv Instrumentet Vårt For Å Eliminere Problemer

Velg Operativsystemet Velg Et Projeksjonsprogram (Valgfritt)

Beskriv Problemet Ditt

Denne grundige veiledningen forklarer alt om beslutningstresalgoritme i datautvinning. Du vil lære om eksempler på beslutningstreet, algoritme og klassifisering:

Vi så på et par Eksempler på datautvinning i vår forrige opplæring i Gratis Data Mining Training Series .

Decision Tree Mining er en type data miningsteknikk som brukes til å bygge klassifiseringsmodeller. Den bygger klassifiseringsmodeller i form av en trelignende struktur, akkurat som navnet. Denne typen gruvedrift tilhører overvåket klasselæring.

I veiledet læring er målresultatet allerede kjent. Beslutningstrær kan brukes til både kategoriske og numeriske data. De kategoriske dataene representerer kjønn, sivilstand osv. Mens de numeriske dataene representerer alder, temperatur osv.

beste ide for python på mac

Decision Tree Mining Algorithm

Et eksempel på et beslutningstreet med datasettet er vist nedenfor.

DecsionTree

(bilde kilde )

Hva du vil lære:

Hva er bruken av et beslutningstreet?

Decision Tree brukes til å bygge klassifiserings- og regresjonsmodeller. Den brukes til å lage datamodeller som vil forutsi klassetiketter eller verdier for beslutningsprosessen. Modellene er bygget fra opplæringsdatasettet som blir matet til systemet (veiledet læring).

Ved hjelp av et beslutningstreet kan vi visualisere beslutningene som gjør det enkelt å forstå, og det er dermed en populær data miningsteknikk.

Klassifiseringsanalyse

Dataklassifisering er en form for analyse som bygger en modell som beskriver viktige klassevariabler.For eksempel, en modell bygget for å kategorisere søknader om banklån som trygge eller risikofylte. Klassifiseringsmetoder brukes i maskinlæring og mønstergjenkjenning.

Anvendelse av klassifisering inkluderer oppdagelse av svindel, medisinsk diagnose, målmarkedsføring, etc. Utdataene fra klassifiseringsproblemet blir sett på som 'Mode' for alle observerte verdier i terminalnoden.

En to-trinns prosess følges for å bygge en klassifiseringsmodell.

I det første trinnet, dvs. læring: Det bygges en klassifiseringsmodell basert på treningsdata.
I det andre trinnet, dvs. klassifisering, blir nøyaktigheten til modellen sjekket, og deretter brukes modellen til å klassifisere nye data. Klassemerkene som presenteres her er i form av diskrete verdier som “ja” eller “nei”, “trygt” eller “risikabelt”.

Den generelle tilnærmingen for klassifiseringsmodeller for bygninger er gitt nedenfor:

Tilnærming for bygningsklassifiseringsmodell

(bilde kilde )

Regresjonsanalyse

Regresjonsanalyse brukes for å forutsi numeriske attributter.

Numeriske attributter kalles også kontinuerlige verdier. En modell bygget for å forutsi kontinuerlige verdier i stedet for klassetiketter kalles regresjonsmodellen. Resultatet av regresjonsanalyse er 'gjennomsnittet' av alle observerte verdier i noden.

Hvordan fungerer et beslutningstreet?

Et beslutningstre er en overvåket læringsalgoritme som fungerer for både diskrete og kontinuerlige variabler. Det deler datasettet i delmengder på grunnlag av det viktigste attributtet i datasettet. Hvordan beslutningstreet identifiserer dette attributtet og hvordan denne splittingen gjøres, bestemmes av algoritmene.

Den mest betydningsfulle prediktoren er betegnet som rotnoden, splitting gjøres for å danne undernoder kalt beslutningsnoder, og nodene som ikke deler seg videre er terminal- eller bladnoder.

I beslutningstreet er datasettet delt inn i homogene og ikke-overlappende regioner. Det følger en top-down-tilnærming da toppregionen presenterer alle observasjonene på et enkelt sted som deler seg i to eller flere grener som splittes ytterligere. Denne tilnærmingen kalles også a grådig tilnærming da det bare tar hensyn til den nåværende noden mellom de jobbet uten å fokusere på fremtidige noder.

Beslutningstresalgoritmene vil fortsette å kjøre til et stoppkriterium som minimum antall observasjoner etc. er nådd.

Når et beslutningstreet er bygget, kan mange noder representere outliers eller støyende data. Treskjæringsmetode brukes for å fjerne uønskede data. Dette forbedrer i sin tur nøyaktigheten til klassifiseringsmodellen.

For å finne nøyaktigheten til modellen, brukes et testsett som består av testplater og klassetiketter. Prosentandelen av testsett-tuplene er korrekt klassifisert av modellen for å identifisere nøyaktigheten til modellen. Hvis modellen blir funnet å være nøyaktig, brukes den til å klassifisere datatuplene som klassemerkene ikke er kjent for.

Noen av beslutningstreetalgoritmene inkluderer Hunt's Algorithm, ID3, CD4.5 og CART.

Eksempel på å lage et beslutningstreet

(Eksempel er hentet fra Data Mining Concepts: Han og Kimber)

# 1) Læringstrinn: Treningsdataene mates inn i systemet som skal analyseres av en klassifiseringsalgoritme. I dette eksemplet er klassemerket attributtet, dvs. 'lånebeslutning'. Modellen som er bygd fra disse opplæringsdataene er representert i form av beslutningsregler.

# 2) Klassifisering: Testdatasett blir matet til modellen for å kontrollere nøyaktigheten av klassifiseringsregelen. Hvis modellen gir akseptable resultater, blir den brukt på et nytt datasett med ukjente klassevariabler.

Eksempel på å lage et beslutningstreet

Beslutningstreet induksjonsalgoritme

Beslutningstreet induksjon

Induksjon av beslutningstreet er metoden for å lære beslutningstrærne fra treningssettet. Treningssettet består av attributter og klassetiketter. Anvendelser av beslutningstreet induksjon inkluderer astronomi, økonomisk analyse, medisinsk diagnose, produksjon og produksjon.

Et beslutningstre er et flytdiagram-trelignende struktur som er laget av treningssett-tupler. Datasettet er delt inn i mindre delmengder og er til stede i form av noder i et tre. Trestrukturen har en rotnode, interne noder eller beslutningsnoder, bladnode og grener.

Rotnoden er den øverste noden. Det representerer det beste attributtet valgt for klassifisering. Interne noder til beslutningsnodene representerer en test av et attributt til datasettbladnoden eller terminalnoden som representerer klassifiseringen eller beslutningsetiketten. Grenene viser resultatet av den utførte testen.

Noen beslutningstrær har bare binære noder , det betyr nøyaktig to grener av en node, mens noen beslutningstrær er ikke-binære.

Bildet nedenfor viser beslutningstreet for Titanic-datasettet for å forutsi om passasjeren vil overleve eller ikke.

induksjon av beslutningstreet

(bilde kilde )

Vogn

CART-modellen, dvs. klassifiserings- og regresjonsmodeller, er en beslutningstreetalgoritme for å bygge modeller. Beslutningstremodell der målverdiene har en diskret natur kalles klassifiseringsmodeller.

En diskret verdi er et endelig eller utallig uendelig sett med verdier, For eksempel, alder, størrelse osv. Modellene der målverdiene er representert av kontinuerlige verdier er vanligvis tall som kalles regresjonsmodeller. Kontinuerlige variabler er variabler med flytende punkt. Disse to modellene sammen kalles CART.

CART bruker Gini Index som klassifiseringsmatrise.

Beslutningstreinduksjon for maskinlæring: ID3

På slutten av 1970-tallet og tidlig på 1980-tallet var J.Ross Quinlan en forsker som bygde en beslutningstreetalgoritme for maskinlæring. Denne algoritmen er kjent som ID3, Iterativ dikotomiser . Denne algoritmen var en utvidelse av konseptet læringssystemer beskrevet av E.B Hunt, J og Marin.

ID3 ble senere kjent som C4.5. ID3 og C4.5 følger en grådig top-down-tilnærming for å konstruere beslutningstrær. Algoritmen starter med et treningsdatasett med klassetiketter som deles inn i mindre delmengder når treet konstrueres.

#1) I utgangspunktet er det tre parametere, dvs. attributtliste, attributtvalgmetode og datapartisjon . Attributtlisten beskriver attributtene til treningssettet tuples.

#to) Attributtvalgmetoden beskriver metoden for å velge det beste attributtet for diskriminering blant tupler. Metodene som brukes for attributtvalg kan enten være Information Gain eller Gini Index.

# 3) Strukturen til treet (binært eller ikke-binært) avgjøres ved hjelp av attributtvalgmetoden.

# 4) Når du konstruerer et beslutningstreet, starter det som en enkelt node som representerer tuplene.

# 5) Hvis rotnoden tuples representerer forskjellige klassetiketter, kaller den en attributtvalgmetode for å dele eller partisjonere tuplene. Trinnet vil føre til dannelse av grener og beslutningsknuter.

# 6) Oppdelingsmetoden vil avgjøre hvilket attributt som skal velges for å partisjonere datatuplene. Det bestemmer også grenene som skal dyrkes fra noden i henhold til testresultatet. Hovedmotivet til delingskriteriene er at partisjonen ved hver gren av beslutningstreet skal representere samme klassemerke.

Et eksempel på delingsattributt er vist nedenfor:

Deling over er diskret verdi

en. Delingen over er diskret verdsatt.

Delingen over er for kontinuerlig verdi.

b. Delingen over er for kontinuerlig verdi.

# 7) De ovennevnte partisjoneringstrinnene følges rekursivt for å danne et beslutningstreet for treningssettet tuples.

# 8) Delingen stopper bare når enten alle partisjonene er laget, eller når de gjenværende tuplene ikke kan deles videre.

# 9) Kompleksiteten til algoritmen er beskrevet av n * | D | * logg | D | hvor n er antall attributter i treningsdatasettet D og | D | er antall tupler.

Hva er grådig rekursiv binær splitting?

I den binære delingsmetoden deles tuplene, og hver delte kostnadsfunksjon beregnes. Den laveste kostnadsdelingen er valgt. Oppdelingsmetoden er binær som dannes som to grener. Det er rekursivt i sin natur, da den samme metoden (beregning av kostnaden) brukes til å dele de andre tuplene i datasettet.

Denne algoritmen kalles så grådig da den kun fokuserer på den nåværende noden. Den fokuserer på å senke kostnadene, mens de andre nodene blir ignorert.

Hvordan velge attributter for å lage et tre?

Attributtvalgstiltak kalles også splitteregler for å bestemme hvordan tuplene skal splittes. Oppdelingskriteriene brukes til å best partisjonere datasettet. Disse tiltakene gir en rangering av attributtene for oppdeling av opplæringstuplene.

De mest populære metodene for å velge attributt er informasjonsgevinst, Gini-indeks.

# 1) Informasjonsgevinst

Denne metoden er hovedmetoden som brukes til å bygge beslutningstrær. Det reduserer informasjonen som kreves for å klassifisere tuplene. Det reduserer antall tester som er nødvendige for å klassifisere den gitte tupelen. Attributtet med høyest informasjonsgevinst er valgt.

Den opprinnelige informasjonen som trengs for klassifisering av en tuple i datasett D, er gitt av:

Klassifisering av tuple i datasett D

Hvor p er sannsynligheten for at tupelen tilhører klasse C. Informasjonen er kodet i biter, derfor brukes logg til base 2. E (s) representerer den gjennomsnittlige mengden informasjon som kreves for å finne ut klassetiketten til datasettet D. Denne informasjonsgevinsten kalles også Entropi .

Informasjonen som kreves for nøyaktig klassifisering etter porsjonering, er gitt med formelen:

Nøyaktig klassifisering etter porsjonering

Hvor P (c) er vekten av partisjonen. Denne informasjonen representerer informasjonen som trengs for å klassifisere datasettet D ved porsjonering med X.

Informasjonsgevinst er forskjellen mellom den opprinnelige og forventede informasjonen som kreves for å klassifisere tuplene i datasettet D.

Informasjonsgevinst

Gevinst er reduksjon av informasjon som kreves ved å kjenne verdien til X. Attributtet med høyest informasjonsgevinst blir valgt som 'best'.

# 2) Gevinstforhold

Informasjonsgevinst kan noen ganger resultere i porsjonering ubrukelig for klassifisering. Forsterkningsforholdet deler imidlertid treningsdatasettet i partisjoner og vurderer antall tupler av utfallet i forhold til de totale tuplene. Attributtet med maks gevinstforhold brukes som en splittende attributt.

Gevinstforhold

# 3) Gini-indeks

Gini-indeksen beregnes kun for binære variabler. Den måler urenheten i treningstuppene til datasettet D, som

Gini-indeks

P er sannsynligheten for at tuple tilhører klasse C. Gini-indeksen som beregnes for binært delt datasett D av attributt A er gitt av:

Binært delt datasett D etter attributt A

Hvor n er den niende partisjonen av datasettet D.

Reduksjonen av urenhet er gitt av forskjellen i Gini-indeksen til det originale datasettet D og Gini-indeksen etter partisjon av attributt A.

Maksimal reduksjon i urenhet eller maks Gini-indeks er valgt som det beste attributtet for splitting.

Overmontering i beslutningstrær

Overmontering skjer når et beslutningstre prøver å være så perfekt som mulig ved å øke dybden på testene og derved redusere feilen. Dette resulterer i svært komplekse trær og fører til overmontering.

mest populære verktøy for analyse av store data

Overmontering reduserer den prediktive naturen til beslutningstreet. Tilnærmingene for å unngå overmontering av trærne inkluderer beskjæring og etterskjæring.

Hva er treskjæring?

Beskjæring er metoden for å fjerne ubrukte grener fra beslutningstreet. Noen grener av beslutningstreet kan representere avvik eller støyende data.

Treskjæring er metoden for å redusere uønskede grener av treet. Dette vil redusere treets kompleksitet og hjelpe til med effektiv prediktiv analyse. Det reduserer overmontering da det fjerner viktige greiner fra trærne.

Det er to måter å beskjære treet på:

# 1) Forhåndsbeskjæring : I denne tilnærmingen stoppes konstruksjonen av beslutningstreet tidlig. Det betyr at det er besluttet å ikke dele partisjonene ytterligere. Den siste noden som ble konstruert blir bladnoden, og denne bladnoden kan ha den hyppigste klassen blant tuplene.

Målene for attributtvalg brukes til å finne ut vektingen av splittelsen. Terskelverdier er foreskrevet for å bestemme hvilke splittelser som anses som nyttige. Hvis delingen av noden resulterer i splitting ved å falle under terskelen, stoppes prosessen.

# 2) Etterbeskjæring : Denne metoden fjerner yttergrenene fra et fullvokst tre. De uønskede grenene fjernes og erstattes av en bladnode som angir den hyppigste klassemerket. Denne teknikken krever mer beregning enn forhåndsbeskæring, men den er mer pålitelig.

De beskjærte trærne er mer presise og kompakte sammenlignet med ubeskjærte trær, men de har en ulempe med replikasjon og repetisjon.

Gjentakelse skjer når det samme attributtet testes igjen og igjen langs en gren av et tre. Replikering oppstår når duplikat undertrær er tilstede i treet. Disse problemene kan løses ved flere variasjoner.

Bildet nedenfor viser et ubeskåret og beskåret tre.

Beskjæret Ubeskjæret Trær

Eksempel på beslutningstreetalgoritme

Eksempel Kilde

Konstruksjon av et beslutningstreet

La oss ta et eksempel på det siste ti dagers værdatasettet med attributter utsikter, temperatur, vind og fuktighet. Utfallsvariabelen vil spille cricket eller ikke. Vi vil bruke ID3-algoritmen til å bygge beslutningstreet.

Dag	Outlook	Temperatur	Luftfuktighet	Vind	Spille cricket
7	Overskyet	Kul	Normal	Sterk	Ja
1	Solfylt	Varmt	Høy	Svak	Ikke
to	Solfylt	Varmt	Høy	Sterk	Ikke
3	Overskyet	Varmt	Høy	Svak	Ja
4	Regn	Mild	Høy	Svak	Ja
5	Regn	Kul	Normal	Svak	Ja
6	Regn	Kul	Normal	Sterk	Ikke
8	Solfylt	Mild	Høy	Svak	Ikke
9	Solfylt	Kul	Normal	Svak	Ja
10	Regn	Mild	Normal	Svak	Ja
elleve	Solfylt	Mild	Normal	Sterk	Ja
12	Overskyet	Mild	Høy	Sterk	Ja
1. 3	Overskyet	Varmt	Normal	Svak	Ja
14	Regn	Mild	Høy	Sterk	Ikke

Trinn 1: Det første trinnet vil være å opprette en rotnode.

Steg 2: Hvis alle resultatene er ja, vil bladnoden “ja” returneres, ellers vil bladnoden “nei” bli returnert.

Steg 3: Finn ut Entropy av alle observasjoner og entropi med attributtet “x” som er E (S) og E (S, x).

Trinn 4: Finn ut informasjonsgevinsten og velg attributtet med høy informasjonsgevinst.

Trinn 5: Gjenta trinnene ovenfor til alle attributtene er dekket.

Beregning av entropi:

Ja Nei

9 5

entropi

Hvis entropi er null, betyr det at alle medlemmene tilhører samme klasse, og hvis entropi er en, betyr det at halvparten av tuplene tilhører en klasse og en av dem tilhører en annen klasse. 0,94 betyr rettferdig fordeling.

Finn informasjonsgevinstattributtet som gir maksimal informasjonsgevinst.

For eksempel 'Vind', det tar to verdier: Sterk og Svak, derfor x = {Sterk, Svak}.

Vindeksempel

Finn ut H (x), P (x) for x = svak og x = sterk. H (S) er allerede beregnet ovenfor.

Svak = 8

Sterk = 8

svak sterk

For “svak” vind sier 6 av dem “Ja” for å spille cricket og to av dem sier “Nei”. Så entropi vil være:

entropi formel

For “sterk” vind sa 3 “Nei” for å spille cricket og 3 sa “Ja”.

entropi av 3 sa “Ja”.

Dette viser perfekt tilfeldighet ettersom halve gjenstander tilhører en klasse og den gjenværende halvparten tilhører andre.

Beregn informasjonsgevinsten,

beregne informasjonsgevinst

Tilsvarende er informasjonsgevinsten for andre attributter:

informasjonsgevinst for andre attributter

Attributtutsiktene har høyest informasjonsgevinst på 0,246, og dermed blir den valgt som rot.

Overskyet har 3 verdier: Sol, Overskyet og Regn. Overskyet med lek cricket er alltid “Ja”. Så det ender opp med en bladnode, “ja”. For de andre verdiene “Sunny” og “Rain”.

Tabell for Outlook som 'Sunny' vil være:

Temperatur	Luftfuktighet	Vind	Golf
Varmt	Høy	Svak	Ikke
Varmt	Høy	Sterk	Ikke
Mild	Høy	Svak	Ikke
Kul	Normal	Svak	Ja
Mild	Normal	Sterk	Ja

Entropi for “Outlook” “Sunny” er:

Entropi for “Outlook” “Sunny”

Informasjonsgevinst for attributter med hensyn til Sunny er:

beste gratis optimalisereren for Windows 10

Informasjonsgevinst for attributter med hensyn til Sunny

Informasjonsgevinsten for fuktighet er høyest, derfor blir den valgt som neste node. På samme måte beregnes Entropy for Rain. Vind gir høyest informasjonsgevinst .

Beslutningstreet vil se ut som nedenfor:

Decsion Tree Algo Eksempel

Hva er prediktiv modellering?

Klassifiseringsmodellene kan brukes til å forutsi resultatene av et ukjent sett med attributter.

Når et datasett med ukjente klassetiketter mates inn i modellen, tildeles det automatisk klassetiketten til det. Denne metoden for å anvende sannsynlighet for å forutsi resultater kalles prediktiv modellering.

Fordeler med beslutningstreet klassifisering

Nedenfor er de forskjellige fordelene ved klassifisering av beslutningstreet:

Beslutningstreklassifisering krever ingen domenekunnskap, derfor er det hensiktsmessig for kunnskapsoppdagelsesprosessen.
Representasjonen av data i form av treet er lett forståelig for mennesker, og det er intuitivt.
Den kan håndtere flerdimensjonale data.
Det er en rask prosess med stor nøyaktighet.

Ulemper ved beslutningstreet klassifisering

Nedenfor er de forskjellige ulempene ved Decision Tree Classification:

Noen ganger blir beslutningstrær veldig komplekse, og disse kalles overmonterte trær.
Beslutningstreetalgoritmen er kanskje ikke en optimal løsning.
Beslutningstrærne kan gi en partisk løsning hvis noen klassemerker dominerer den.

Konklusjon

Beslutningstrær er teknikker for datautvinning for klassifisering og regresjonsanalyse.

Denne teknikken spenner nå over mange områder som medisinsk diagnose, målmarkedsføring, etc. Disse trærne er konstruert ved å følge en algoritme som ID3, CART. Disse algoritmene finner forskjellige måter å dele dataene i partisjoner.

Det er den mest kjente overvåket læringsteknikken som brukes i maskinlæring og mønsteranalyse. Beslutningstrærne forutsier verdiene til målvariabelen ved å bygge modeller gjennom å lære av opplæringssettet som er gitt til systemet.

Vi håper du har lært alt om Decision Tree Mining fra denne informative opplæringen !!

PREV Opplæring | NESTE veiledning

Beslutningstres algoritmeeksempler i datautvinning

Hva er bruken av et beslutningstreet?

Klassifiseringsanalyse

Regresjonsanalyse

Hvordan fungerer et beslutningstreet?

Beslutningstreet induksjonsalgoritme

Beslutningstreet induksjon

Vogn

Beslutningstreinduksjon for maskinlæring: ID3

Hva er grådig rekursiv binær splitting?

Hvordan velge attributter for å lage et tre?

# 1) Informasjonsgevinst

# 2) Gevinstforhold

# 3) Gini-indeks

Overmontering i beslutningstrær

Hva er treskjæring?

Hva er prediktiv modellering?

Fordeler med beslutningstreet klassifisering

Ulemper ved beslutningstreet klassifisering

Konklusjon

Anbefalt lesing

Interessante Artikler

Redaksjonens

Du bør prøve Resident Evil 2s Ghost Survivors, selv om du ikke er stor på action-sentriske sidemodus

Dagens Fallout 76-oppdatering adresserer 'en rekke problemer' og legger til livskvalitetsoppdateringer

Boblesortering i C ++ med eksempler

Hvordan løse Snowshine Lamp-oppgaver i Honkai: Star Rail

New Rainbow Six Siege animerte korte blikk på Dokkaebis frustrasjoner over old-school

Importanmeldelse: Full Metal Panic! Slåss! Den som våger vinner

Chris Carters personlige valg for Game of the Year 2018

PAX 2007: Kongregate - kortspill for å styre dem alle

Her er alt du kan gjøre i Metal Gear Solid V: Ground Zeroes

ESRB: L.A. Noire har blodspor, kjønnshår, rasisme

Xbox-bedriftsoppdatering kommer via Xbox-podcast på torsdag

Anmeldelse: Goat Simulator (PS4)