Apriori-algoritme i datautvinning: implementering med eksempler

apriori algorithm data mining

Prøv Instrumentet Vårt For Å Eliminere Problemer

Velg Operativsystemet Velg Et Projeksjonsprogram (Valgfritt)

Beskriv Problemet Ditt

Dybdegående opplæring om apriori-algoritme for å finne ut hyppige varesett i datamining. Denne opplæringen forklarer trinnene i apriori og hvordan det fungerer:

I dette Data Mining Tutorial Series , vi så på Beslutningstresalgoritme i vår forrige opplæring.

Det er flere metoder for Data Mining som tilknytning, korrelasjon, klassifisering og klynging.

programvare for å laste ned videoer fra nettsteder

Denne opplæringen fokuserer primært på gruvedrift ved hjelp av assosieringsregler. Ved tilknytningsregler identifiserer vi settet med elementer eller attributter som forekommer sammen i en tabell.

Apriori-algoritme

Hva du vil lære:

Hva er et varesett?
Hvorfor ofte gruvedrift av varesett?
- Apriori algoritme - Hyppige mønsteralgoritmer
Metoder for å forbedre apriorieffektivitet
Anvendelser av apriori-algoritme
Konklusjon
- Anbefalt lesing

Hva er et varesett?

Et sett med elementer sammen kalles et varesett. Hvis noen artikelsett har k-elementer, kalles det et k-varesett. Et varesett består av to eller flere gjenstander. Et varesett som forekommer ofte kalles et hyppig varesett. Dermed er hyppig vareutvinning en data mining-teknikk for å identifisere elementene som ofte forekommer sammen.

For eksempel , Brød og smør, Laptop- og antivirusprogramvare osv.

Hva er et hyppig varesett?

Et sett med varer kalles hyppig hvis det tilfredsstiller en minimumsverdi for støtte og tillit. Support viser transaksjoner med varer kjøpt sammen i en enkelt transaksjon. Tillit viser transaksjoner hvor varene er kjøpt etter hverandre.

For hyppig vareminnesmetode vurderer vi bare de transaksjonene som oppfyller minimumskrav til støtte og tillit. Innsikt fra disse gruvedriftalgoritmene gir mange fordeler, kostnadsbesparelser og forbedret konkurransefortrinn.

Det tar en kompromisstid å bryte data og datamengden for hyppig gruvedrift. Den hyppige gruvedriftsalgoritmen er en effektiv algoritme for å utvinne de skjulte mønstrene til varesett innen kort tid og mindre minneforbruk.

Frequent Pattern Mining (FPM)

Den hyppige algoritmen for mønsterutvinning er en av de viktigste teknikkene for datautvinning for å oppdage forhold mellom forskjellige elementer i et datasett. Disse forholdene er representert i form av foreningsregler. Det hjelper å finne uregelmessigheter i data.

FPM har mange applikasjoner innen dataanalyse, programvarefeil, kryssmarkedsføring, salgskampanjeanalyse, analyse av markedskurven, etc.

Hyppige varesett oppdaget gjennom Apriori har mange applikasjoner i data mining-oppgaver. Oppgaver som å finne interessante mønstre i databasen, finne ut sekvens og utvinning av tilknytningsregler er den viktigste av dem.

Tilknytningsregler gjelder for transaksjonsdata for supermarkeder, det vil si for å undersøke kundens atferd med hensyn til de kjøpte produktene. Foreningsregler beskriver hvor ofte varene blir kjøpt sammen.

Foreningsregler

Association Rule Mining er definert som:

“La jeg = {...} være et sett med‘ n ’binære attributter kalt elementer. La D = {….} Være et sett med transaksjoner som kalles database. Hver transaksjon i D har en unik transaksjons-ID og inneholder en delmengde av elementene i I. En regel er definert som en implikasjon av form X-> Y der X, Y? Jeg og X? Y = ?. Settet med gjenstander X og Y kalles fortilfælde og følger av regelen. '

Learning of Association-regler brukes til å finne sammenhenger mellom attributter i store databaser. En assosieringsregel, A => B, vil ha formen 'for et sett med transaksjoner, en verdi av varesett A bestemmer verdiene til varesett B under den betingelse at minimumsstøtte og tillit er oppfylt'.

Støtte og tillit kan representeres av følgende eksempel:

Bread=> butter (support=2%, confidence-60%)

Ovennevnte uttalelse er et eksempel på en assosieringsregel. Dette betyr at det er en 2% transaksjon som kjøpte brød og smør sammen, og det er 60% av kundene som kjøpte brød i tillegg til smør.

Støtte og tillit for varesett A og B er representert med formler:

Formel for støtte og tillit for varesett A og B

Association mining mining består av to trinn:

Finn alle de hyppige varesettene.
Generer tilknytningsregler fra ovennevnte hyppige varesett.

Hvorfor ofte gruvedrift av varesett?

Hyppig varesett eller mønsterutvinning brukes i stor grad på grunn av dets brede anvendelser i regler for gruvedrift, korrelasjoner og grafmønsterbegrensninger som er basert på hyppige mønstre, sekvensielle mønstre og mange andre datautvinning.

Apriori-algoritme - Hyppige mønsteralgoritmer

Apriori-algoritmen var den første algoritmen som ble foreslått for hyppig utvinning av varesett. Den ble senere forbedret av R Agarwal og R Srikant og ble kjent som Apriori. Denne algoritmen bruker to trinn 'bli med' og 'beskjære' for å redusere søkeområdet. Det er en iterativ tilnærming å oppdage de hyppigste varesettene.

Apriori sier:

Sannsynligheten for at vare I ikke er hyppig er hvis:

P (I)
P (I + A)
Hvis et varesett sett har en verdi som er mindre enn minimumsstøtte, vil alle supersettene også falle under min støtte, og kan dermed ignoreres. Denne eiendommen kalles Antimonotone-eiendommen.

Trinnene som følges i Apriori-algoritmen for data mining er:

Bli med Step : Dette trinnet genererer (K + 1) varesett fra K-varesett ved å bli med hvert element med seg selv.
Beskjær trinn : Dette trinnet skanner antallet av hvert element i databasen. Hvis kandidatelementet ikke oppfyller minimumsstøtte, blir det sett på som sjeldent og dermed fjernet. Dette trinnet utføres for å redusere størrelsen på kandidatelementene.

Steps In Apriori

Apriori-algoritmen er en sekvens av trinn som skal følges for å finne de hyppigste varesettene i den gitte databasen. Denne data mining teknikken følger sammenføyningen og beskjæringen går trinnvis til det hyppigste varesettet er oppnådd. En minimumsterskel for støtte er gitt i problemet, eller det antas av brukeren.

#1) I den første iterasjonen av algoritmen blir hvert element tatt som en kandidat med 1 vare. Algoritmen vil telle forekomsten av hvert element.

#to) La det være noe minimumsstøtte, min_sup (f.eks. 2). Settet med 1 - varesett hvis forekomst tilfredsstiller min sup bestemmes. Bare de kandidatene som teller mer enn eller lik min_sup, blir ført frem til neste iterasjon, og de andre beskjæres.

# 3) Deretter oppdages 2-itemsett hyppige varer med min_sup. For dette i sammenføyningstrinnet genereres 2-artikelsettet ved å danne en gruppe på 2 ved å kombinere elementer med seg selv.

# 4) Kandidatene på 2 poster blir beskjært ved hjelp av min-sup terskelverdi. Nå vil tabellen ha to - sett med bare min-sup.

# 5) Den neste iterasjonen vil utgjøre 3 - emnesett ved hjelp av sammenføyning og beskjæringstrinn. Denne iterasjonen vil følge antimonotonegenskapen der delmengdene av 3-varesett, det vil si de 2 –emsettmengdene for hver gruppe faller i min_sup. Hvis alle delmengder med 2 elementer er hyppige, vil supersettet være hyppig ellers beskjæres det.

# 6) Neste trinn vil følge å lage 4-varesett ved å bli med 3-varesett med seg selv og beskjæring hvis delmengden ikke oppfyller min_sup-kriteriene. Algoritmen stoppes når det hyppigste varesettet oppnås.

Apriori trinn

(bilde kilde )

Eksempel på Apriori:Støtteterskel = 50%, tillit = 60%

TABELL-1

Transaksjon	Liste over varer
T1	I1, I2, I3
T2	I2, I3, I4
T3	I4, I5
T4	I1, I2, I4
T5	I1, I2, I3, I5
T6	I1, I2, I3, I4

Løsning:

Støtteterskel = 50% => 0,5 * 6 = 3 => min_sup = 3

1. Antall av hvert element

TABELL-2

Punkt	Telle
I1	4
I2	5
I3	4
I4	4
I5	to

to. Beskjær trinn: TABELL -2 viser at I5-elementet ikke oppfyller min_sup = 3, dermed blir det slettet, bare I1, I2, I3, I4 oppfyller min_sup-antall.

TABELL-3

Punkt	Telle
I1	4
I2	5
I3	4
I4	4

3. Bli med i trinn: Skjema 2-artikelsett. Fra TABELL-1 finn ut forekomster av 2-artikelsett.

TABELL-4

Punkt	Telle
I1, I2	4
I1, I3	3
I1, I4	to
I2, I3	4
I2, I4	3
I3, I4	to

Fire. Beskjær trinn: TABELL -4 viser at varesettet {I1, I4} og {I3, I4} ikke oppfyller min_sup, og dermed blir det slettet.

TABELL-5

Punkt	Telle
I1, I2	4
I1, I3	3
I2, I3	4
I2, I4	3

5. Bli med og beskjær trinn: Skjema 3-artikelsett. Fra TABELL- 1 finn ut forekomster av 3-artikelsett. Fra TABELL-5 , finn ut delmengdene med 2 varesett som støtter min_sup.

Vi kan se for varesett {I1, I2, I3} delsett, {I1, I2}, {I1, I3}, {I2, I3} forekommer i TABELL-5 dermed er {I1, I2, I3} hyppig.

Vi kan se for varesett {I1, I2, I4} delsett, {I1, I2}, {I1, I4}, {I2, I4}, {I1, I4} er ikke hyppig, da det ikke forekommer i TABELL-5 dermed er {I1, I2, I4} ikke hyppig, derfor blir den slettet.

TABELL-6

Punkt
I1, I2, I3
I1, I2, I4
I1, I3, I4
I2, I3, I4

Bare {I1, I2, I3} er hyppige .

6. Generer tilknytningsregler: Fra det hyppige varesettet som ble oppdaget ovenfor, kunne foreningen være:

{I1, I2} => {I3}

Tillit = støtte {I1, I2, I3} / støtte {I1, I2} = (3/4) * 100 = 75%

{I1, I3} => {I2}

Tillit = støtte {I1, I2, I3} / støtte {I1, I3} = (3/3) * 100 = 100%

{I2, I3} => {I1}

Tillit = støtte {I1, I2, I3} / støtte {I2, I3} = (3/4) * 100 = 75%

{I1} => {I2, I3}

Tillit = støtte {I1, I2, I3} / støtte {I1} = (3/4) * 100 = 75%

{I2} => {I1, I3}

c vs c ++ forskjeller

Tillit = støtte {I1, I2, I3} / støtte {I2 = (3/5) * 100 = 60%

{I3} => {I1, I2}

Tillit = støtte {I1, I2, I3} / støtte {I3} = (3/4) * 100 = 75%

Dette viser at alle ovennevnte tilknytningsregler er sterke hvis minimumsgrensen for tillit er 60%.

Apriori-algoritmen: Pseudokode

C: Kandidatsett sett med størrelse k

L: Hyppige varesett i størrelse k

Psudokode

(bilde kilde )

Fordeler

Enkel å forstå algoritme
Bli med og beskjære trinn er enkle å implementere på store varesett i store databaser

Ulemper

Det krever høy beregning hvis varesettene er veldig store og minimumsstøtten holdes veldig lav.
Hele databasen må skannes.

Metoder for å forbedre apriorieffektivitet

Mange metoder er tilgjengelige for å forbedre effektiviteten til algoritmen.

Hash-basert teknikk: Denne metoden bruker en hash-basert struktur kalt en hash-tabell for å generere k-itemsets og dens tilsvarende antall. Den bruker en hash-funksjon for å generere tabellen.
Transaksjonsreduksjon: Denne metoden reduserer antall transaksjoner som skannes i iterasjoner. Transaksjonene som ikke inneholder hyppige varer er merket eller fjernet.
Oppdeling: Denne metoden krever bare to databasesøk for å utvinne de hyppige varesettene. Det står at for alle artikelsett å være potensielt hyppige i databasen, bør det være hyppig i minst en av partisjonene i databasen.
Prøvetaking: Denne metoden plukker et tilfeldig utvalg S fra database D og søker deretter etter hyppige varesett i S. Det kan være mulig å miste et globalt hyppig varesett. Dette kan reduseres ved å senke min_sup.
Telling av dynamisk varesett: Denne teknikken kan legge til nye kandidatelementer ved hvilket som helst markert startpunkt i databasen under skanningen av databasen.

Anvendelser av apriori-algoritme

Noen felt der Apriori brukes:

I utdanningsfeltet: Utvinne foreningsregler i datautvinning av opptatte studenter gjennom egenskaper og spesialiteter.
I det medisinske feltet: For eksempel analyse av pasientens database.
I skogbruk: Analyse av sannsynlighet og intensitet av skogbrann med skogbranndataene.
Apriori brukes av mange selskaper som Amazon i Anbefalingssystem og av Google for funksjonen for automatisk fullføring.

Konklusjon

Apriori-algoritme er en effektiv algoritme som bare skanner databasen en gang.

Det reduserer størrelsen på artikelsettene i databasen, noe som gir god ytelse. Dermed hjelper data mining forbrukere og bransjer bedre i beslutningsprosessen.

Ta en titt på vår kommende veiledning for å vite mer om Algoritmen for hyppig mønstervekst !!

PREV Opplæring | NESTE veiledning

Apriori-algoritme i datautvinning: implementering med eksempler

Hva er et varesett?

Hva er et hyppig varesett?

Frequent Pattern Mining (FPM)

Foreningsregler

Hvorfor ofte gruvedrift av varesett?

Apriori-algoritme - Hyppige mønsteralgoritmer

Steps In Apriori

Fordeler

Ulemper

Metoder for å forbedre apriorieffektivitet

Anvendelser av apriori-algoritme

Konklusjon

Anbefalt lesing

Interessante Artikler

Redaksjonens

Hands-on med Dragon Quest Monsters: Joker 2

Hva er forbannede våpen i Tactics Ogre: Reborn?

Slik får du Awoken Celebrant-titlene i Diablo 4

Anmeldelse: Capcom 30th Anniversary Character Encyclopedia

Her er et eksklusivt kort avslørende for The Elder Scrolls: Legends 'Jaws of Oblivion-utvidelse

Tilsynelatende beta-opptak av Halo 4 lekket via et VHS-bånd

IntelliJ IDEA Tutorial - Java-utvikling med IntelliJ IDE

PlayStation 5-konsollforsendelser og salg overstiger 38 millioner

Nintendo Switch Online legger til Kirby's Dream Land 2, BurgerTime Deluxe og Xevious

Days Gone guide: Ni tips som hjelper deg å overleve

Anmeldelse: Star Ocean: Integrity and Faithlessness

Chrono Cross: The Radical Dreamers Edition for å motta en beroligende oppdatering