logo

Hva er CRISP i Data Mining?

CRISP-DM står for den tverrindustrielle standardprosessen for data mining. CRISP-DM-metodikken gir en strukturert tilnærming til planlegging av et datautvinningsprosjekt. Det er en robust og velprøvd metodikk. Vi krever ikke noe eierskap over det. Vi fant det ikke opp. Vi er en omformer av dens kraftige praktiske, fleksibilitet og anvendelighet når vi bruker analyser for å løse forretningsproblemer. Det er den gyldne tråden som går gjennom nesten hvert kundemøte.

Denne modellen er en idealisert sekvens av hendelser. I praksis kan mange oppgaver utføres i en annen rekkefølge, og det vil ofte være nødvendig å gå tilbake til tidligere oppgaver og gjenta enkelte handlinger. Modellen prøver ikke å fange opp alle mulige ruter gjennom data mining-prosessen.

Hvordan hjelper CRISP?

CRISP DM gir et veikart, det gir deg beste praksis, og det gir strukturer for bedre og raskere resultater ved bruk av data mining, så det er slik det hjelper virksomheten å følge med mens du planlegger og gjennomfører et data mining-prosjekt.

Faser av CRISP-DM

CRISP-DM gir en oversikt over livssyklusen for datautvinning som prosessmodell. Livssyklusmodellen består av seks faser, med piler som indikerer de viktigste og hyppigste avhengighetene mellom fasene. Rekkefølgen av fasene er ikke streng. Og de fleste prosjekter beveger seg frem og tilbake mellom fasene etter behov. CRISP-DM-modellen er fleksibel og kan enkelt tilpasses.

For eksempel, hvis organisasjonen din har som mål å oppdage hvitvasking av penger, vil du sannsynligvis sile gjennom store mengder data uten et spesifikt modelleringsmål. I stedet for å modellere, vil arbeidet ditt fokusere på datautforskning og visualisering for å avdekke mistenkelige mønstre i økonomiske data. CRISP-DM lar deg lage en data mining-modell som passer dine behov.

Den inkluderer beskrivelser av typiske faser av et prosjekt, oppgavene som er involvert i hver fase, og en forklaring på forholdet mellom disse oppgavene.

Hva er CRISP i Data Mining

Fase 1: Forretningsforståelse

Den første fasen av CRISP-DM-prosessen er å forstå hva du ønsker å oppnå fra et forretningsperspektiv. Organisasjonen din kan ha konkurrerende mål og begrensninger som må være riktig balansert. Denne prosessfasen tar sikte på å avdekke viktige faktorer som påvirker prosjektets utfall. Å neglisjere dette trinnet kan bety mye innsats for å produsere de riktige svarene på feil spørsmål.

Hva er de ønskede resultatene av prosjektet?

    Sett mål:Beskriv hovedmålet ditt fra et forretningsperspektiv. Det kan også være andre relaterte spørsmål du vil nevne. Det primære målet ditt kan for eksempel være å beholde nåværende kunder ved å forutsi når de er tilbøyelige til å flytte til en konkurrent.Lag prosjektplan:Beskriv planen for å nå data mining og forretningsmål. Planen bør spesifisere trinnene som skal utføres under resten av prosjektet, inkludert det første utvalget av verktøy og teknikker.Kriterier for bedriftens suksess:Her vil du legge ut kriteriene du skal bruke for å avgjøre om prosjektet har vært vellykket fra et forretningsmessig synspunkt. Disse bør ideelt sett være spesifikke og målbare, for eksempel redusere kundebeat til et visst nivå. Noen ganger kan det imidlertid være nødvendig å ha mer subjektive kriterier, for eksempel å gi nyttig innsikt i relasjonene.

Vurder dagens situasjon

tabell i reaksjon

Dette innebærer mer detaljert faktasøk om ressursene, begrensningene, forutsetningene og andre faktorer du må vurdere når du bestemmer dataanalysemålet og prosjektplanen.

    Inventar over ressurser:Liste ressursene som er tilgjengelige for prosjektet, inkludert:
    • Personell (forretningseksperter, dataeksperter, teknisk støtte, datautvinningseksperter)
    • Data (faste utdrag, tilgang til live, lagret eller driftsdata)
    • Dataressurser (maskinvareplattformer)
    • Programvare (data mining-verktøy, annen relevant programvare)
    Krav, forutsetninger og begrensninger:List opp alle kravene til prosjektet, inkludert tidsplanen for ferdigstillelse, den nødvendige forståelsen og kvaliteten på resultatene, og eventuelle datasikkerhetsproblemer og juridiske problemer. Sørg for at du har lov til å bruke dataene. List opp forutsetningene laget av prosjektet. Dette kan være antakelser om dataene som kan verifiseres under datautvinning, men kan også inkludere ikke-verifiserbare antakelser om virksomheten knyttet til prosjektet. Det er viktig å liste opp sistnevnte hvis de påvirker validiteten til resultatene. List opp begrensningene på prosjektet. Dette kan være begrensninger på tilgjengeligheten av ressurser, men kan også inkludere teknologiske begrensninger som størrelsen på datasettet som det er praktisk å bruke til modellering.Risikoer og betingede hendelser:List opp risikoene eller hendelsene som kan forsinke prosjektet eller føre til at det mislykkes. List opp de tilsvarende beredskapsplanene, for eksempel hvilke tiltak vil du ta hvis disse risikoene eller hendelsene inntreffer?Terminologi:Sett sammen en ordliste med terminologi som er relevant for prosjektet. Dette vil vanligvis ha to komponenter:
    • En ordliste med relevant forretningsterminologi utgjør en del av forretningsforståelsen som er tilgjengelig for prosjektet. Å lage denne ordlisten er en nyttig 'kunnskapsfremkalling' og opplæringsøvelse.
    • En ordliste med data mining-terminologi er illustrert med eksempler som er relevante for forretningsproblemet.
    Kostnader og fordeler:Konstruer en kostnad-nytte-analyse for prosjektet, som sammenligner prosjektets kostnader med potensielle fordeler for virksomheten hvis det lykkes. Denne sammenligningen bør være så spesifikk som mulig. For eksempel bør du bruke økonomiske tiltak i en kommersiell situasjon.

Bestem mål for datautvinning

Et forretningsmål angir mål i forretningsterminologi. Et data mining-mål angir prosjektmål i tekniske termer. For eksempel kan forretningsmålet være Øk katalogsalg til eksisterende kunder. Et datautvinningsmål kan være å forutsi hvor mange widgets en kunde vil kjøpe, gitt deres kjøp de siste tre årene, demografisk informasjon (alder, lønn, by osv.) og varens pris.

    Forretningssuksesskriterier:Den beskriver de tiltenkte resultatene av prosjektet som gjør det mulig å oppnå forretningsmålene.Suksesskriterier for datautvinning:Den definerer kriteriene for et vellykket prosjektresultat. For eksempel et visst nivå av prediktiv nøyaktighet eller en kjøpstilbøyelighet med en gitt grad av 'løft'. Som med suksesskriterier for bedrifter, kan det være nødvendig å beskrive disse i subjektive termer, i så fall bør personen eller personene som foretar den subjektive vurderingen identifiseres.

Lag prosjektplan

Beskriv den tiltenkte planen for å nå data mining-målene og forretningsmålene. Planen din bør spesifisere trinnene som skal utføres under resten av prosjektet, inkludert det første utvalget av verktøy og teknikker.

1. Prosjektplan: List opp stadiene som skal utføres i prosjektet, med deres varighet, nødvendige ressurser, innganger, utganger og avhengigheter. Der det er mulig, prøv å gjøre eksplisitt de storskala iterasjonene i data mining-prosessen, for eksempel repetisjoner av modellerings- og evalueringsfasene.

Som en del av prosjektplanen er det viktig å analysere avhengighetene mellom tidsplaner og risiko. Merk resultatene av disse analysene eksplisitt i prosjektplanen, ideelt sett med handlinger og anbefalinger hvis risikoen er manifestert. Bestem hvilken evalueringsstrategi som skal brukes i evalueringsfasen.

Din prosjektplan vil være et dynamisk dokument. På slutten av hver fase vil du gjennomgå fremdrift og prestasjoner og oppdatere prosjektplanen deretter. Spesifikke vurderingspunkter for disse oppdateringene bør være en del av prosjektplanen.

2. Innledende vurdering av verktøy og teknikker: På slutten av den første fasen bør du foreta en innledende vurdering av verktøy og teknikker. Du velger for eksempel et datautvinningsverktøy som støtter ulike metoder for ulike stadier av prosessen. Det er viktig å vurdere verktøy og teknikker tidlig i prosessen siden valg av verktøy og teknikker kan påvirke hele prosjektet.

Fase 2: Dataforståelse

Den andre fasen av CRISP-DM-prosessen krever at du innhenter dataene som er oppført i prosjektressursene. Denne innledende innsamlingen inkluderer datainnlasting hvis dette er nødvendig for dataforståelse. For eksempel, hvis du bruker et spesifikt verktøy for dataforståelse, gir det perfekt mening å laste inn dataene dine i dette verktøyet. Hvis du skaffer deg flere datakilder, må du vurdere hvordan og når du skal integrere disse.

    Innledende datainnsamlingsrapport:List opp datakildene som er anskaffet, deres plassering, metodene som ble brukt for å skaffe dem, og eventuelle problemer som oppstår. Registrer problemer du har møtt og eventuelle oppnådde løsninger. Dette vil hjelpe med fremtidig replikering av dette prosjektet og gjennomføring av lignende fremtidige prosjekter.

Beskriv data

Undersøk 'brutto' eller 'overflate'-egenskapene til de innhentede dataene og rapporter om resultatene.

java dato til streng
    Databeskrivelsesrapport:Beskriv dataene som er innhentet, inkludert formatet, mengden, identiteten til feltene og eventuelle andre overflatetrekk som har blitt oppdaget. Vurder om de innhentede dataene tilfredsstiller dine krav.

Utforsk data

I løpet av dette stadiet vil du ta opp spørsmål om datautvinning ved å bruke spørring, datavisualisering og rapporteringsteknikker. Disse kan omfatte:

  • Fordeling av nøkkelattributter
  • Forhold mellom par eller et lite antall attributter
  • Resultater av enkle aggregasjoner
  • Egenskaper til betydelige delpopulasjoner
  • Enkle statistiske analyser

Disse analysene kan direkte adressere dine datautvinningsmål. De kan bidra til eller avgrense databeskrivelsen og kvalitetsrapportene og inngå i transformasjonen og andre dataforberedelsestrinn som er nødvendige for videre analyse.

    Datautforskningsrapport:Beskriv resultatene av datautforskningen din, inkludert de første funnene eller innledende hypotesen og deres innvirkning på resten av prosjektet. Hvis det er aktuelt, kan du inkludere grafer og plott her for å indikere datakarakteristikker som antyder videre undersøkelse av interessante dataundersett.

Bekreft datakvaliteten

Undersøk kvaliteten på dataene ved å ta opp spørsmål som:

  • Er dataene komplette, eller dekker de alle de nødvendige tilfellene?
  • Er det riktig, eller inneholder det feil, og hvis det er feil, hvor vanlige er de?
  • Mangler det verdier i dataene? I så fall, hvordan er de representert, hvor forekommer de, og hvor vanlige er de?

Datakvalitetsrapport

List opp resultatene av datakvalitetsverifiseringen. Hvis det er kvalitetsproblemer, foreslå mulige løsninger. Løsninger på datakvalitetsproblemer avhenger generelt sterkt av data og forretningskunnskap.

Fase 3: Dataforberedelse

I denne prosjektfasen bestemmer du deg for hvilke data du skal bruke til analyse. Kriteriene du kan bruke for å ta denne avgjørelsen inkluderer relevansen til dataene for datautvinningsmålene dine, datakvaliteten og tekniske begrensninger som begrensninger på datavolum eller datatyper.

    Begrunnelsen for inkludering/ekskludering:List opp dataene som skal inkluderes/ekskluderes og begrunnelsen for disse beslutningene.

Rengjør dataene dine

Denne oppgaven innebærer å heve datakvaliteten til det nivået som kreves av analyseteknikkene du har valgt. Dette kan innebære å velge rene delsett av dataene, innsetting av passende standardverdier, eller mer ambisiøse teknikker som å estimere manglende data ved å modellere.

    Datarens rapport:Beskriv hvilke beslutninger og handlinger du tok for å løse problemer med datakvalitet. Vurder eventuelle datatransformasjoner gjort for rengjøringsformål og deres mulige innvirkning på analyseresultatene.

Konstruer nødvendige data

Denne oppgaven inkluderer konstruktive dataforberedelsesoperasjoner som å produsere avledede attributter, helt nye poster eller transformerte verdier for eksisterende attributter.

java programvare mønstre
    Avledede attributter:Dette er nye attributter konstruert fra en eller flere eksisterende attributter i samme post. Du kan for eksempel bruke variablene lengde og bredde for å beregne en ny variabel for areal.Genererte poster:Her beskriver du opprettelsen av eventuelle helt nye plater. Det kan for eksempel hende du må opprette poster for kunder som ikke har kjøpt i løpet av det siste året. Det var ingen grunn til å ha slike poster i rådataene. Likevel kan det være fornuftig å representere at bestemte kunder eksplisitt foretok nullkjøp for modelleringsformål.

Integrer data

Disse metodene kombinerer informasjon fra flere databaser, tabeller eller poster for å lage nye poster eller verdier.

    Sammenslåtte data:Slå sammen tabeller refererer til å slå sammen to eller flere tabeller med forskjellig informasjon om de samme objektene. For eksempel kan en butikkjede ha én tabell med informasjon om hver butikks generelle egenskaper (f.eks. gulvareal, type kjøpesenter), en annen tabell med oppsummerte salgsdata (f.eks. fortjeneste, prosentvis endring i salg fra året før), og en annen med informasjon om demografien i området rundt. Hver av disse tabellene inneholder én post for hver butikk. Disse tabellene kan slås sammen til en ny tabell med én post for hver butikk, ved å kombinere felt fra kildetabellene.Aggregasjoner:Aggregasjoner er operasjoner der nye verdier beregnes ved å oppsummere informasjon fra flere poster eller tabeller. For eksempel å konvertere en tabell over kundekjøp der én post for hvert kjøp til en ny tabell og én post for hver kunde, med felter som antall kjøp, gjennomsnittlig kjøpsbeløp, prosent av ordre belastet kredittkort, prosent av varer under opprykk etc.

Fase 4: Modellering

Velg modelleringsteknikk: Som det første trinnet velger du den grunnleggende modelleringsteknikken du vil bruke. Selv om du kanskje allerede har valgt et verktøy under forretningsforståelsesfasen, vil du på dette stadiet velge den spesifikke modelleringsteknikken, f.eks. beslutningstrebygging med C5.0 eller generering av nevrale nettverk med forplantning tilbake. Hvis flere teknikker brukes, utfør denne oppgaven separat for hver teknikk.

powershell vs bash
    Modelleringsteknikk:Dokumenter den grunnleggende modelleringsteknikken som skal brukes.Modelleringsantakelser:Mange modelleringsteknikker gjør spesifikke forutsetninger om dataene, for eksempel at alle attributter har ensartede fordelinger, ingen manglende verdier er tillatt, klasseattributtet må være symbolsk osv. Registrer eventuelle antakelser som er gjort.

Generer testdesign

Før du bygger en modell, må du generere en prosedyre eller mekanisme for å teste modellens kvalitet og gyldighet. For eksempel i overvåket datautvinningsoppgaver som klassifisering er det vanlig å bruke feilrater som kvalitetsmål for datautvinningsmodeller. Derfor deler du vanligvis datasettet i tog- og testsett, bygger modellen på togsettet og anslår kvaliteten på det separate testsettet.

    Testdesign:Beskriv den tiltenkte planen for opplæring, testing og evaluering av modellene. En primær komponent i planen er å bestemme hvordan det tilgjengelige datasettet skal deles inn i opplærings-, test- og valideringsdatasett.

Bygg modell

Kjør modelleringsverktøyet på det forberedte datasettet for å lage en eller flere modeller.

    Parameterinnstillinger:Med ethvert modelleringsverktøy er det ofte et stort antall parametere som kan justeres. List opp parameterne, deres verdier og begrunnelsen for valg av parameterinnstillinger.Modeller:Dette er modellene produsert av modelleringsverktøyet, ikke en rapport om modellene.Modellbeskrivelser:Beskriv de resulterende modellene, rapporter om tolkningen av modellene og dokumenter eventuelle vanskeligheter med deres betydninger.

Vurder modellen

Tolk modellene i henhold til domenekunnskapen din, suksesskriterier for datautvinning og ønsket testdesign. Vurder suksessen til bruken av modellerings- og oppdagelsesteknikker, og kontakt deretter forretningsanalytikere og domeneeksperter senere for å diskutere datautvinningsresultatene i forretningssammenheng. Denne oppgaven tar kun for seg modeller, mens evalueringsfasen også tar for seg alle andre resultater som er produsert i løpet av prosjektet.

På dette stadiet bør du rangere modellene og vurdere dem i henhold til evalueringskriteriene. Du bør vurdere forretningsmålene og suksesskriteriene så langt du kan her. I de fleste data mining-prosjekter brukes en enkelt teknikk mer enn én gang, og data mining-resultater genereres med flere forskjellige teknikker.

    Modellvurdering:Oppsummerer resultatene av denne oppgaven, lister opp kvalitetene til de genererte modellene dine (f.eks. når det gjelder nøyaktighet) og ranger kvaliteten deres med hverandre.Reviderte parameterinnstillinger:I henhold til modellvurderingen, revider dem og juster dem for neste modellering. Gjenta modellbygging og vurdering til du har stor tro på at du har funnet den(e) beste modellen(e). Dokumenter alle slike revisjoner og vurderinger.

Fase 5: Evaluering

Evaluer resultatene dine: Tidligere evalueringstrinn omhandlet faktorer som modellens nøyaktighet og generalitet. I løpet av dette trinnet vil du vurdere i hvilken grad modellen oppfyller forretningsmålene dine og forsøke å finne ut om det er en forretningsmessig årsak til at denne modellen er mangelfull. Et annet alternativ er å teste modellen på testapplikasjoner i den virkelige applikasjonen hvis tids- og budsjettbegrensninger tillater det. Evalueringsfasen innebærer også å vurdere andre datautvinningsresultater du har generert. Data mining-resultater involverer modeller som nødvendigvis er relatert til de opprinnelige forretningsmålene og alle andre funn som ikke nødvendigvis er relatert til de opprinnelige forretningsmålene, men som også kan avsløre ytterligere utfordringer, informasjon eller hint for fremtidige retninger.

    Vurdering av data mining resultater:Oppsummer vurderingsresultatene i bedriftens suksesskriterier, inkludert en endelig uttalelse om hvorvidt prosjektet allerede oppfyller de opprinnelige forretningsmålene.Godkjente modeller:Etter å ha vurdert modellene til forretningssuksesskriterier, blir de genererte modellene som oppfyller de valgte kriteriene de godkjente modellene.

Gjennomgangsprosess

På dette tidspunktet ser de resulterende modellene ut til å være tilfredsstillende og tilfredsstille forretningsbehov. Det er nå hensiktsmessig for deg å gjøre en mer grundig gjennomgang av data mining-engasjementet for å finne ut om det er en viktig faktor eller oppgave som på en eller annen måte har blitt oversett. Denne gjennomgangen dekker også kvalitetssikringsspørsmål. For eksempel: bygget vi modellen riktig? Brukte vi kun de attributtene vi har lov til å bruke og som er tilgjengelige for fremtidige analyser?

    Gjennomgang av prosessen:Oppsummer prosessgjennomgangen og fremhev aktiviteter som har vært savnet og de som bør gjentas.

Bestem neste trinn

Du bestemmer nå hvordan du skal gå frem avhengig av vurderingsresultatene og prosessgjennomgangen. Fullfører du dette prosjektet og går videre til distribusjon, starter flere iterasjoner eller setter opp nye data mining-prosjekter? Du bør også gjøre oversikt over dine gjenværende ressurser og budsjett, noe som kan påvirke beslutningene dine.

    Liste over mulige handlinger:List opp potensielle ytterligere handlinger og årsakene for og imot hvert alternativ.Beslutning:Beskriv beslutningen om hvordan du skal gå frem, sammen med begrunnelsen.

Fase 6: Implementering

Planlegg distribusjon: I distribusjonsstadiet tar du evalueringsresultatene dine og bestemmer en strategi for deres distribusjon. Hvis det er identifisert en generell prosedyre for å lage den(e) relevante modellen(e), er denne prosedyren dokumentert her for senere distribusjon. Det er fornuftig å vurdere måtene og midlene for distribusjon i løpet av forretningsforståelsesfasen fordi utplassering er avgjørende for prosjektets suksess. Det er her prediktiv analyse bidrar til å forbedre virksomhetens operasjonelle side.

    Implementeringsplan:Oppsummer implementeringsstrategien din, inkludert de nødvendige trinnene og hvordan du utfører dem.

Planlegg overvåking og vedlikehold

Overvåking og vedlikehold er viktige spørsmål dersom datautvinningsresultatet blir en del av den daglige virksomheten og dens miljø. Den nøye utarbeidelsen av en vedlikeholdsstrategi bidrar til å unngå unødvendig lange perioder med feil bruk av data mining-resultater. Prosjektet trenger en detaljert overvåkingsprosessplan for å overvåke distribusjonen av datautvinningsresultatene. Denne planen tar hensyn til den spesifikke typen distribusjon.

    Overvåkings- og vedlikeholdsplan:Oppsummer overvåkings- og vedlikeholdsstrategien, inkludert nødvendige trinn og hvordan de skal utføres.

Lag sluttrapport

På slutten av prosjektet skal du skrive en sluttrapport. Avhengig av utplasseringsplanen kan denne rapporten bare være et sammendrag av prosjektet og dets erfaringer (hvis de ikke allerede er dokumentert som en pågående aktivitet), eller den kan være en endelig og omfattende presentasjon av datautvinningsresultatet.

    Sluttrapport:Dette er den endelige skriftlige rapporten fra data mining-engasjementet. Den inkluderer alle de tidligere leveransene, oppsummering og organisering av resultatene.Avsluttende presentasjon:Det vil ofte være et møte etter prosjektet hvor resultatene presenteres for kunden.

Gjennomgå prosjekt

datalinklagsprotokoller

Vurder hva som gikk rett og galt, hva som ble gjort bra og hva som må forbedres.

    Erfaringsdokumentasjon:Oppsummer viktig erfaring i løpet av prosjektet. For eksempel kan denne dokumentasjonen inkludere fallgruver du har møtt, villedende tilnærminger eller hint for å velge de best egnede datautvinningsteknikkene i lignende situasjoner. I ideelle prosjekter dekker erfaringsdokumentasjon også eventuelle rapporter som enkelte prosjektmedlemmer har skrevet i tidligere faser av prosjektet.