CRISP-DM står for den tverrindustrielle standardprosessen for data mining. CRISP-DM-metodikken gir en strukturert tilnærming til planlegging av et datautvinningsprosjekt. Det er en robust og velprøvd metodikk. Vi krever ikke noe eierskap over det. Vi fant det ikke opp. Vi er en omformer av dens kraftige praktiske, fleksibilitet og anvendelighet når vi bruker analyser for å løse forretningsproblemer. Det er den gyldne tråden som går gjennom nesten hvert kundemøte.
Denne modellen er en idealisert sekvens av hendelser. I praksis kan mange oppgaver utføres i en annen rekkefølge, og det vil ofte være nødvendig å gå tilbake til tidligere oppgaver og gjenta enkelte handlinger. Modellen prøver ikke å fange opp alle mulige ruter gjennom data mining-prosessen.
Hvordan hjelper CRISP?
CRISP DM gir et veikart, det gir deg beste praksis, og det gir strukturer for bedre og raskere resultater ved bruk av data mining, så det er slik det hjelper virksomheten å følge med mens du planlegger og gjennomfører et data mining-prosjekt.
Faser av CRISP-DM
CRISP-DM gir en oversikt over livssyklusen for datautvinning som prosessmodell. Livssyklusmodellen består av seks faser, med piler som indikerer de viktigste og hyppigste avhengighetene mellom fasene. Rekkefølgen av fasene er ikke streng. Og de fleste prosjekter beveger seg frem og tilbake mellom fasene etter behov. CRISP-DM-modellen er fleksibel og kan enkelt tilpasses.
For eksempel, hvis organisasjonen din har som mål å oppdage hvitvasking av penger, vil du sannsynligvis sile gjennom store mengder data uten et spesifikt modelleringsmål. I stedet for å modellere, vil arbeidet ditt fokusere på datautforskning og visualisering for å avdekke mistenkelige mønstre i økonomiske data. CRISP-DM lar deg lage en data mining-modell som passer dine behov.
Den inkluderer beskrivelser av typiske faser av et prosjekt, oppgavene som er involvert i hver fase, og en forklaring på forholdet mellom disse oppgavene.
Fase 1: Forretningsforståelse
Den første fasen av CRISP-DM-prosessen er å forstå hva du ønsker å oppnå fra et forretningsperspektiv. Organisasjonen din kan ha konkurrerende mål og begrensninger som må være riktig balansert. Denne prosessfasen tar sikte på å avdekke viktige faktorer som påvirker prosjektets utfall. Å neglisjere dette trinnet kan bety mye innsats for å produsere de riktige svarene på feil spørsmål.
Hva er de ønskede resultatene av prosjektet?
Vurder dagens situasjon
tabell i reaksjon
Dette innebærer mer detaljert faktasøk om ressursene, begrensningene, forutsetningene og andre faktorer du må vurdere når du bestemmer dataanalysemålet og prosjektplanen.
- Personell (forretningseksperter, dataeksperter, teknisk støtte, datautvinningseksperter)
- Data (faste utdrag, tilgang til live, lagret eller driftsdata)
- Dataressurser (maskinvareplattformer)
- Programvare (data mining-verktøy, annen relevant programvare)
- En ordliste med relevant forretningsterminologi utgjør en del av forretningsforståelsen som er tilgjengelig for prosjektet. Å lage denne ordlisten er en nyttig 'kunnskapsfremkalling' og opplæringsøvelse.
- En ordliste med data mining-terminologi er illustrert med eksempler som er relevante for forretningsproblemet.
Bestem mål for datautvinning
Et forretningsmål angir mål i forretningsterminologi. Et data mining-mål angir prosjektmål i tekniske termer. For eksempel kan forretningsmålet være Øk katalogsalg til eksisterende kunder. Et datautvinningsmål kan være å forutsi hvor mange widgets en kunde vil kjøpe, gitt deres kjøp de siste tre årene, demografisk informasjon (alder, lønn, by osv.) og varens pris.
Lag prosjektplan
Beskriv den tiltenkte planen for å nå data mining-målene og forretningsmålene. Planen din bør spesifisere trinnene som skal utføres under resten av prosjektet, inkludert det første utvalget av verktøy og teknikker.
1. Prosjektplan: List opp stadiene som skal utføres i prosjektet, med deres varighet, nødvendige ressurser, innganger, utganger og avhengigheter. Der det er mulig, prøv å gjøre eksplisitt de storskala iterasjonene i data mining-prosessen, for eksempel repetisjoner av modellerings- og evalueringsfasene.
Som en del av prosjektplanen er det viktig å analysere avhengighetene mellom tidsplaner og risiko. Merk resultatene av disse analysene eksplisitt i prosjektplanen, ideelt sett med handlinger og anbefalinger hvis risikoen er manifestert. Bestem hvilken evalueringsstrategi som skal brukes i evalueringsfasen.
Din prosjektplan vil være et dynamisk dokument. På slutten av hver fase vil du gjennomgå fremdrift og prestasjoner og oppdatere prosjektplanen deretter. Spesifikke vurderingspunkter for disse oppdateringene bør være en del av prosjektplanen.
2. Innledende vurdering av verktøy og teknikker: På slutten av den første fasen bør du foreta en innledende vurdering av verktøy og teknikker. Du velger for eksempel et datautvinningsverktøy som støtter ulike metoder for ulike stadier av prosessen. Det er viktig å vurdere verktøy og teknikker tidlig i prosessen siden valg av verktøy og teknikker kan påvirke hele prosjektet.
Fase 2: Dataforståelse
Den andre fasen av CRISP-DM-prosessen krever at du innhenter dataene som er oppført i prosjektressursene. Denne innledende innsamlingen inkluderer datainnlasting hvis dette er nødvendig for dataforståelse. For eksempel, hvis du bruker et spesifikt verktøy for dataforståelse, gir det perfekt mening å laste inn dataene dine i dette verktøyet. Hvis du skaffer deg flere datakilder, må du vurdere hvordan og når du skal integrere disse.
Beskriv data
Undersøk 'brutto' eller 'overflate'-egenskapene til de innhentede dataene og rapporter om resultatene.
java dato til streng
Utforsk data
I løpet av dette stadiet vil du ta opp spørsmål om datautvinning ved å bruke spørring, datavisualisering og rapporteringsteknikker. Disse kan omfatte:
- Fordeling av nøkkelattributter
- Forhold mellom par eller et lite antall attributter
- Resultater av enkle aggregasjoner
- Egenskaper til betydelige delpopulasjoner
- Enkle statistiske analyser
Disse analysene kan direkte adressere dine datautvinningsmål. De kan bidra til eller avgrense databeskrivelsen og kvalitetsrapportene og inngå i transformasjonen og andre dataforberedelsestrinn som er nødvendige for videre analyse.
Bekreft datakvaliteten
Undersøk kvaliteten på dataene ved å ta opp spørsmål som:
- Er dataene komplette, eller dekker de alle de nødvendige tilfellene?
- Er det riktig, eller inneholder det feil, og hvis det er feil, hvor vanlige er de?
- Mangler det verdier i dataene? I så fall, hvordan er de representert, hvor forekommer de, og hvor vanlige er de?
Datakvalitetsrapport
List opp resultatene av datakvalitetsverifiseringen. Hvis det er kvalitetsproblemer, foreslå mulige løsninger. Løsninger på datakvalitetsproblemer avhenger generelt sterkt av data og forretningskunnskap.
Fase 3: Dataforberedelse
I denne prosjektfasen bestemmer du deg for hvilke data du skal bruke til analyse. Kriteriene du kan bruke for å ta denne avgjørelsen inkluderer relevansen til dataene for datautvinningsmålene dine, datakvaliteten og tekniske begrensninger som begrensninger på datavolum eller datatyper.
Rengjør dataene dine
Denne oppgaven innebærer å heve datakvaliteten til det nivået som kreves av analyseteknikkene du har valgt. Dette kan innebære å velge rene delsett av dataene, innsetting av passende standardverdier, eller mer ambisiøse teknikker som å estimere manglende data ved å modellere.
Konstruer nødvendige data
Denne oppgaven inkluderer konstruktive dataforberedelsesoperasjoner som å produsere avledede attributter, helt nye poster eller transformerte verdier for eksisterende attributter.
java programvare mønstre
Integrer data
Disse metodene kombinerer informasjon fra flere databaser, tabeller eller poster for å lage nye poster eller verdier.
Fase 4: Modellering
Velg modelleringsteknikk: Som det første trinnet velger du den grunnleggende modelleringsteknikken du vil bruke. Selv om du kanskje allerede har valgt et verktøy under forretningsforståelsesfasen, vil du på dette stadiet velge den spesifikke modelleringsteknikken, f.eks. beslutningstrebygging med C5.0 eller generering av nevrale nettverk med forplantning tilbake. Hvis flere teknikker brukes, utfør denne oppgaven separat for hver teknikk.
powershell vs bash
Generer testdesign
Før du bygger en modell, må du generere en prosedyre eller mekanisme for å teste modellens kvalitet og gyldighet. For eksempel i overvåket datautvinningsoppgaver som klassifisering er det vanlig å bruke feilrater som kvalitetsmål for datautvinningsmodeller. Derfor deler du vanligvis datasettet i tog- og testsett, bygger modellen på togsettet og anslår kvaliteten på det separate testsettet.
Bygg modell
Kjør modelleringsverktøyet på det forberedte datasettet for å lage en eller flere modeller.
Vurder modellen
Tolk modellene i henhold til domenekunnskapen din, suksesskriterier for datautvinning og ønsket testdesign. Vurder suksessen til bruken av modellerings- og oppdagelsesteknikker, og kontakt deretter forretningsanalytikere og domeneeksperter senere for å diskutere datautvinningsresultatene i forretningssammenheng. Denne oppgaven tar kun for seg modeller, mens evalueringsfasen også tar for seg alle andre resultater som er produsert i løpet av prosjektet.
På dette stadiet bør du rangere modellene og vurdere dem i henhold til evalueringskriteriene. Du bør vurdere forretningsmålene og suksesskriteriene så langt du kan her. I de fleste data mining-prosjekter brukes en enkelt teknikk mer enn én gang, og data mining-resultater genereres med flere forskjellige teknikker.
Fase 5: Evaluering
Evaluer resultatene dine: Tidligere evalueringstrinn omhandlet faktorer som modellens nøyaktighet og generalitet. I løpet av dette trinnet vil du vurdere i hvilken grad modellen oppfyller forretningsmålene dine og forsøke å finne ut om det er en forretningsmessig årsak til at denne modellen er mangelfull. Et annet alternativ er å teste modellen på testapplikasjoner i den virkelige applikasjonen hvis tids- og budsjettbegrensninger tillater det. Evalueringsfasen innebærer også å vurdere andre datautvinningsresultater du har generert. Data mining-resultater involverer modeller som nødvendigvis er relatert til de opprinnelige forretningsmålene og alle andre funn som ikke nødvendigvis er relatert til de opprinnelige forretningsmålene, men som også kan avsløre ytterligere utfordringer, informasjon eller hint for fremtidige retninger.
Gjennomgangsprosess
På dette tidspunktet ser de resulterende modellene ut til å være tilfredsstillende og tilfredsstille forretningsbehov. Det er nå hensiktsmessig for deg å gjøre en mer grundig gjennomgang av data mining-engasjementet for å finne ut om det er en viktig faktor eller oppgave som på en eller annen måte har blitt oversett. Denne gjennomgangen dekker også kvalitetssikringsspørsmål. For eksempel: bygget vi modellen riktig? Brukte vi kun de attributtene vi har lov til å bruke og som er tilgjengelige for fremtidige analyser?
Bestem neste trinn
Du bestemmer nå hvordan du skal gå frem avhengig av vurderingsresultatene og prosessgjennomgangen. Fullfører du dette prosjektet og går videre til distribusjon, starter flere iterasjoner eller setter opp nye data mining-prosjekter? Du bør også gjøre oversikt over dine gjenværende ressurser og budsjett, noe som kan påvirke beslutningene dine.
Fase 6: Implementering
Planlegg distribusjon: I distribusjonsstadiet tar du evalueringsresultatene dine og bestemmer en strategi for deres distribusjon. Hvis det er identifisert en generell prosedyre for å lage den(e) relevante modellen(e), er denne prosedyren dokumentert her for senere distribusjon. Det er fornuftig å vurdere måtene og midlene for distribusjon i løpet av forretningsforståelsesfasen fordi utplassering er avgjørende for prosjektets suksess. Det er her prediktiv analyse bidrar til å forbedre virksomhetens operasjonelle side.
Planlegg overvåking og vedlikehold
Overvåking og vedlikehold er viktige spørsmål dersom datautvinningsresultatet blir en del av den daglige virksomheten og dens miljø. Den nøye utarbeidelsen av en vedlikeholdsstrategi bidrar til å unngå unødvendig lange perioder med feil bruk av data mining-resultater. Prosjektet trenger en detaljert overvåkingsprosessplan for å overvåke distribusjonen av datautvinningsresultatene. Denne planen tar hensyn til den spesifikke typen distribusjon.
Lag sluttrapport
På slutten av prosjektet skal du skrive en sluttrapport. Avhengig av utplasseringsplanen kan denne rapporten bare være et sammendrag av prosjektet og dets erfaringer (hvis de ikke allerede er dokumentert som en pågående aktivitet), eller den kan være en endelig og omfattende presentasjon av datautvinningsresultatet.
Gjennomgå prosjekt
datalinklagsprotokoller
Vurder hva som gikk rett og galt, hva som ble gjort bra og hva som må forbedres.