Adatbányászati folyamat

"Adatbányászat folyamatának része megviccelni: a tudás felfedezése. Mindazonáltal, Az adatbányászat önmagában egy folyamat, amely viszont több fázisból áll."
Korábbi ajánlás:
Adatbányászati szakaszok
Ahogy korábban megjegyeztük, Adatbányászat egy magasabb rangú folyamat része: a tudás felfedezése. Az adatbányászat azonban önmagában egy folyamat, amely viszont több fázisból áll.
Referenciának vesszük a CRISP modell (ún. ágazatközi standard folyamat) Adatbányászati folyamat.
Ez a modell leírja az adatbányászati projekt életciklusát, a projekt fázisait, az egyes fázisok megfelelő feladatait és a közöttük lévő különböző kapcsolatokat.
A adatbányászati projekt életciklusa hat szakaszból áll: üzleti megértés, adatmegértés, adat előkészítés, modellezés, értékelés és telepítés.
A leírás ezen szintjén nem lehet minden kapcsolatot azonosítani, azonban fontos megjegyezni a különböző fázisok közötti ismétlődő mozgás fontos az áttekintés biztosítása érdekében, vagyis mivel a fázisok és az azokban elért eredmények között függőség van, az egyes fázisok feladatainak elvégzése után ellenőrizni kell a többiekre gyakorolt hatásukat a folyamat koherenciájának fenntartása érdekében.
Kapcsolatok lehetnek az adatbányászati folyamat bármely fázisa vagy feladata között, változik a folyamat célkitűzéseinek, összefüggéseinek vagy a felhasználó érdeklődésének az adatok iránt.
A fentiekhez hasonlóan hasonló módon, az adatbányászat nem ér véget a megoldás telepítése után. A folyamat során felfedezett rejtett információk és maga a megoldás új kérdéseket válthat ki, amelyek a fejlesztési folyamat összes fázisának újrakezdéséhez vezetnek, így a későbbi bányászati folyamatok profitálhatnak a korábbi tapasztalatokból.
Ezután a folyamat minden szakaszának egy kis részletét látjuk:
Üzleti megértés
Ez az a fázis, amellyel a folyamat megnyílik. Arra összpontosít, hogy megértse a projekt céljait és követelményeit az üzleti perspektívától kezdve.
Ezt követően el kell sajátítani ezeket az ismereteket az adatokról (megismételjük, mindig üzleti szempontból), és át kell alakítani őket egy adatbányászati probléma definíciójává, előzetes tervet kell készíteni a tervezett célok szerint.
Az adatok megértése
Az adatok megértésének szakasza a kezdeti adatgyűjtéssel kezdődik, hogy folytassa azokat a tevékenységeket, amelyek lehetővé teszik az ismeretek megszerzését, amely lehetővé teszi az adatminőségi problémák azonosítását.
A adat minőség több dimenziója van: pontosság (ez tükrözi a történteket), egész (hogy a teljes adat a rendszerben van), véletlen (szükség esetén elérhető), relevancia, részletességi és következetességi szint (ugyanazok az adatok minden területen vagy rendszerben), ezért ellenőrizni kell az adatok ezen dimenziókban való elhelyezkedését.