Adatbányászati ​​folyamat

viszont több fázisból

"Adatbányászat folyamatának része megviccelni: a tudás felfedezése. Mindazonáltal, Az adatbányászat önmagában egy folyamat, amely viszont több fázisból áll."

Korábbi ajánlás:

Adatbányászati ​​szakaszok

Ahogy korábban megjegyeztük, Adatbányászat egy magasabb rangú folyamat része: a tudás felfedezése. Az adatbányászat azonban önmagában egy folyamat, amely viszont több fázisból áll.

Referenciának vesszük a CRISP modell (ún. ágazatközi standard folyamat) Adatbányászati ​​folyamat.

Ez a modell leírja az adatbányászati ​​projekt életciklusát, a projekt fázisait, az egyes fázisok megfelelő feladatait és a közöttük lévő különböző kapcsolatokat.

A adatbányászati ​​projekt életciklusa hat szakaszból áll: üzleti megértés, adatmegértés, adat előkészítés, modellezés, értékelés és telepítés.

A leírás ezen szintjén nem lehet minden kapcsolatot azonosítani, azonban fontos megjegyezni a különböző fázisok közötti ismétlődő mozgás fontos az áttekintés biztosítása érdekében, vagyis mivel a fázisok és az azokban elért eredmények között függőség van, az egyes fázisok feladatainak elvégzése után ellenőrizni kell a többiekre gyakorolt ​​hatásukat a folyamat koherenciájának fenntartása érdekében.

Kapcsolatok lehetnek az adatbányászati ​​folyamat bármely fázisa vagy feladata között, változik a folyamat célkitűzéseinek, összefüggéseinek vagy a felhasználó érdeklődésének az adatok iránt.

A fentiekhez hasonlóan hasonló módon, az adatbányászat nem ér véget a megoldás telepítése után. A folyamat során felfedezett rejtett információk és maga a megoldás új kérdéseket válthat ki, amelyek a fejlesztési folyamat összes fázisának újrakezdéséhez vezetnek, így a későbbi bányászati ​​folyamatok profitálhatnak a korábbi tapasztalatokból.

Ezután a folyamat minden szakaszának egy kis részletét látjuk:

Üzleti megértés

Ez az a fázis, amellyel a folyamat megnyílik. Arra összpontosít, hogy megértse a projekt céljait és követelményeit az üzleti perspektívától kezdve.

Ezt követően el kell sajátítani ezeket az ismereteket az adatokról (megismételjük, mindig üzleti szempontból), és át kell alakítani őket egy adatbányászati ​​probléma definíciójává, előzetes tervet kell készíteni a tervezett célok szerint.

Az adatok megértése

Az adatok megértésének szakasza a kezdeti adatgyűjtéssel kezdődik, hogy folytassa azokat a tevékenységeket, amelyek lehetővé teszik az ismeretek megszerzését, amely lehetővé teszi az adatminőségi problémák azonosítását.

A adat minőség több dimenziója van: pontosság (ez tükrözi a történteket), egész (hogy a teljes adat a rendszerben van), véletlen (szükség esetén elérhető), relevancia, részletességi és következetességi szint (ugyanazok az adatok minden területen vagy rendszerben), ezért ellenőrizni kell az adatok ezen dimenziókban való elhelyezkedését.