viszont több fázisból

"Adatbányászat folyamatának része megviccelni: a tudás felfedezése. Mindazonáltal, Az adatbányászat önmagában egy folyamat, amely viszont több fázisból áll."

Korábbi ajánlás:

Adatbányászati ​​szakaszok

Ahogy korábban megjegyeztük, Adatbányászat egy magasabb rangú folyamat része: a tudás felfedezése. Az adatbányászat azonban önmagában egy folyamat, amely viszont több fázisból áll.

Referenciának vesszük a CRISP modell (ún. ágazatközi standard folyamat) Adatbányászati ​​folyamat.

Ez a modell leírja az adatbányászati ​​projekt életciklusát, a projekt fázisait, az egyes fázisok megfelelő feladatait és a közöttük lévő különböző kapcsolatokat.

A adatbányászati ​​projekt életciklusa hat szakaszból áll: üzleti megértés, adatmegértés, adat előkészítés, modellezés, értékelés és telepítés.

A leírás ezen szintjén nem lehet minden kapcsolatot azonosítani, azonban fontos megjegyezni a különböző fázisok közötti ismétlődő mozgás fontos az áttekintés biztosítása érdekében, vagyis mivel a fázisok és az azokban elért eredmények között függőség van, az egyes fázisok feladatainak elvégzése után ellenőrizni kell a többiekre gyakorolt ​​hatásukat a folyamat koherenciájának fenntartása érdekében.

Kapcsolatok lehetnek az adatbányászati ​​folyamat bármely fázisa vagy feladata között, változik a folyamat célkitűzéseinek, összefüggéseinek vagy a felhasználó érdeklődésének az adatok iránt.

A fentiekhez hasonlóan hasonló módon, az adatbányászat nem ér véget a megoldás telepítése után. A folyamat során felfedezett rejtett információk és maga a megoldás új kérdéseket válthat ki, amelyek a fejlesztési folyamat összes fázisának újrakezdéséhez vezetnek, így a későbbi bányászati ​​folyamatok profitálhatnak a korábbi tapasztalatokból.

Ezután a folyamat minden szakaszának egy kis részletét látjuk:

Üzleti megértés

Ez az a fázis, amellyel a folyamat megnyílik. Arra összpontosít, hogy megértse a projekt céljait és követelményeit az üzleti perspektívától kezdve.

Ezt követően el kell sajátítani ezeket az ismereteket az adatokról (megismételjük, mindig üzleti szempontból), és át kell alakítani őket egy adatbányászati ​​probléma definíciójává, előzetes tervet kell készíteni a tervezett célok szerint.

Az adatok megértése

Az adatok megértésének szakasza a kezdeti adatgyűjtéssel kezdődik, hogy folytassa azokat a tevékenységeket, amelyek lehetővé teszik az ismeretek megszerzését, amely lehetővé teszi az adatminőségi problémák azonosítását.

A adat minőség több dimenziója van: pontosság (ez tükrözi a történteket), egész (hogy a teljes adat a rendszerben van), véletlen (szükség esetén elérhető), relevancia, részletességi és következetességi szint (ugyanazok az adatok minden területen vagy rendszerben), ezért ellenőrizni kell az adatok ezen dimenziókban való elhelyezkedését.

Így elkezdheti felfedezni az adatok első betekintését, észlelje azokat az érdekes információkészleteket vagy részhalmazokat, hogy hipotéziseket alkosson, amelyek lehetővé teszik a rejtett információk felfedezésében való előrelépést.

Adatok előkészítése

Ebben az adat-előkészítési szakaszban Minden olyan tevékenységre kiterjed, amely a nyers forrásadatok adaptálásához és a végleges adatkészlethez való hozzáigazításhoz szükséges (a modellezési eszközök forrásául szolgáló adatok).

Az adat-előkészítési vagy -tisztítási feladatokat többször és nem sorrendben fogjuk elvégezni. Ezen feladatok között van táblázatok, rekordok és attribútumok kiválasztása, valamint az adatok átalakítása és tisztítása a modellezési eszközök előkészítése érdekében.

Modellezés

Amint a következő szakaszban látni fogjuk, Többféle adatmodellezési technika létezik, amelyek a folyamatnak ebben a szakaszában vannak, amikor a megszerzett tudás után kiválasztják a megfelelőt (mindig az üzleti és projektcéloknak megfelelően) és alkalmazzák.

Ebben a szakaszban a következőket keresik négyféle kapcsolat:

  • Tanulságok- A megfigyelések alapértelmezett csoportokhoz vannak rendelve.
  • Klaszterek: hasonló megfigyelések csoportjait egy előre beállított kritérium szerint építjük fel.
  • Egyesületek: a megfigyelések a változók közötti asszociációk azonosítására szolgálnak.
  • Szekvenciális minták: a viselkedési minták és trendek azonosításáról szól.

Ezen technikák között megtalálhatjuk: jellemzés vagy összefoglalás, megkülönböztetés vagy kontraszt, asszociációs elemzés, osztályozás, előrejelzés, klaszterezés vagy klaszter detektálás, anomáliák detektálása, evolúció és deviáció elemzés… Különböző technikák léteznek ugyanazon típusú adatbányászati ​​probléma megoldására. Egyes technikáknak egyedi követelményei vannak az adatok formájával kapcsolatban. Ezért térjen vissza az adat-előkészítési szakaszba, hogy ezeket szükség esetén a technikához igazítsa.

Értékelés

Az előző szakasz eredményeként, a projekt ebben a szakaszában már elkészült egy modell. A projektre javasolt minőségi előírások betartásának biztosítása érdekében adatelemzési szempontból kell értékelni. Vagyis a végső telepítés és a gyártásba vétel előtt fontos elvégezni a tesztek sorozatát, a modell létrehozása során végrehajtott egyes lépések áttekintésével együtt, amely segít összehasonlítani a kapott modellt az üzleti vállalkozással. célkitűzéseket.

Alapvető cél annak meghatározása, hogy minden üzleti elvárás teljesült-e, biztosítva, hogy ne legyenek hiányok vagy hiányok, amelyeket nem fedeztek le.

Telepítés vagy kizsákmányolás

Ebben a szakaszban az adatbányászati ​​folyamat eredményeinek kiaknázását és felhasználását hajtják végre, amely a követelményektől függően lehet olyan egyszerű, mint egy jelentés előállítása, vagy olyan bonyolult, mint a keresztadat-bányászat ismételt végrehajtása folyamat a vállalaton keresztül. Ennélfogva, sok esetben maga az ügyfél és nem az adatelemző végzi a kiaknázást.

Az adatbányászat iteratív folyamat, ezért a modell létrehozása nem jelenti a projekt végét. A folyamat eredményeként megszerzett ismeretek ismét tökéletesen felhasználhatók bemeneti információként a teljes KKD folyamat újabb ciklusának újbóli elvégzéséhez.

Vagyis, ha a felfedezett tudást bemutatják a felhasználónak, javíthatóak az értékelési intézkedések, finomítható a bányászat, új adatok választhatók ki vagy alakíthatók újra, vagy új adatforrások adhatók hozzá…, Mindezt más vagy megfelelőbb eredmények elérése érdekében.