A gépi tanulás vagy a gépi tanulás alapvetően abból áll, hogy különböző algoritmusok segítségével automatizálják az adatokban „elrejtett” mintákat vagy trendeket. Emiatt nagyon fontos nemcsak a legmegfelelőbb algoritmus kiválasztása (és annak későbbi paraméterezése az egyes problémákra), hanem az is, hogy nagy mennyiségű, megfelelő minőségű adattal rendelkezzen.

milyen

Az elmúlt években a gépi tanulás nagyon fontos lett az üzleti világban, mivel az adatelemzés intelligens használata kulcsfontosságú az üzleti siker szempontjából. A Gartner 2020-ra vonatkozó előrejelzései azt mutatják, hogy az intelligens döntéshozatalban, a robotikában, az autonóm járművekben és a hiperautomatizálásban rejlő előnyök mellett a biztonság területe is nagy erőkkel jelenik meg. Különösen a mesterséges intelligencia alkalmazásai az IoT-hez kapcsolódó rendszerek védelmére.

Ebben a bejegyzésben elmagyarázzuk, miből áll a gépi tanulás, milyen típusú tanulás létezik, hogyan működnek és mire használják őket.

Tényleg, mi a gépi tanulás?

Ez a mesterséges intelligencia egyik ága, amely a 80-as években kezdett elterjedni. Ez egy olyan mesterséges intelligencia-típus, amely már nem a szabályokon és a programozón múlik, hanem a számítógép képes létrehozni saját szabályait, és saját maga is tanul.

A gépi tanulás keresztül történik algoritmusok. Az algoritmus nem más, mint egy feladat végrehajtásához elrendezett lépések sora.

A cél gépi tanulás létrehozni a modell amely lehetővé teszi számunkra egy adott feladat megoldását. Akkor tudom vonat a modell nagy mennyiségű adat felhasználásával. A modell tanuljon ezekből az adatokból és képes megtenni jóslatok. A végrehajtani kívánt feladattól függően megfelelőbb lesz egy vagy másik algoritmussal dolgozni.

Az algoritmus kiválasztása nem könnyű. Ha információt keresünk az interneten, nagyon részletes cikkek valóságos lavináját találhatjuk, amelyek néha ahelyett, hogy segítenének, összezavarnak bennünket. Ezért megpróbálunk néhány alapvető iránymutatást adni a munka megkezdéséhez.

Két alapvető kérdést kell feltennünk magunknak. Az első:

Mit akarunk csinálni?

A helyzet az világosan határozza meg a célt. Problémánk megoldásához tehát feltesszük a kérdést magunknak, hogy milyen feladatot kell vállalnunk. Lehet például:

  • Osztályozási kérdések, például spam vagy levélszemét-észlelés.
  • Csoportosítási problémák, például könyv ajánlása a felhasználónak korábbi vásárlásai alapján (ajánlási rendszer) f
  • Regressziós problémák, például annak kiderítése, hogy egy adott ügyfél mennyit fog igénybe venni a szolgáltatással (érték meghatározása)

Ha figyelembe vesszük a ügyfélmegtartás, Látjuk, hogy különböző megközelítésekből közelíthetjük meg. Ügyfélszegmentálást akarunk végezni, igen, de melyik stratégia a legmegfelelőbb? Jobb osztályozási, klaszterezési vagy akár regressziós problémaként kezelni? A legfontosabb nyomot a második kérdés feltevésével fogjuk megadni.

Milyen információkkal rendelkezem a célom eléréséhez?

Ha azt kérdezem magamtól: "Ügyfeleim, természetes módon vannak-e csoportosítva?", Akkor nem határoztam meg célt (célt) a csoportosításhoz.

Ha azonban más módon teszem fel a kérdést: Meg tudjuk-e azonosítani azon ügyfelek csoportjait, amelyek nagy valószínűséggel kérik a szolgáltatás felmondását, amint a szerződésük lejár? cél tökéletesen meghatározva: leiratkozik-e az ügyfélről?, és a kapott válasznak megfelelően akarunk cselekedni.

Az első esetben a tanulás példájával állunk szemben felügyelet nélkül, míg a második származik felügyelt tanulás.

Az adattudományi folyamat kezdeti szakaszában nagyon fontos eldönteni, hogy a "támadási stratégia" felügyelet alatt áll-e, vagy nem, és ez utóbbi esetben pontosan meg kell határozni, hogy mi lesz a támadás. célváltozó. Ahogy döntünk, az egyik vagy másik algoritmuscsaláddal fogunk dolgozni.

A fentiek azonosítása után előre beállított algoritmusokat használunk, hogy kiválaszthassa, melyikkel dolgozzon. A legismertebbek: scikit-learning, gépi tanulás algoritmus csalni lásd többek között.

A gépi tanulás típusai

A végrehajtás típusai gépi tanulás Három különböző kategóriába sorolhatók:

  • Felügyelt tanulás
  • Felügyelet nélküli tanulás
  • Megerősítő tanulás a kapott adatok jellege szerint.

Felügyelt tanulás

Nál nél felügyelt tanulás, az algoritmusok „címkézett” adatokkal (címkézett adatok) dolgoznak, és megpróbálnak olyan funkciót találni, amely a bemeneti változók (bemeneti adatok) alapján hozzárendeli a megfelelő kimeneti címkét. Az algoritmust az adatok "előzményeivel" képzik ki, és ezáltal "megtanulja" a megfelelő kimeneti címkét hozzárendelni egy új értékhez, vagyis, megjósolja a kimeneti érték. (Simeone, 2018)

Például egy levélszemét-érzékelő elemzi az üzenet előzményeit, megnézve, hogy milyen funkciót képviselhet a megadott bemeneti paraméterek szerint (a feladó, ha a címzett egyén vagy egy lista része, ha az alany tartalmaz bizonyos kifejezéseket stb. .), hozzárendelve a „spam” vagy a „not spam” címkét. Miután meghatároztuk ezt a függvényt, új címkézetlen üzenet bevezetésekor az algoritmus képes a megfelelő címkét rendelni hozzá.

A felügyelt tanulás általában:

  • Osztályozási kérdések (számjellegű azonosítás, diagnosztika vagy személyazonosság-csalás észlelése).
  • Regressziós problémák (időjárás-előrejelzések, várható élettartam, növekedés stb.).

A felügyelt tanulás e két fő típusát, az osztályozást és a regressziót megkülönböztetik a típusa célváltozó. Osztályozási esetekben kategorikus, míg regressziós esetekben a célváltozó numerikus.

A felügyelt tanulásra a leggyakoribb algoritmusok a következők:

  1. Döntési fák.
  2. Naiv Bayes osztályozás.
  3. A legkisebb négyzetek regressziója.
  4. Logisztikus regresszió.
  5. Támogatja a Vector Machines-t (SVM).
  6. Az együttes módszerei (osztályozók készletei).

Felügyelet nélküli tanulás

A felügyelet nélküli tanulás akkor következik be, amikor a „címkézett” adatok nem állnak rendelkezésre a képzéshez. Csak a bemeneti adatokat ismerjük, de nincs olyan kimeneti adat, amely megfelelne egy bizonyos bemenetnek. Ezért csak írja le az adatok szerkezetét, hogy megpróbáljon valamilyen szervezetet találni, amely leegyszerűsíti az elemzést. Ezért van egy karakterük felderítő.

Például a fürtözési feladatok hasonlóságokon alapuló csoportosításokat keresnek, de semmi sem garantálja, hogy ezeknek van értelme vagy haszna. Néha, amikor az adatokat meghatározott cél nélkül kutatja, kíváncsi, de nem praktikus hamis összefüggéseket találhat.

A felügyelet nélküli tanulást gyakran használják:

  • Klaszterezési problémák
  • Együttes előfordulási csoportosítások
  • Profilozás vagy profilalkotás.

Azonban a hasonlóság megtalálásával, a kapcsolatok előrejelzésével vagy az adatok csökkentésével járó problémák figyelemmel kísérhetők vagy nem.

A felügyelet nélküli tanulásban az algoritmusok leggyakoribb típusai:
1. Fürtözési algoritmusok
2. Főkomponens-elemzés
3. Szinguláris értékbontás
4. Főkomponens-elemzés (független komponens-elemzés)

Mi tehát a megerősítő tanulás?

Nem minden ML algoritmus sorolható felügyelt vagy felügyelet nélküli tanulási algoritmusok közé. Van egy "senki földje", ahol a technikák megerősítő tanulás.

Ez a fajta tanulás alapja javítsa a modell válaszát egy visszacsatolási folyamat segítségével. Az algoritmus a körülötte lévő világ megfigyelésével tanul. A bemeneti információ az a visszajelzés, amelyet a külvilágtól kap, válaszul a tetteire. Ezért a rendszer az alapján tanul próba-hiba.

Ez nem egyfajta felügyelt tanulás, mert nem szigorúan a címkézett adatok halmazán alapul, sokkal inkább a megtett intézkedésekre adott válasz nyomon követésén alapul. Az sem felügyelet nélküli tanulás, hiszen amikor „tanoncunkat” modellezzük, előre tudjuk, mi a várható jutalom.

Ha többet szeretne megtudni a tanulás típusairól, ne hagyja ki ezt a másik bejegyzést, ahol elmagyarázzuk, mi a transzfer tanulás.

A gépi tanulás gyakorlati felhasználása

Befejezésül nézzük meg a gépi tanulás leggyakoribb gyakorlati felhasználási módjait.

  • Számítógépes biztonság, támadások diagnosztizálása, online csalásmegelőzés, rendellenességek felderítése stb.
  • Képek vagy minták (arc, ujjlenyomat, tárgyak, hang stb.) Felismerése
  • Autonóm vezetés, mély tanulási algoritmusok használatával: képek valós időben történő azonosítása, akadályok és közlekedési táblák észlelése, balesetek megelőzése ...
  • Egészségügy: a diagnosztikai tesztek automatikus értékelése, orvosi robotika stb.
  • Tőzsdei elemzés (pénzügyi előrejelzések, piac alakulása stb.)
  • Ajánló motorok

Alapvető fontosságú, hogy mindig tisztában legyenek a társaság által kitűzött célok e technikák alkalmazásakor, hogy képesek legyenek feltenni a megfelelő kérdéseket az adatokhoz. És természetesen mindig minőségi adatokkal dolgozzon.

Ha naprakész akar lenni a LUCA-val, látogasson el weboldalunkra, iratkozzon fel a LUCA Data Speaks-re, vagy kövessen minket a Twitteren, a LinkedIn-en és a YouTube-on.