mielőtt túl késő

nyelv

Mi a természetes nyelv feldolgozása?

A természetes nyelv feldolgozása (NLP) a megértésre összpontosító tanulmányi terület számítógépen keresztül az emberi nyelv. Az adattudomány, a mesterséges intelligencia (gépi tanulás) és a nyelvészet egy részét fedi le.

Az NLP-ben a számítógépek az emberi nyelvet elemzik, értelmezik és jelentést adnak annak érdekében, hogy gyakorlati módon felhasználható legyen. Az NLP használatával olyan feladatokat végezhetünk, mint az automatikus szövegösszefoglalás, a nyelvfordítás, a kapcsolatok kinyerése, az érzelmek elemzése, a beszédfelismerés és a cikkek tantárgyankénti besorolása.

A nagy kihívás

Az NLP-t a mesterséges intelligencia egyik legnagyobb kihívásának tekintik, mivel ez az egyik legbonyolultabb és legnagyobb kihívást jelentő feladat: hogyan lehet megérteni Igazán a szöveg jelentése? Hogyan lehet megérinteni a neologizmusokat, az iróniát, a poénokat vagy a költészetet? Ha az általunk használt stratégia/algoritmus nem oldja meg ezeket a nehézségeket, a kapott eredmények nem lesznek hasznunkra.

Modellek, méretarányos modellek és a világ

Az NLP-ben nem elég pusztán megérteni szavak, a Szavak halmaza amelyek egy mondatot alkotnak, és sorok amelyek egy bekezdést tartalmaznak. Globális jelentés adása a szöveg/diskurzus elemzésének a jó következtetések levonása érdekében.

Nyelvünk tele van kétértelműségekkel, a szövegkörnyezettől függően különböző jelentéssel, fordulatokkal és különböző jelentéssel rendelkező szavakkal. Ez teszi az NLP-t az egyik legnehezebben elsajátítható feladat közé.

Mire szolgál az NLP? Alkalmazások

Megjegyzéseket fogunk tenni néhány leggyakoribb felhasználásról:

  • Szöveges összefoglaló: Az algoritmusnak meg kell találnia a cikk központi gondolatát, és figyelmen kívül kell hagynia azt, ami nem releváns.
  • Chatbotok: képesnek kell lenniük a felhasználóval folytatott folyékony beszélgetésre, és automatikusan válaszolniuk kérdéseikre.
  • Automatikus kulcsszógenerálás Y szöveggenerálás egy adott stílust követve
  • Az entitások elismerése: Keresse meg az embereket, kereskedelmi vagy kormányzati szervezeteket vagy országokat, városokat, márkákat ...
  • Hangulatelemzés: meg kell értened, hogy egy tweet, egy vélemény vagy egy megjegyzés pozitív vagy negatív, és milyen nagyságrendű (vagy semleges). Széles körben használják a közösségi hálózatokban, a politikában, a termékvéleményekben és az ajánlási motorokban.
  • Automatikus nyelvfordítás
  • Automatikus szöveges osztályozás már létező kategóriákban vagy teljes szövegekből fedezze fel az ismétlődő témákat és hozzon létre kategóriákat.

Hogyan képes a számítógép megérteni a nyelvet?

Nos, különféle modelleket kell összeállítanunk a nyelvvel, struktúrákat kell létrehoznunk és velük kell ellátnunk a Machine Learning algoritmusokat:

Kezdhetjük például egy hosszú szöveg felvételével. A reguláris kifejezésekkel a szöveget szavakra bontjuk. Megszámolhatjuk a szavakat, azok gyakoriságát. Ha van minta, például ha mindig X szó után következik, akkor mindig jön egy Y szó. Elemezhetjük, hogyan végződnek a szavak, például "az ar, er, go" végű igék és felfedezhetjük a szó gyökerét. Csoportosíthatnánk hasonló jelentésű szavakat, szemben az antonimáikkal.

Röviden: a nyelvet és annak összetevőit különféle módokon dolgozhatjuk fel: nyelvtan, szintaxis és megpróbálunk olyan támogató struktúrákat létrehozni, amelyek inputként szolgálnak a lineáris regresszió, a logisztikai regresszió, a naiv Bayes, a döntési fa vagy a neurális hálózatok alkalmazásához, attól függően, hogy milyen eredményt érünk el keres.

Az NLP-ben alkalmazott általános technikák

(Spoiler: vannak eszközök ezeknek a technikáknak a végrehajtásához, és nem kell mindent kézzel programozni)

A Pythonban használt eszközök az NLP-hez

A jövőbeni cikkekben részletesebben láthatunk példákat az NLP-re a python-tal, de itt van egy rövid áttekintés a Pythonban használt eszközökről:

  • NLTK: Ez az a lib, amellyel mindenki elindul, nagyon hasznos az előzetes feldolgozáshoz, a tokenek létrehozásához, stemminghez, POS címkézéshez stb.
  • TextBlob - Az NLYK tetejére épült és könnyen használható. Néhány további funkciót tartalmaz, mint például a hangulatelemzés és a helyesírás-ellenőrzés.
  • Gensim: kifejezetten a téma modellezésére készült, és több technikát (LDA és LSI) tartalmaz. Kiszámítja a dokumentum hasonlóságát is.
  • SpaCy: Sok mindent megtehet NLTK stílusban, de sokkal gyorsabb.
  • WebScraping: Szövegek beszerzése különféle weboldalakról

Következtetések

Olyan világban élünk, amelyben az emberek biztosan megkülönböztetik magukat más fajoktól azáltal, hogy hatékonyan kifejlesztett eszközökkel rendelkeznek, például a nyelvvel. Folyamatosan, beszélve, szavakkal, gesztusokkal kommunikálunk. Szimbólumok, jelek, jelzések, egyek és nullák vesznek körül minket. Az NLP alapvető eszköz, amelyet meg kell tanulnunk és el kell sajátítanunk annak érdekében, hogy képezzük gépeinket és sokkal sokoldalúbbá tegyük őket a környezettel való interakció során, lehetőséget adva a jobb megértésre, a magyarázatra: kommunikálni.

Tudnunk kell megérteni az NLP-ben használt különféle eszközöket és technikákat, és tudnunk kell, hogyan kell használni őket a megfelelő probléma megoldására. Az NLP egy nagyon - nagyon - spektrumot lefed és egy olyan utazás, amely megkezdődik, de soha nem ér véget ... továbbra is megjelennek új dokumentumok és új cselekvési eszközök. Ezeknek a „hagyományos” NLP technikáknak a mély tanulással történő kombinálásával az új lehetőségek kombinációja exponenciális!

Blog-előfizetés

Havonta egyszer új cikkeket kaphat a Machine Learningről, az ideghálózatokról, az NLP és a Python kódokról. HA 2x van szerencse 😉

Jövőbeli NLP és források

Míg egy érdekes cikket hagyok önnek a Pythonban található NLP gyakorlatokról is: