Hogyan válhat az NLP szakértőjévé 2019-ben (1) 2019

Ebben a bejegyzésben az összes elméleti tudásra összpontosítanék, amelyre szüksége van az NLP legújabb trendjeihez. Ezt az olvasási listát új fogalmak megtanulása közben készítettem. A következő bejegyzésben megosztanám azokat a dolgokat, amelyeket e fogalmak gyakorlásához használok, beleértve az illeszkedés és az 1. helyezett modelleket a verseny ranglistáján. Ezt a linket használva juthat el a 2. részhez (még várat magára).

Az erőforrásokhoz cikkeket, blogokat, videókat tartalmazok.

Nem kell elolvasnia a legtöbb dolgot. A fő cél az, hogy megértse, hogy ezt a kérdést bevezették ebbe a dokumentumba, és megértette, hogyan működik, hogyan viszonyul a technika állásához.

Trend: használjon nagyobb transzformátor alapú modelleket és oldja meg a többfeladatos tanulást.

Figyelem: az NLP-ben egyre növekvő tendencia, hogy ha új ötlete van az NLP-ben, miközben elolvassa bármelyik dokumentumot, akkor hatalmas számítási teljesítményt kell használnia az ésszerű eredmények eléréséhez. Tehát a nyílt forráskódú modellek korlátozzák.

fastai: - Már láttam a videókat, úgy gondoltam, fel kellene tennem a lista tetejére.

4. lecke Gyakorlati mély tanulás a kódolók számára. Ez segít egy nyelvi modell implementálásában a fastai-ban.
Van egy 12. lecke a tanfolyam 2. részében, de még nem jelent meg hivatalosan, ezért frissíteném a linket, amikor betöltődik.

2. LSTM: - Bár a transzformátorokat elsősorban ma használják, bizonyos esetekben továbbra is használhatja az LSTM-et, és ez volt az első sikeres modell, amely jó eredményeket hozott. Ha akarja, most használja az AWD_LSTM-et.

HOSSZÚ TÁVÚ MEMÓRIA. Elég egy gyors pillantás a papírra.
Ismerje meg az LSTM Networks blogot. Grafikusan magyarázza el az LSTM hálózat minden részletét.

3. AWD_LSTM: - Javasolták az LSTM hiányosságának kiküszöbölését a rejtett rétegek közötti kiesés bevezetésével, a beágyazás kiesésével, a súlyok megkötésével. Az LSTM helyett AWS_LSTM-et kell használnia.

Az LSTM nyelvi modellek szabályozási és optimalizációs szerepe. AWD_LSTM papír
Hivatalos Salesforce kód
fastai megvalósítás

4. Pointer modellek: - Bár nem szükséges, de jó olvasmány. Úgy gondolhat rá, mint elméletre a figyelem elõtt.

Az Sentinel Pointer Blend modellek szerepe
Hivatalos videó az előző cikkről.
A neurális nyelvi modellek továbbfejlesztése folyamatos gyorsítótár-szerepkörrel

Bónusz: Mi a különbség a fogyás és a rendszeresítés között? Fogyás esetén közvetlenül hozzáad valamit a frissítési szabályhoz, míg a szabályozásnál a fogyás funkcióhoz. Miért említi ezt? Valószínűleg a DL-könyvtárak a weight_decay-t használják a motorháztető alatti szabályozás helyett.

Néhány cikkben láthatnád, hogy a szerzők az SGD-t részesítették előnyben Ádámmal szemben, arra hivatkozva, hogy Ádám nem teljesít jól. Ennek oka (talán) a PyTorch/Tensorflow a fenti hibát követi el. Ezt részletesen ismertetjük ebben a bejegyzésben.

5. Figyelem: ne feledje, hogy nem csak a figyelemre van szüksége.

Nagyon sok kutatás folyik jobb transzformátorok készítéséhez, talán a jövőben további cikkeket olvasok erről. Néhány más transzformátor tartalmazza az univerzális transzformátort és az evolúciós transzformátort, amelyek az AutoML segítségével készítették el a transzformátor architektúráját.

Az ok, amiért az új transzformátor architektúrák nem oldják meg a problémát. Mivel olyan nyelvi modellekre van szüksége az NLP-feladatokhoz, amelyek ezeket a transzformatív blokkokat használják. A legtöbb esetben nem lesz számítási erőforrása ezeknek a modelleknek a betanításához, mivel kiderült, hogy minél több transzformátor blokkot használ, annál jobb. Ezen nyelvmodellek képzéséhez nagyobb kötegméretekre is szükség van, ami azt jelenti, hogy Nvidia DGX TPU-kat vagy Google Cloud-ot kell használnia (a PyTorch támogatása egy nap érkezik).