Beste NLP-model ooit? Google BERT stelt nieuwe normen in 11 taaltaken

De nieuwe Google AI-paper BERT: Pre-training van Deep Bidirectional Transformers for Language Understanding ontvangt lofbetuigingen van de hele machine learning-gemeenschap. Google-onderzoekers presenteren een diep bidirectioneel transformatormodel dat de state of the art opnieuw definieert voor 11 natuurlijke taalverwerkingstaken, en zelfs menselijke prestaties overtreft op het uitdagende gebied van het beantwoorden van vragen. Enkele hoogtepunten uit het papier:

  • NLP-onderzoekers benutten de grote hoeveelheid beschikbare taalgegevens van vandaag en de rijpende overdrachtstechnieken om nieuwe pre-trainingsbenaderingen te ontwikkelen. Ze trainen eerst een modelarchitectuur op één taalmodelleringdoelstelling en passen deze vervolgens aan voor een downstream-taak onder toezicht. Aylien Research Scientist Sebastian Ruder suggereert in zijn blog dat vooraf getrainde modellen "dezelfde brede impact op NLP kunnen hebben als voorgedefinieerde ImageNet-modellen op computer vision".
  • De architectuur van het BERT-model is een bidirectionele Transformer-encoder. Het gebruik van een Transformer is geen verrassing - dit is een recente trend vanwege de trainingsefficiëntie en superieure prestaties van Transformers bij het vastleggen van langeafstandsafhankelijkheid in vergelijking met een terugkerende neurale netwerkarchitectuur. De bidirectionele encoder is ondertussen een opvallende functie die BERT onderscheidt van OpenAI GPT (een links-naar-rechts transformator) en ELMo (een aaneenschakeling van onafhankelijk getrainde links-naar-rechts en rechts-naar-links LSTM).
  • BERT is een enorm model, met 24 transformatorblokken, 1024 verborgen eenheden in elke laag en 340M-parameters.
  • Het model is vooraf getraind op 40 tijdperken met een corpus van meer dan 3,3 miljard woorden, waaronder BooksCorpus (800 miljoen woorden) en Engelse Wikipedia (2,5 miljard woorden).
  • Het model draait op 16 TPU-pods voor training.
  • In het pre-trainingsproces namen onderzoekers een aanpak waarbij willekeurig een percentage van de invoertokens (15 procent) werd gemaskeerd om een ​​diepe bidirectionele weergave te trainen. Ze verwijzen naar deze methode als een Masked Language Model (MLM).
  • Een voorgetraind taalmodel kan de relaties tussen zinnen niet begrijpen, wat van vitaal belang is voor taaltaken zoals het beantwoorden van vragen en het bepalen van de natuurlijke taal. Onderzoekers hebben daarom een ​​gebinariseerde taak voor het voorspellen van de volgende zin vooraf getraind die triviaal kan worden gegenereerd vanuit elk eentalig corpus.
  • Het verfijnde model voor verschillende datasets verbetert de GLUE-benchmark tot 80,4 procent (7,6 procent absolute verbetering), MultiNLI-nauwkeurigheid tot 86,7 procent (5,6 procent absolute verbetering), de SQuAD v1.1-vraag beantwoordt test F1 tot 93,2 (1,5 absolute verbetering) , enzovoort in totaal 11 taaltaken.

De eerste auteur van het artikel is Jacob Devlin, een senior onderzoekswetenschapper van Google met een primaire onderzoeksinteresse in het ontwikkelen van diepgaande leermodellen voor natuurlijke taaltaken. Eerder leidde hij de overgang van Microsoft Translate van zinsgebaseerde vertaling naar neurale machinevertaling (NMT) als Principle Research Scientist bij Microsoft Research van 2014 tot 2017.

Google Brain Research Scientist Thang Luong tweette enthousiast: “een nieuw tijdperk van NLP is net een paar dagen geleden begonnen: grote pre-trainingsmodellen (Transformer 24 lagen, 1024 dimmen, 16 koppen) + massieve berekening is alles wat je nodig hebt.”

Baoxun Wang, hoofdwetenschapper van de Chinese AI-startup Tricorn, prees de Google-paper ook als "een mijlpaal" in zijn keynote-toespraak op de conferentie van de Alliance Industrial Alliance Industry in Suzhou, China. Het papier maakt gebruik van enorme hoeveelheden gegevens en berekende en goed gepolijste technische werken, die vertegenwoordigen wat Wang "de traditie van Google van gewelddadige esthetiek" noemt.

Het vooraf getrainde model en de nieuwe code worden in de komende twee weken vrijgegeven. Het papier is op arXiv.

Bijwerken:

Google heeft de code en gegevens van het papier op Github open source.

Journalist: Tony Peng | Editor: Michael Sarazen

Volg ons op Twitter @Synced_Global voor dagelijks AI-nieuws

We weten dat je geen verhalen wilt missen. Abonneer u op onze populaire Synced Global AI Weekly voor wekelijkse AI-updates.