Най-добрият модел на NLP някога? Google BERT задава нови стандарти в 11 езикови задачи

Новият документ на Google AI BERT: Предварителното обучение на дълбоките двупосочни трансформатори за езиково разбиране получава признания от цялата общност на машинно обучение. Изследователите от Google представят дълбок двупосочен модел Transformer, който предефинира състоянието на 11-те задачи за обработка на естествен език, дори надминавайки човешките постижения в предизвикателната област на отговор на въпроси. Някои акценти от хартията:

  • НЛП изследователите използват днешното голямо количество налични езикови данни и съзряват техники за трансферно обучение, за да разработят нови подходи за предварително обучение. Първо обучават моделна архитектура на една езикова цел за моделиране и след това я прецизират за контролирана задача надолу по веригата. Научният работник на Айлиен Себастиан Рудър предполага в своя блог, че предварително обучените модели могат да имат „същото широкообхватно въздействие върху NLP, както проучените модели ImageNet върху компютърното зрение“.
  • Архитектурата на модела BERT е двупосочен енкодер на Трансформатора. Използването на трансформатор не е изненада - това е скорошна тенденция поради ефективността на обучението на Трансформаторите и превъзходната ефективност при улавяне на зависимости на далечни разстояния в сравнение с повтаряща се архитектура на невронната мрежа. Междувременно двупосочният енкодер е отличаваща се функция, която отличава BERT от OpenAI GPT (трансформатор отляво надясно) и ELMo (съчетаване на независимо обучени отляво надясно и отдясно наляво LSTM).
  • BERT е огромен модел, с 24 блока Трансформатори, 1024 скрити единици във всеки слой и 340M параметри.
  • Моделът е предварително обучен на 40 епохи над корпус от 3,3 милиарда думи, включително BooksCorpus (800 милиона думи) и английска Wikipedia (2,5 милиарда думи).
  • Моделът работи на 16 TPU шушулки за обучение.
  • В процеса на предварителна подготовка изследователите взеха подход, който включваше случайно маскиране на процент от входящите жетони (15 процента), за да се обучи дълбоко двупосочно представяне. Те се отнасят до този метод като модел на маскиран език (МЛМ).
  • Предварително подготвеният езиков модел не може да разбере връзките между изреченията, което е жизненоважно за езиковите задачи, като отговарянето на въпроси и естествения език. Следователно изследователите предварително са подготвили двоична задача за предсказване на следващото изречение, която може да бъде генерирана тривиално от всеки едноезичен корпус.
  • Фино настроеният модел за различни набори от данни подобрява показателя GLUE на 80.4% (7.6% абсолютно подобрение), MultiNLI точност до 86.7% (5.6% абсолютно подобрение), SQuAD v1.1 въпрос, отговарящ на тест F1 до 93.2 (1.5 абсолютно подобрение) и така нататък за общо 11 езикови задачи.

Първият автор на статията е Джейкъб Девлин, старши научен сътрудник на Google с основен изследователски интерес към разработването на модели за задълбочено обучение за задачи по естествен език. По-рано той ръководи превода на Microsoft Translate от превод на базата на фрази към превод на невронни машини (NMT) като принципен изследовател в Microsoft Research от 2014 до 2017 г.

Учен от Google Brain Research Thang Luong с ентусиазъм туитира „нова ера на NLP току-що започна преди няколко дни: големи модели за предварителна подготовка (Трансформатор 24 слоя, 1024 см, 16 глави) + масивни изчисления е всичко, от което се нуждаете.“

Baoxun Wang, главен учен от китайския стартиращ AI Tricorn, също похвали вестника на Google като „крайъгълен камък“ в своя основен адрес на тази седмица на конференцията на Американския съюз за изкуствен интелект в Съджоу, Китай. Документът използва огромно количество данни и изчислени и добре полирани инженерни работи, представящи това, което Уанг нарича „традицията на Google за насилствена естетика“.

Предварително подготвеният модел и код ще бъдат пуснати в следващите две седмици. Хартията е на arXiv.

Update:

Google отвори кода и данните на хартията в Github.

Журналист: Тони Пен | Редактор: Майкъл Саразен

Следвайте ни в Twitter @Synced_Global за ежедневни AI новини

Знаем, че не искате да пропускате никакви истории. Абонирайте се за популярната ни Synced Global AI Weekly, за да получавате седмични актуализации на AI.