أفضل NLP نموذج من أي وقت مضى؟ جوجل بيرت يضع معايير جديدة في 11 مهمة لغة

تتلقى ورقة Google AI الجديدة BERT: التدريب المسبق لمحوّلات ثنائية الاتجاه العميق لفهم اللغة تقديمات من جميع أنحاء مجتمع التعلم الآلي. يقدم باحثو Google نموذجًا عميقًا لمحولات ثنائية الاتجاه يعيد تعريف الحالة العصرية لـ 11 مهمة من مهام معالجة اللغة الطبيعية ، بل ويتجاوز الأداء البشري في مجال الإجابة عن الأسئلة الصعبة. بعض النقاط البارزة من الورقة:

  • يستغل باحثو البرمجة اللغوية العصبية (NLP) كمية كبيرة من البيانات اللغوية المتاحة اليوم وينضجون تقنيات التعلم في مجال النقل لتطوير مناهج جديدة لما قبل التدريب. يقومون أولاً بتدريب بنية نموذجية على هدف نمذجة لغة واحدة ، ثم يقومون بضبطها لمهمة خاضعة للإشراف أسفل المصب. يقترح سيباستيان رودر ، عالم الأبحاث في أيلين ، في مدونته ، أن النماذج المدربة مسبقًا قد يكون لها "نفس التأثير الواسع النطاق على البرمجة اللغوية العصبية كما كان لطراز ImageNet الذي تم إجراؤه على رؤية الكمبيوتر."
  • هندسة BERT النموذجية هي ترميز محولات ثنائي الاتجاه. لا يمثل استخدام Transformer مفاجأة - فهذا اتجاه حديث نظرًا لكفاءة تدريب Transformers والأداء المتفوق في التقاط التبعيات البعيدة المسافة مقارنة بهندسة الشبكات العصبية المتكررة. وفي الوقت نفسه ، يعتبر التشفير ثنائي الاتجاه ميزة بارزة تميز BERT عن OpenAI GPT (محول من اليسار إلى اليمين) و ELMo (سلسلة من LSTM من اليسار إلى اليمين ومن اليسار إلى اليمين).
  • بيرت هو نموذج ضخم ، مع 24 كتل المحولات ، 1024 وحدة مخفية في كل طبقة ، و 340M المعلمات.
  • تم تدريب هذا النموذج مسبقًا على 40 حقبة تزيد على 3.3 مليار كلمة ، بما في ذلك BooksCorpus (800 مليون كلمة) ويكيبيديا الإنجليزية (2.5 مليار كلمة).
  • يعمل النموذج على 16 حاضنة TPU للتدريب.
  • في عملية ما قبل التدريب ، اتبع الباحثون مقاربة تضمنت إخفاء عدد من الرموز المميزة (15 بالمائة) عشوائيًا لتدريب تمثيل ثنائي الاتجاه عميق. يشيرون إلى هذه الطريقة كنموذج لغة ملثمين (الامتيازات والرهون البحرية).
  • لا يمكن لنموذج اللغة المُدرَّب مسبقًا فهم العلاقات بين الجمل ، وهو أمر حيوي للمهام اللغوية مثل الإجابة على الأسئلة واستدلال اللغة الطبيعية. لذلك قام الباحثون مسبقًا بتدريب مهمة التنبؤ الجملة التالية التي يمكن إنشاؤها بشكل تافه من أي مجموعة أحادية اللغة.
  • يحسّن النموذج المضبوط لمجموعات البيانات المختلفة من معيار GLUE إلى 80.4 بالمائة (تحسين مطلق نسبته 7.6 بالمائة) ، ودقة MultiNLI إلى 86.7 بالمائة (تحسين مطلق بنسبة 5.6 بالمائة) ، وسؤال SQuAD v1.1 الذي يجيب على اختبار F1 إلى 93.2 (تحسين مطلق 1.5) وما إلى ذلك على ما مجموعه 11 مهمة لغوية.

أول مؤلف للجريدة هو جاكوب ديفلين ، عالم أبحاث غوغل له مصلحة بحثية أساسية في تطوير نماذج تعليمية عميقة لمهام اللغة الطبيعية. قاد سابقًا انتقال Microsoft Translate من الترجمة القائمة على العبارة إلى الترجمة الآلية العصبية (NMT) كعالم أبحاث رئيسي في Microsoft Research من 2014 إلى 2017.

قام عالِم أبحاث الدماغ من Google ، تانغ لونج ، بالتغريد بحماسة "لقد بدأ لتوه حقبة جديدة من البرمجة اللغوية العصبية منذ بضعة أيام: النماذج الكبيرة السابقة للتدريب (Transformer 24 layers، 1024 dim، 16 head) + الحوسبة الضخمة هي كل ما تحتاج إليه."

كما أشاد باوكسون وانغ ، كبير العلماء في شركة Tricorn الصينية الناشئة ، ببحث Google باعتباره "علامة فارقة" في خطابه الرئيسي في مؤتمر تحالف صناعة الذكاء الاصطناعي هذا الأسبوع في سوتشو بالصين. تستفيد الورقة من كميات هائلة من البيانات وتعمل على حساب الأعمال الهندسية المصقولة ، والتي تمثل ما يسميه وانج "تقليد Google في جماليات العنف".

سيتم إصدار النموذج المدربين مسبقًا والرمز في الأسبوعين المقبلين. الورقة على arXiv.

تحديث:

قامت Google بفتح مصدر رمز الورقة والبيانات الموجودة على Github.

الصحفي: توني بينج | المحرر: مايكل سارازن

تابعنا على TwitterSynced_Global للحصول على أخبار منظمة العفو الدولية اليومية

نحن نعلم أنك لا تريد تفويت أي قصص. اشترك في مجلة AI Weekly Synced العالمية الشائعة للحصول على تحديثات AI الأسبوعية.