تم منح جائزة نوبل في الفيزياء لجون هوبفيلد وجيفري هينتون لمساهماتهما في الشبكات العصبية وتعلم الآلة، مما أثار الدهشة والجدل.
يجادل النقاد بأن عملهم لا يتناسب مع الفيزياء التقليدية، مما يشير إما إلى ندرة الاكتشافات الفيزيائية الرائدة أو محاولة للاستفادة من شعبية الذكاء الاصطناعي الحالية.
لقد أثار هذا القرار مناقشات حول مدى ملاءمة الفئات الحالية لجائزة نوبل والحاجة المحتملة لجائزة منفصلة مخصصة لعلوم الحاسوب.
يقدم المحول التفاضلي آلية انتباه جديدة تعزز التركيز على السياق ذي الصلة مع تقليل الضوضاء، باستخدام نهج انتباه تفاضلي يطرح خريطتي انتباه سوفت ماكس لتشجيع أنماط انتباه متفرقة.
تشير النتائج التجريبية إلى أن Diff Transformer يتفوق على المحولات التقليدية في نمذجة اللغة، حيث يبرز بشكل خاص في نمذجة السياقات الطويلة، واستخراج المعلومات الأساسية، وتقليل الهلوسات، مما يحسن الدقة والمتانة في التعلم داخل السياق.
يضع هذا التطور محول Diff كهيكل واعد لتطوير نماذج اللغة الكبيرة، مع تطبيقات محتملة في الحساب واللغة، بالإ ضافة إلى التعلم الآلي.
يقدم المحول التفاضلي بنية مبتكرة باستخدام الانتباه التفاضلي، الذي يقلل من الضوضاء عن طريق طرح وظيفتين للانتباه باستخدام سوفت ماكس، مما يسمح بحجم نموذج أصغر مع أداء مماثل للمحولات الأكبر. يحقق محول DIFF ذو 6.8 مليار معلمة خسارة تحقق مماثلة لمحول ذو 11 مليار معلمة، باستخدام 62.2% فقط من المعلمات، من خلال استخدام نصف عدد رؤوس الانتباه لكل طبقة. تظهر هذه البنية إمكانات في تقليل الهلوسة في مهام مثل الإجابة على الأسئلة وتلخيص النصوص، على الرغم من أنها تتطلب إعادة تدريب النماذج لتبني آلية الانتباه الجديدة.