পদার্থবিজ্ঞানে নোবেল পুরস্কার জন হপফিল্ড এবং জিওফ্রে হিন্টনকে নিউরাল নেটওয়ার্ক এবং মেশিন লার্নিংয়ে তাদের অবদানের জন্য প্রদান করা হয়েছে, যা বিস্ময় এবং বিতর্কের সঞ্চার করেছে।
সমালোচকরা যুক্তি দেন যে তাদের কাজটি ঐতিহ্যবাহী পদার্থবিজ্ঞানের সাথে খাপ খায় না, যা হয় যুগান্তকারী পদার্থবিজ্ঞানের আবিষ্কারের অভাব নির্দেশ করে বা এআই-এর বর্তমান জনপ্রিয়তাকে কাজে লাগানোর চেষ্টা নির্দেশ করে।
এই সিদ্ধান্তটি বিদ্যমান নোবেল বিভাগের প্রাসঙ্গিকতা এবং কম্পিউটার বিজ্ঞানের জন্য একটি পৃথক পুরস্কারের প্রয়োজনী য়তা নিয়ে আলোচনা শুরু করেছে।
ডিফারেনশিয়াল ট্রান্সফরমার একটি নতুন মনোযোগ প্রক্রিয়া প্রবর্তন করে যা প্রাসঙ্গিক বিষয়বস্তুর উপর মনোযোগ বাড়ায় এবং শব্দ কমায়, একটি ডিফারেনশিয়াল মনোযোগ পদ্ধতি ব্যবহার করে যা দুটি সফটম্যাক্স মনোযোগ মানচিত্র বিয়োগ করে বিরল মনোযোগ প্যাটার্নকে উৎসাহিত করে।
প্রায়োগিক ফলাফলগুলি নির্দেশ করে যে ডিফ ট্রান্সফরমার ভাষা মডেলিংয়ে প্রচলিত ট্রান্সফরমারগুলিকে ছাড়িয়ে যায়, বিশেষত দীর্ঘ প্রসঙ্গ মডেলিং, মূল তথ্য পুনরুদ্ধার এবং বিভ্রম হ্রাসে উৎকর্ষতা প্রদর্শন ক রে, ফলে প্রসঙ্গের মধ্যে শেখার ক্ষেত্রে নির্ভুলতা এবং দৃঢ়তা উন্নত হয়।
এই উন্নয়ন ডিফ ট্রান্সফর্মারকে বৃহৎ ভাষা মডেলগুলির উন্নতির জন্য একটি প্রতিশ্রুতিশীল স্থাপত্য হিসেবে অবস্থান করে, যার সম্ভাব্য প্রয়োগ রয়েছে গণনা এবং ভাষায়, পাশাপাশি মেশিন লার্নিংয়ে।
ডিফারেনশিয়াল ট্রান্সফরমার একটি উদ্ভাবনী আর্কিটেকচার প্রবর্তন করেছে যা ডিফারেনশিয়াল অ্যাটেনশন ব্যবহার করে, যা দুটি সফটম্যাক্স অ্যাটেনশন ফাংশন বিয়োগ করে শব্দ দূষণ কমায়, ফলে ছোট মডেল আকারে বৃহত্তর ট্রান্সফরমারের সাথে তুলনীয় কর্মক্ষমতা পাওয়া যায়। ৬.৮ বিলিয়ন প্যারামিটার ডিফ ট্রান্সফরমার ১১ বিলিয়ন প্যারামিটার ট্রান্সফরমারের সাথে অনুরূপ যাচাইকরণ ক্ষতি অর্জন করে, শুধুমাত্র ৬২.২% প্যারামিটার ব্যবহার করে, প্রতি স্তরে অর্ধেক অ্যাটেনশন হেড ব্যবহার করে। এই আর্কিটেকচার প্রশ্নোত্তর এবং টেক্সট সারাংশের মতো কাজগুলিতে হ্যালুসিনেশন কমানোর সম্ভাবনা দেখায়, যদিও এটি নতুন অ্যাটেনশন মেকানিজম গ্রহণের জন্য মডেলগুলিকে পুনরায় প্রশিক্ষণ করার প্রয়োজনীয়তা তৈরি করে।