वाशिंगटन विश्वविद्यालय (UW) ने "टारगेट स्पीच हियरिंग" नाम की एक AI प्रणाली विकसित की है जो उपयोगकर्ताओं को तीन से पांच सेकंड के लिए शोर वातावरण में एकल स्पीकर पर ध्यान केंद्रित करने में मदद करती है।
एसीएम सीएचआई सम्मेलन में प्रस्तुत, यह प्रणाली वास्तविक समय में वांछित स्पीकर की आवाज को अलग करने और बढ़ाने के लिए मशीन लर्निंग का उपयोग करती है, भले ह ी उपयोगकर्ता चलता हो।
वर्तमान में प्रूफ-ऑफ-कॉन्सेप्ट चरण में, प्रौद्योगिकी का परीक्षण 21 विषयों पर किया गया था, जिन्होंने ईयरबड्स और श्रवण यंत्रों में विस्तार करने की भविष्य की योजनाओं के साथ स्पष्टता में काफी सुधार की सूचना दी थी।
पाठ एआई हेडफ़ोन, उन्नत ध्वनि डिजाइन और शोर-रद्द करने वाली तकनीकों पर ध्यान केंद्रित करते हुए, शोर वातावरण में श्रवण अनुभवों को बेहतर बनाने के लिए रणनीतियों और प्रौद्योगिकियों की पड़ताल करता है।
यह शोर में योगदान देने वाली आधुनिक रेस्तरां सामग्री की चुनौतियों और रखरखाव और सौंदर्य संबंधी मुद्दों के बावजूद ध्वनि-भीगने वाली तकनीकों के उपयोग पर प्रकाश डालता है।
तकनीकी प्रगति जैसे दिशात्मक माइक्रोफोन, वास्तविक समय भाषण पहचान, और चयनात्मक ध्वनि फ़िल्टरिंग पर चर्चा की जाती है, साथ ही गोपनीयता और संभावित दुरुपयोग के बारे में चिंताओं के साथ।
OpenAI बोर्ड के पूर्व सदस्य हेलेन टोनर ने खुलासा किया कि सैम ऑल्टमैन को बेईमानी के कई उदाहरणों और बोर्ड से जानकारी वापस लेने के कारण CEO के रूप में कुछ समय के लिए हटा दिया गया था।
उदाहरणों में ट्विटर के माध्यम से चैटजीपीटी की रिहाई के बारे में सीखने वाला बोर्ड और ऑल्टमैन ने कंपनी में अपने वित्तीय हित का खुलासा नहीं किया, साथ ही दो अधिकारियों द्वारा गलत सुरक्षा जानकारी और "मनोवैज्ञानिक दुर्व्यवहार" प्रदान करने के आरोप लगाए।
कर्मचारियों द्वारा छोड़ने की धमकी देने के बाद एक हफ्ते से भी कम समय बाद ऑल्टमैन को सीईओ के रूप में बहाल कर दिया गया और माइक्रोसॉफ्ट ने अपनी टीम को काम पर रखने में रुचि व्यक्त की; टोनर ने लौटने के कुछ ही समय बाद इस्तीफा दे दिया।
OpenAI के सीईओ सैम ऑल्टमैन को कुछ समय के लिए बाहर कर दिया गया और फिर बोर्ड के अधिकार और प्रमुख निवेशकों और संस्थापकों के प्रभाव के बीच तनाव को उजागर करते हुए फिर से काम पर रखा गया।
ऑल्टमैन की गोलीबारी के बोर्ड के कुप्रबंधन के कारण महत्वपूर्ण कर्मचारी प्रतिक्रिया और सामूहिक इस्तीफे की धमकी मिली, जो कॉर्पोरेट प्रशासन, कर्मचारी प्रभाव और वित्तीय हितों की जटिल गतिशीलता को रेखांकित करता है।
इस घटना ने तकनीक में नेतृत्व, निर्दयी व्यवहार के नैतिक निहितार्थ और कॉर्पोरेट प्रशासन में संचार और नैतिकता की भूमिका पर व्यापक चर्चा की।
HTTP-to-HTTPS पुनर्निर्देशन संवेदनशील डेटा को उजागर कर सकता है या मैन-इन-द-मिडिल (MITM) हमलों को सक्षम कर सकता है, विशेष रूप से उन सॉफ़्टवेयर द्वारा एक्सेस किए गए API के लिए जो सुरक्षा हेडर को हैंडल नहीं कर सकते हैं।
HSTS (HTTP स्ट्रिक्ट ट्रांसपोर्ट सिक्योरिटी) और HTTPS-ओनली मोड जैसी तकनीकें सुरक्षा में सुधार करती हैं लेकिन API के लिए पर्याप्त नहीं हो सकती हैं, त्रुटियों को जल्दी पकड़ने के लिए एक असफल-तेज़ दृष्टिकोण की आवश्यकता पर प्रकाश डालती हैं।
सर्वोत्तम प्रथाओं को यह अनुशंसा करने के लिए अद्यतन किया जाना चाहिए कि API अनएन्क्रिप्टेड अनुरोधों को पूरी तरह से अस्वीकार कर दें और सुरक्षा जोखिमों को रोकने के लिए अनएन्क्रिप्टेड कनेक्शन पर भेजे गए API क्रेडेंशियल्स को रद्द कर दें।
चर्चा HTTP को HTTPS पर पुनर्निर्देशित करके और मैन-इन-द-मिडिल (MITM) हमलों को रोकने के लिए HTTP पर भेजी गई API कुंजियों को रद्द करके API सुरक्षा बढ़ाने पर जोर देती है।
यह प्रमाणीकरण के लिए हस्ताक्षरित हैश, नॉन और टाइमस्टैम्प का उपयोग करके उचित एपीआई कुंजी प्रबंधन के महत्व और डेटा अखंडता और गोपनीयता के लिए HTTPS की आवश्यकता पर प्रकाश डालता है।
वार्तालाप प्रमाणपत्र प्राधिकरणों पर निर्भरता की आलोचना करता है और विश िष्ट संदर्भों में सुरक्षित अभिगम नियंत्रण के लिए अद्वितीय URL या API कुंजी जैसे व्यावहारिक समाधान सुझाता है।
Llama3-V Llama3 पर आधारित एक नया मल्टीमॉडल मॉडल है, जिसे GPT-4V जैसे बड़े मॉडलों को टक्कर देने के लिए डिज़ाइन किया गया है, लेकिन काफी कम लागत ($500 से कम) पर।
यह वर्तमान अत्याधुनिक मॉडल, लावा को मल्टीमॉडल समझ बेंचमार्क में 10-20% से आगे निकालता है, छवि एम्बेडिंग के लिए SigLIP का उपयोग करता है और स्व-ध्यान परतों के साथ एक प्रक्षेपण ब्लॉक के माध्यम से दृश्य और पाठ्य टोकन को संरेखित करता है।
प्रमुख अनुकूलन में प्रीकंप्यूटिंग इमेज एम्बेडिंग और कुशल प्रशिक्षण के लिए MPS/MLX का लाभ उठाना शामिल है, जिसमें एक प्रशिक्षण प्रक्रिया है जिसमें 600,000 उदाहरणों पर प्रीट्रेनिंग और 1 मिलियन उदाहरणों पर पर्यवेक्षित फाइनट्यूनिंग शामिल है।
लेख लामा 3-वी पर ध्यान केंद्रित करते हुए विभिन्न मल्टीमॉडल एआई मॉडल की तुलना करता है, जिसका उद्देश्य GPT-4V के प्रदर्शन से मेल खाना है लेकिन यह छोटा और सस्ता है।
यह इस बात पर प्रकाश डालता है कि InternVL-1.5 और CogVLM जैसे मॉडल OCR (ऑप्टिकल कैरेक्टर रिकग्निशन) और GUI (ग्राफिकल यूजर इंटरफेस) समझ जैसे कार्यों में उत्कृष्ट प्रदर्शन करने वाले विशिष्ट मॉडलों के साथ लावा से बेहतर प्रदर्शन करते हैं।
उपयोगकर्ता व्यावहारिक अनुप्रयोगों, सीमाओं और इन मॉडलों की लागत-प्रभावशीलता पर चर्चा करते हैं, जिसमें दृश्य कार्यों के लिए उत्पादन में GPT-4V का उपयोग और पैडलओसीआर और ट्रॉसीआर जैसे आधुनिक ओसीआर उपकरणों की प्रभावशीलता शामिल है।