طورت جامعة واشنطن (UW) نظاما الذكاء الاصطناعي يسمى "Target Speech Hearing" يساعد المستخدمين على التركيز على متحدث واحد في البيئات الصاخبة من خلال النظر إليهم لمدة ثلاث إلى خمس ثوان.
تم تقديم هذا النظام في مؤتمر ACM CHI ، ويستخدم التعلم الآلي لعزل وتضخيم صوت المتحدث المطلوب في الوقت الفعلي ، حتى أثناء تحرك المستخدم.
حاليا في مرحلة إثبات المفهوم ، تم اختبار التكنولوجيا على 21 شخصا أبلغوا عن تحسن كبير في الوضوح ، مع خطط مستقبلية للتوسع في سماعات الأذن والمعينات السمعية.
يستكشف النص الاستراتيجيات والتقنيات لتحسين التجارب السمعية في البيئات الصاخبة ، مع التركيز على سماعات الرأس الذكاء الاصطناعي وتصميم الصوت المتقدم وتقنيات إلغاء الضوضاء.
يسلط الضوء على تحديات مواد المطاعم الحديثة التي تساهم في الضوضاء واستخدام تقنيات تثبيط الصوت على الرغم من الصيانة والقضايا الجمالية.
تتم مناقشة التطورات التكنولوجية مثل الميكروفونات الاتجاهية ، والتعرف على الكلام في الوقت الفعلي ، وتصفية الصوت الانتقائية ، إلى جانب المخاوف المتعلقة بالخصوصية وسوء الاستخدام المحتمل.
كشفت هيلين تونر ، عضو مجلس إدارة OpenAI السابق ، أن سام ألتمان تمت إزالته لفترة وجيزة من منصب الرئيس التنفيذي بسبب حالات متعددة من خيانة الأمانة وحجب المعلومات عن مجلس الإدارة.
ومن الأمثلة على ذلك علم مجلس الإدارة بإصدار ChatGPT عبر Twitter وعدم إفصاح Altman عن مصلحته المالية في الشركة ، إلى جانب اتهامات بتقديم معلومات غير دقيقة عن السلامة و "الإساءة النفسية" من قبل اثنين من المديري ن التنفيذيين.
أعيد ألتمان إلى منصبه كرئيس تنفيذي بعد أقل من أسبوع بعد أن هدد الموظفون بالاستقالة وأعربت مايكروسوفت عن اهتمامها بتعيين فريقه. استقال تونر بعد وقت قصير من عودته.
تمت الإطاحة بالرئيس التنفيذي لشركة OpenAI Sam Altman لفترة وجيزة ثم أعيد تعيينه ، مما كشف عن التوترات بين سلطة مجلس الإدارة وتأثير المستثمرين والمؤسسين الرئيسيين.
أدى سوء تعامل مجلس الإدارة مع إقالة ألتمان إلى رد فعل عنيف كبير من الموظفين وتهديدات بالاستقالة الجماعية، مما يؤكد على الديناميكيات المعقدة لحوكمة الشركات، ونفوذ الموظفين، والمصالح المالية.
أثار الحادث مناقشات أوسع حول القيادة في مجال التكنولوجيا ، والآثار الأخلاقية للسلوك القاسي ، ودور التواصل والأخلاق في حوكمة الشركات.
يمكن أن تؤدي إعادة توجيه HTTP-to-HTTPS إلى كشف البيانات الحساسة أو تمكين هجمات Man-In-The-Middle (MITM) ، خاصة لواجهات برمجة التطبيقات التي يتم الوصول إليها بواسطة البرامج التي قد لا تتعامل مع رؤوس الأمان.
تعمل تقنيات مثل HSTS (أمان النقل الصارم HTTP) وأوضاع HTTPS فقط على تحسين الأمان ولكنها قد لا تكون كافية لواجهات برمجة التطبيقات ، مما يسلط الضوء على الحاجة إلى نهج سريع الفشل لاكتشاف الأخطاء مبكرا.
يجب تحديث أفضل الممارسات للتوصية بأن ترفض واجهات برمجة التطبيقات الطلبات غير المشفرة تماما وتبطل بيانات اعتماد واجهة برمجة التطبيقات المرسلة عبر الاتصالات غير المشفرة لمنع مخاطر الأمان.
تؤكد المناقشة على تعزيز أمان واجهة برمجة التطبيقات عن طريق إعادة توجيه HTTP إلى HTTPS وإبطال مفاتيح واجهة برمجة التطبيقات المرسلة عبر HTTP لمنع هجمات Man-in-the-Middle (MITM).
يسلط الضوء على أهمية الإدارة المناسبة لمفاتيح واجهة برمجة التطبيقات ، باستخدام التجزئات الموقعة ، والطوابع الزمنية للمصادقة ، وضرورة HTTPS لسلامة البيانات والخصوصية.
تنتقد المحادثة الاعتماد على المراجع المصدقة وتقترح حلولا عملية مثل عناوين URL الفريدة أو مفاتيح واجهة برمجة التطبيقات للتحكم الآمن في الوصول في سياقات محددة.
Llama3-V هو نموذج جديد متعدد الوسائط يعتمد على Llama3 ، وهو مصمم لمنافسة الطرز الأكبر مثل GPT-4V ولكن بتكلفة أقل بكثير (أقل من 500 دولار).
إنه يتفوق على النموذج الحالي المتطور ، Llava ، بنسبة 10-20٪ في معايير الفهم متعدد الوسائط ، باستخدام SigLIP لتضمين الصور ومحاذاة الرموز المرئية والنصية من خلال كتلة إسقاط مع طبقات الانتباه الذاتي.
تشمل التحسينات الرئيسية تضمين الصور قبل الحوسبة والاستفادة من MPS / MLX للتدريب الفعال ، مع عملية تدريب تتضمن التدريب المسبق على 600000 مثال والإشراف على 1 مليون مثال.
تقارن المقالة بين العديد من نماذج الذكاء الاصطناعي متعددة الوسائط ، مع التركيز على Llama 3-V ، والتي تهدف إلى مطابقة أداء GPT-4V ولكنها أصغر وأرخص.
يسلط الضوء على أن نماذج مثل InternVL-1.5 و CogVLM تتفوق على Llava ، مع نماذج محددة تتفوق في مهام مثل التعرف الضوئي على الحروف (OCR) وفهم واجهة المستخدم الرسومية (GUI).
يناقش المستخدمون التطبيقات العملية والقيود وفعالية التكلفة لهذه النماذج ، بما في ذلك استخدام GPT-4V في الإنتاج للمهام المرئية وفعالية أدوات التعرف الضوئي على الحروف الحديثة مثل PaddleOCR و TrOCR.