2024-05-29

سماعات الرأس الذكاء الاصطناعي تعزل مكبر الصوت الفردي في الحشود عن طريق اكتشاف النظرة

طورت جامعة واشنطن (UW) نظاما الذكاء الاصطناعي يسمى "Target Speech Hearing" يساعد المستخدمين على التركيز على متحدث واحد في البيئات الصاخبة من خلال النظر إليهم لمدة ثلاث إلى خمس ثوان.
تم تقديم هذا النظام في مؤتمر ACM CHI ، ويستخدم التعلم الآلي لعزل وتضخيم صوت المتحدث المطلوب في الوقت الفعلي ، حتى أثناء تحرك المستخدم.
حاليا في مرحلة إثبات المفهوم ، تم اختبار التكنولوجيا على 21 شخصا أبلغوا عن تحسن كبير في الوضوح ، مع خطط مستقبلية للتوسع في سماعات الأذن والمعينات السمعية.

ردود الفعل

يستكشف النص الاستراتيجيات والتقنيات لتحسين التجارب السمعية في البيئات الصاخبة ، مع التركيز على سماعات الرأس الذكاء الاصطناعي وتصميم الصوت المتقدم وتقنيات إلغاء الضوضاء.
يسلط الضوء على تحديات مواد المطاعم الحديثة التي تساهم في الضوضاء واستخدام تقنيات تثبيط الصوت على الرغم من الصيانة والقضايا الجمالية.
تتم مناقشة التطورات التكنولوجية مثل الميكروفونات الاتجاهية ، والتعرف على الكلام في الوقت الفعلي ، وتصفية الصوت الانتقائية ، إلى جانب المخاوف المتعلقة بالخصوصية وسوء الاستخدام المحتمل.

عضو مجلس إدارة OpenAI السابق يكشف الأكاذيب وسوء السلوك وراء إقالة سام ألتمان القصيرة

كشفت هيلين تونر ، عضو مجلس إدارة OpenAI السابق ، أن سام ألتمان تمت إزالته لفترة وجيزة من منصب الرئيس التنفيذي بسبب حالات متعددة من خيانة الأمانة وحجب المعلومات عن مجلس الإدارة.
ومن الأمثلة على ذلك علم مجلس الإدارة بإصدار ChatGPT عبر Twitter وعدم إفصاح Altman عن مصلحته المالية في الشركة ، إلى جانب اتهامات بتقديم معلومات غير دقيقة عن السلامة و "الإساءة النفسية" من قبل اثنين من المديرين التنفيذيين.
أعيد ألتمان إلى منصبه كرئيس تنفيذي بعد أقل من أسبوع بعد أن هدد الموظفون بالاستقالة وأعربت مايكروسوفت عن اهتمامها بتعيين فريقه. استقال تونر بعد وقت قصير من عودته.

ردود الفعل

تمت الإطاحة بالرئيس التنفيذي لشركة OpenAI Sam Altman لفترة وجيزة ثم أعيد تعيينه ، مما كشف عن التوترات بين سلطة مجلس الإدارة وتأثير المستثمرين والمؤسسين الرئيسيين.
أدى سوء تعامل مجلس الإدارة مع إقالة ألتمان إلى رد فعل عنيف كبير من الموظفين وتهديدات بالاستقالة الجماعية، مما يؤكد على الديناميكيات المعقدة لحوكمة الشركات، ونفوذ الموظفين، والمصالح المالية.
أثار الحادث مناقشات أوسع حول القيادة في مجال التكنولوجيا ، والآثار الأخلاقية للسلوك القاسي ، ودور التواصل والأخلاق في حوكمة الشركات.

إعادة النظر في إعادة توجيه HTTP-to-HTTPS لواجهات برمجة التطبيقات لتحسين الأمان

يمكن أن تؤدي إعادة توجيه HTTP-to-HTTPS إلى كشف البيانات الحساسة أو تمكين هجمات Man-In-The-Middle (MITM) ، خاصة لواجهات برمجة التطبيقات التي يتم الوصول إليها بواسطة البرامج التي قد لا تتعامل مع رؤوس الأمان.
تعمل تقنيات مثل HSTS (أمان النقل الصارم HTTP) وأوضاع HTTPS فقط على تحسين الأمان ولكنها قد لا تكون كافية لواجهات برمجة التطبيقات ، مما يسلط الضوء على الحاجة إلى نهج سريع الفشل لاكتشاف الأخطاء مبكرا.
يجب تحديث أفضل الممارسات للتوصية بأن ترفض واجهات برمجة التطبيقات الطلبات غير المشفرة تماما وتبطل بيانات اعتماد واجهة برمجة التطبيقات المرسلة عبر الاتصالات غير المشفرة لمنع مخاطر الأمان.

ردود الفعل

تؤكد المناقشة على تعزيز أمان واجهة برمجة التطبيقات عن طريق إعادة توجيه HTTP إلى HTTPS وإبطال مفاتيح واجهة برمجة التطبيقات المرسلة عبر HTTP لمنع هجمات Man-in-the-Middle (MITM).
يسلط الضوء على أهمية الإدارة المناسبة لمفاتيح واجهة برمجة التطبيقات ، باستخدام التجزئات الموقعة ، والطوابع الزمنية للمصادقة ، وضرورة HTTPS لسلامة البيانات والخصوصية.
تنتقد المحادثة الاعتماد على المراجع المصدقة وتقترح حلولا عملية مثل عناوين URL الفريدة أو مفاتيح واجهة برمجة التطبيقات للتحكم الآمن في الوصول في سياقات محددة.

Llama3-V: نموذج متعدد الوسائط بقيمة 500 دولار ينافس GPT-4V في الأداء

Llama3-V هو نموذج جديد متعدد الوسائط يعتمد على Llama3 ، وهو مصمم لمنافسة الطرز الأكبر مثل GPT-4V ولكن بتكلفة أقل بكثير (أقل من 500 دولار).
إنه يتفوق على النموذج الحالي المتطور ، Llava ، بنسبة 10-20٪ في معايير الفهم متعدد الوسائط ، باستخدام SigLIP لتضمين الصور ومحاذاة الرموز المرئية والنصية من خلال كتلة إسقاط مع طبقات الانتباه الذاتي.
تشمل التحسينات الرئيسية تضمين الصور قبل الحوسبة والاستفادة من MPS / MLX للتدريب الفعال ، مع عملية تدريب تتضمن التدريب المسبق على 600000 مثال والإشراف على 1 مليون مثال.

ردود الفعل

تقارن المقالة بين العديد من نماذج الذكاء الاصطناعي متعددة الوسائط ، مع التركيز على Llama 3-V ، والتي تهدف إلى مطابقة أداء GPT-4V ولكنها أصغر وأرخص.
يسلط الضوء على أن نماذج مثل InternVL-1.5 و CogVLM تتفوق على Llava ، مع نماذج محددة تتفوق في مهام مثل التعرف الضوئي على الحروف (OCR) وفهم واجهة المستخدم الرسومية (GUI).
يناقش المستخدمون التطبيقات العملية والقيود وفعالية التكلفة لهذه النماذج ، بما في ذلك استخدام GPT-4V في الإنتاج للمهام المرئية وفعالية أدوات التعرف الضوئي على الحروف الحديثة مثل PaddleOCR و TrOCR.

ميسترال الذكاء الاصطناعي تكشف النقاب عن Codestral: الذكاء الاصطناعي توليدي قوي لتوليد التعليمات البرمجية

في 29 مايو 2024 ، أطلقت Mistral الذكاء الاصطناعي Codestral ، وهو نموذج الذكاء الاصطناعي توليدي مفتوح الوزن لإنشاء التعليمات البرمجية ، تم تدريبه على أكثر من 80 لغة برمجة.
يتميز Codestral بحجم طراز 22B ونافذة سياق 32k ، متفوقا على المنافسين في معايير مثل RepoBench و HumanEval.
تتوفر Codestral بموجب ترخيص Mistral الذكاء الاصطناعي غير الإنتاجي ، ويمكن الوصول إليها عبر نقطة نهاية مخصصة أو دمجها في أدوات مثل VSCode و JetBrains ، حيث أشاد المطورون بسرعتها ودقتها وتأثيرها على الإنتاجية.

ردود الفعل

نموذج كود ميسترال ، الذي أصدرته mistral.ai ، لديه ترخيص مقيد يحظر الاستخدام التجاري والظروف المعيشية والاستخدام الداخلي للشركة ، مما يحد من تطبيقاته العملية ويثير الانتقادات.
يسلط الجدل حول ترخيص ميسترال الضوء على قضايا أوسع نطاقا تتعلق بحقوق النشر والترخيص في المحتوى الذي يتم إنشاؤه الذكاء الاصطناعي وإساءة استخدام مصطلح "المصدر المفتوح" في الذكاء الاصطناعي.
يعبر المستخدمون عن إحباطهم من إنشاء التعليمات البرمجية غير المتناسقة في الذكاء الاصطناعي ، لا سيما في المهام المعقدة ، ويناقشون قيود وقدرات نماذج الذكاء الاصطناعي المختلفة ، بما في ذلك نماذج اللاما من Meta ونماذج GPT من OpenAI.

الدروس الرئيسية من عام من البناء باستخدام نماذج لغوية كبيرة (الجزء الأول)

يستكشف مقال "ما تعلمناه من عام من البناء مع LLMs (الجزء الأول)" بقلم يوجين يان وزملاؤه التطورات السريعة والتطبيقات العملية لنماذج اللغة الكبيرة (LLMs) ، مع معالجة التحديات في تطوير منتجات الذكاء الاصطناعي فعالة.
تشمل الدروس الرئيسية أفضل الممارسات في التحفيز ، والتوليد المعزز للاسترجاع (RAG) ، وهندسة التدفق ، والتقييم ، مع التأكيد على تقنيات مثل مطالبات n-shot ومطالبة سلسلة الفكر.
تقدم المقالة أيضا نصائح تشغيلية حول إدارة وكلاء الذكاء الاصطناعي ، وتحسين المطالبات ، ونماذج الضبط الدقيق ، وتقليل التكاليف والكمون من خلال التخزين المؤقت ، مع التأكيد على التقييمات العملية والنهج التي تركز على الإنسان.

ردود الفعل

تسلط الرؤى من عام من العمل مع نماذج اللغة الكبيرة (LLMs) الضوء على أهمية أخذ العينات المتعددة لتقليل معدلات الهلوسة وتوليد المبررات قبل اتخاذ القرارات للحصول على نتائج أكثر دقة.
يناقش المقال التحديات في تقييم مخرجات LLM ، وتأثير درجة الحرارة على عشوائية المخرجات ، والمفاهيم الخاطئة حول أخذ العينات ، إلى جانب تجارب استخدام أدوات مثل patchbots والبحث عن الأذرع.
إنه يعالج مخاوف الصناعة مثل ارتفاع معدلات الخطأ ، والاستثمارات التي تحركها FOMO ، والدفع القوي من قبل شركات مثل Google لدمج الذكاء الاصطناعي على الرغم من مشكلات جودة الخدمة المحتملة.

يحذر خبير من أن ولايات العودة إلى المكتب تخاطر بفقدان أفضل المواهب

يدعي البروفيسور كيفن ميرفي من جامعة ليمريك أن العاملين عن بعد أكثر إنتاجية ورضا مقارنة بأولئك الذين يعملون في المكاتب.
إن الضغط من أجل العودة إلى المكتب (RTO) يفرض ما بعد الوباء مخاطر فقدان أفضل المواهب ، حيث يرفض العديد من الموظفين الآن معايير المكتب التقليدية.
يجب على المديرين التنفيذيين تقديم أسباب وحوافز مقنعة للعودة إلى المكتب، والاعتراف بالتحول في ديناميكيات السلطة لصالح الموظفين، أو المخاطرة بفقدان المواهب القيمة لصالح منافسين أكثر مرونة.

ردود الفعل

يركز الجدل بين تفويضات العمل عن بعد والعودة إلى المكتب (RTO) على المرونة والراحة والخسارة المحتملة للموظفين الذين يفضلون العمل عن بعد.
يوفر التنقل استراحة ذهنية للبعض ولكنه يمثل تحديات مثل التلوث والتكاليف المرتفعة والحدود غير الواضحة للآخرين ، مما يؤثر على التوازن بين العمل والحياة والنمو الوظيفي.
ينظر إلى العمل عن بعد على أنه أكثر كفاءة واستدامة ، حيث يقدم فوائد مثل زيادة وقت الأسرة وتقليل انبعاثات الكربون ، ولكنه قد يهمل الموظفين المبتدئين ويتطلب اتصالا واضحا بمزايا RTO.

مشروع القانون الكندي C-26: صلاحيات مثيرة للجدل لتثبيت أبواب خلفية للشبكة للمراقبة

يمنح مشروع القانون C-26 ، وهو مشروع قانون فيدرالي للأمن السيبراني في كندا ، سلطات حكومية لإجبار شركات الاتصالات على تثبيت أبواب خلفية في شبكات مشفرة ، مما قد يعرض الأمن للخطر.
يجادل النقاد ، بما في ذلك Citizen Lab بجامعة تورنتو ، بأن هذه الإجراءات من شأنها أن تضعف تشفير 5G وميزات الأمان الأخرى ، مما يزيد من التعرض للتهديدات السيبرانية.
على الرغم من تحذيرات الخبراء ، فقد تقدم مشروع القانون دون تعديلات ، مما يتناقض مع موقف كندا المؤيد للتشفير ويحتمل أن يشكل سابقة خطيرة للبلدان الأخرى.

ردود الفعل

تسعى الحكومة الكندية إلى الحصول على سلطة لإنشاء أبواب خلفية سرية في شبكات الاتصالات للمراقبة ، متجاوزة الرقابة القانونية التقليدية ، مما يثير مخاوف كبيرة بشأن الخصوصية واحتمال إساءة استخدامها من قبل سلطات إنفاذ القانون.
يجادل النقاد بأن هذا يمكن أن يؤدي إلى مراقبة غازية تشبه ممارسات وكالة الأمن القومي ، بما في ذلك مناقشات حول دستور كندا ، و "بند الاستثناء" ، وقدرات الاعتراض القانونية.
تتضمن المناقشة أمثلة تاريخية للمراقبة ، كما هو الحال أثناء احتجاجات سائقي الشاحنات ، وموضوعات أوسع نطاقا حول تجاوز الحكومة والخصوصية والاستجابات المجتمعية للسلطة.

ثلاثة قوانين أساسية تحكم التعقيد الحتمي لأنظمة البرمجيات

يناقش المقال ثلاثة قوانين أساسية تساهم في التعقيد غير الضروري في هندسة البرمجيات ، لا سيما في أنظمة البنية التحتية.
** القانون الأول **: تتحلل الأنظمة المصممة جيدا إلى أنظمة سيئة التصميم بمرور الوقت بسبب التعديلات المستمرة.
** القانون الثاني **: يزداد التعقيد حيث تعطي الأنظمة الناجحة الأولوية لحصتها في السوق على التصميم التجريدي الجيد ، مما يؤدي إلى أنظمة يصعب تعديلها.
** القانون الثالث **: لا يوجد حد أعلى لتعقيد البرمجيات ، مدفوعا بالقدرات والفلسفات المتنوعة للمطورين ، مما يؤدي إلى تصميمات معقدة.

ردود الفعل

تتناول المناقشة تحديات إدارة تعقيد البرمجيات ، خاصة في الأنظمة القديمة ، والمفاضلات بين التكلفة والجودة ، مما يؤدي في كثير من الأحيان إلى الديون التقنية.
ويؤكد على أهمية إعادة البناء التدريجي ، والحفاظ على ثقافة هندسية قوية ، والتمييز بين التعقيد الأساسي والعرضي لإدارة البرامج بفعالية.
يسلط المشاركون الضوء على ضرورة الصيانة المستمرة ، وتأثير خيارات التطوير السيئة ، ودور دعم الإدارة في تبرير جهود إعادة البناء.

من بدء التشغيل إلى البيع: رحلة مايكل لينش مع TinyPilot

أنشأ مايكل لينش TinyPilot في منتصف عام 2020 ، وهو جهاز للتحكم في الخادم عن بعد ، والذي اكتسب شعبية بسرعة ونمت لتصبح شركة بإيرادات سنوية تبلغ 1 مليون دولار وفريق من سبعة.
باع لينش TinyPilot مقابل 600 ألف دولار ، وصافي 490،803 دولار بعد النفقات ، بسبب ضغوط إدارة أعمال الأجهزة والرغبة في العودة إلى الترميز وبدء عائلة.
تضمنت عملية البيع ، التي سهلتها شركة Quiet Light Brokerage ، تحديات مثل موازنة ضغوط المؤسس ، والعثور على مشتر ، وإدارة العناية الواجبة. كان المشتري سكوت ، وهو متخصص في وسائل الإعلام في الشركات.

ردود الفعل

باع مايكل لينش شركته ، TinyPilot ، وناقش التكاليف الكبيرة التي ينطوي عليها البيع ، بما في ذلك عمولات الوسيط والرسوم القانونية ، والتي بلغت حوالي 18٪ من سعر البيع.
تضمنت رحلة لينش الريادية الانتقال من وظيفة ذات رواتب عالية في Google إلى تقييم الاستقلالية والإبداع ، وتسليط الضوء على القيمة التعليمية لريادة الأعمال وانتقاد تركيز صناعة التكنولوجيا على التعويض الإجمالي.
تخطط لينش لتمهيد المشاريع المستقبلية ، مع التركيز على المنتجات التعليمية والبرمجيات كخدمة (SaaS) ، وتجنب الأجهزة بسبب تعقيداتها وتحدياتها.

عضو مجلس إدارة OpenAI السابق يكشف عن الأسباب الكامنة وراء إقالة سام ألتمان وإعادته إلى منصبه

في نوفمبر 2023 ، أقال مجلس إدارة OpenAI بشكل غير متوقع الرئيس التنفيذي سام ألتمان ، مشيرا إلى "الكذب الصريح" والسلوك المتلاعب ، مما أدى إلى تآكل الثقة.
تضمنت القضايا المحددة ملكية ألتمان غير المعلنة لصندوق OpenAI Startup Fund ، وتوفير معلومات سلامة غير دقيقة ، وخلق بيئة عمل سامة.
على الرغم من هذه الادعاءات، أدت الضغوط الداخلية والخارجية، بما في ذلك الدعم من الموظفين ومايكروسوفت، إلى إعادة ألتمان، مع مراجعة مستقلة لم تجد أي مشاكل مع سلامة المنتج أو عمليات الشركة.

ردود الفعل

كشف عضو سابق في مجلس إدارة OpenAI أن سام ألتمان قد تم فصله بسبب خيانة الأمانة ، مما أثار تساؤلات حول وعي مجلس الإدارة بإطلاق ChatGPT.
وقد أثار هذا الموقف مناقشات حول الشفافية التنظيمية، والإشراف على مجلس الإدارة، والحوكمة الأخلاقية، مع مقارنات بإخفاقات الشركات مثل إنرون.
هناك شكوك حول ممارسات الثقة والسلامة في OpenAI ، مع مغادرة الموظفين وانتقاد قيادة Altman ، إلى جانب المناقشات حول الكفاءة الفنية ودور مجلس الإدارة.

يكشف تسريب بحث Google النقاب عن أسرار خوارزمية الترتيب و 2,596 وحدة

كشف تسريب كبير لمستندات بحث Google الداخلية عن جوانب مهمة من خوارزمية تصنيف Google ، بما في ذلك استخدام النقرات والروابط والمحتوى والكيانات وبيانات Chrome.
قام خبيرا الصناعة راند فيشكين ومايكل كينج بتحليل الوثائق ، وكشفا عن 2,596 وحدة تصنيف ، وأهمية تنوع الروابط ، والملاءمة ، والنقرات الناجحة ، والتعرف على العلامة التجارية.
تكشف الوثائق أيضا عن استخدام Google لمعلومات المؤلف وسلطة الموقع و "twiddlers" لتعديل التصنيفات ، مما يوفر رؤى قيمة لكبار المسئولين الاقتصاديين على الرغم من الترجيح الدقيق غير المعروف لعوامل الترتيب.

ردود الفعل

أثار مستند مسرب من بحث Google مناقشات حول خوارزمية الترتيب وتأثير برنامج إعلانات Google على نتائج البحث.
يناقش المستخدمون بدائل مثل Kagi و search.marginalia.nu ، مع مراجعات مختلطة حول تخصيص Kagi ، والتركيز غير التجاري ، والمشكلات المتعلقة بالمحتوى العشوائي والمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي.
تسلط المحادثة الضوء على الرغبة في محركات البحث التي تعطي الأولوية لتفضيلات المستخدم على إيرادات الإعلانات ، وتتطرق إلى التلاعب بتحسين محركات البحث ، وإمكانات نماذج اللغة الكبيرة (LLMs) ، والمخاوف بشأن صحة المراجعات عبر الإنترنت ومعايير تصنيف Google.

ChatTTS: نموذج TTS متقدم مفتوح المصدر للحوار الطبيعي باللغتين الإنجليزية والصينية

ChatTTS هو نموذج لتحويل النص إلى كلام (TTS) محسن للحوار ، ويدعم اللغتين الإنجليزية والصينية ، ويتم تدريبه على أكثر من 100000 ساعة من البيانات.
تتضمن النسخة مفتوحة المصدر على HuggingFace نموذجا مدربا مسبقا لمدة 40000 ساعة ، يتفوق في تركيب الكلام الطبيعي والتعبيري مع التحكم الإيجابي الدقيق.
النموذج مخصص للاستخدام الأكاديمي فقط ، مع خطط مستقبلية لفتح ميزات إضافية المصدر وتحسين الاستقرار.

ردود الفعل

تسلط المناقشة الضوء على تطوير وأداء نماذج تحويل النص إلى كلام مثل ChatTTS و Piper TTS ، مشيرة إلى قضايا مثل المعالجة البطيئة وتحديات جودة الصوت.
يؤكد المستخدمون على الحاجة إلى TTS عالية الجودة بلغات متعددة ويناقشون فعالية الأصوات البشرية مقابل الأصوات الآلية في الكتب الصوتية.
هناك نقد للادعاءات "مفتوحة المصدر" المضللة في مشاريع تحويل النص إلى كلام ودعوة إلى قائمة شاملة بنماذج وبيانات تحويل النص إلى النص مفتوحة المصدر حقا.

جوجل صامتة بشأن التسريب المزعوم ل 2,500 صفحة تفصل خوارزمية البحث

قد يكشف تسريب 2,500 صفحة من مستندات Google الداخلية ، التي شاركها خبير تحسين محركات البحث راند فيشكين ، عن تناقضات بين بيانات Google العامة وممارساتها الفعلية فيما يتعلق بخوارزميات البحث.
تشير الوثائق إلى استخدام بيانات Chrome في التصنيف وتتبع معلومات المؤلف ، مما يتحدى تأكيدات Google السابقة ويثير جدلا حول شفافية الشركة.
لم تعلق Google على شرعية الوثائق ، ويسلط الحادث الضوء على المخاوف المستمرة بشأن الطبيعة المبهمة لعمليات البحث في Google وسط تدقيق مكافحة الاحتكار.

ردود الفعل

كشف تسريب لوثائق خوارزمية البحث في Google عن تناقضات محتملة بين بيانات Google العامة وممارساتها الفعلية.
يشير التسريب إلى أن ممثلي Google ربما فقدوا مصداقية النتائج الدقيقة من مجتمعات التسويق والتكنولوجيا والصحافة ، مما أثار مخاوف أخلاقية بشأن التلاعب بتحسين محركات البحث.
تناقش المناقشات القانونية على GitHub أهمية وشرعية التسريب ، مع اختلاف الآراء حول تأثيره على وضع الأسرار التجارية وحماية حقوق النشر.