אוניברסיטת וושינגטון (UW) פיתחה מערכת AI בשם "Target Speech Hearing" המסייעת למשתמשים להתמקד בדובר יחיד בסביבות רועשות על ידי התבוננות בהם במשך שלוש עד חמש שניות.
מערכת זו, שהוצגה בכנס ACM CHI, משתמשת בלמידת מכונה כדי לבודד ולהגביר את קולו של הדובר הרצוי בזמן אמת, גם כאשר המשתמש זז.
הטכנולוגיה נמצאת כעת בשלב הוכחת היתכנות, ונבחנה על 21 נבדקים שדיווחו על שיפור משמעותי בצלילות, עם תוכניות עתידיות להתרחב לאוזניות ומכשירי שמיעה.
חברת מועצת המנהלים לשעבר של OpenAI, הלן טונר, חשפה כי סם אלטמן הודח לזמן קצר מתפקיד המנכ"ל בשל מקרים רבים של חוסר יושר והסתרת מידע מהדירקטוריון.
דוגמאות לכך כללו את הדירקטוריון שלמד על שחרורו של ChatGPT דרך טוויטר ואלטמן לא חשף את העניין הפיננסי שלו בחברה, יחד עם האשמות במסירת מידע בטיחות לא מדויק ו"התעללות פסיכולוגית" על ידי שני מנהלים.
אלטמן הוחזר לתפקיד המנכ"ל פחות משבוע לאחר מכן, לאחר שהעובדים איימו להתפטר ומיקרוסופט הביעה עניין בגיוס הצוות שלו; טונר התפטר זמן קצר לאחר שובו.
מנכ"ל OpenAI, סם אלטמן, הודח לזמן קצר ולאחר מכן נשכר מחדש, מה שחשף מתחים בין סמכות הדירקטוריון לבין השפעתם של משקיעים ומייסדים מרכזיים.
הטיפול הכושל של הדירקטוריון בפיטוריו של אלטמן הוביל לתגובת נגד משמעותית של עובדים ולאיומים בהתפטרות המונית, מה שהדגיש את הדינמיקה המורכבת של ממשל תאגידי, השפעת עובדים ואינטרסים פיננסיים.
התקרית הציתה דיונים רחבים יותר על מנהיגות בטכנולוגיה, השלכות אתיות של התנהגות חסרת רחמים ותפקידן של תקשורת ואתיקה בממשל תאגידי.
ניתוב מחדש של HTTP-to-HTTPS עלול לחשוף נתונים רגישים או לאפשר התקפות מסוג Man-In-The-Middle (MITM), במיוחד עבור ממשקי API שתוכנות שאליהן ניגשת תוכנה שעשויה שלא לטפל בכותרות אבטחה.
טכניקות כגון HSTS (HTTP Strict Transport Security) ומצבי HTTPS בלבד משפרות את האבטחה, אך ייתכן שאינן מספיקות עבור ממשקי API, ומדגישות את הצורך בגישה מהירה לכשל כדי לזהות שגיאות בשלב מוקדם.
יש לעדכן שיטות עבודה מומלצות כדי להמליץ לממשקי API לדחות לחלוטין בקשות לא מוצפנות ולבטל אישורי API שנשלחו דרך חיבורים לא מוצפנים כדי למנוע סיכוני אבטחה.
Llama3-V הוא דגם מולטימודאלי חדש המבוסס על Llama3, שנועד להתחרות בדגמים גדולים יותר כמו GPT-4V אך בעלות נמוכה משמעותית (מתחת ל-500 דולר).
הוא עולה על המודל החדיש הנוכחי, Llava, ב -10-20% במדדי הבנה רב-מודאליים, תוך שימוש ב- SigLIP להטמעת תמונה ויישור אסימונים חזותיים וטקסטואליים באמצעות בלוק הקרנה עם שכבות תשומת לב עצמית.
אופטימיזציות עיקריות כוללות הטמעת תמונות טרום מחשוב ומינוף MPS/MLX להכשרה יעילה, עם תהליך הכשרה הכולל הכשרה מוקדמת על 600,000 דוגמאות וכוונון עדין מפוקח על מיליון דוגמאות.
המאמר משווה בין מודלים שונים של בינה מלאכותית רב-מודאלית, תוך התמקדות ב-Llama 3-V, שמטרתו להתאים לביצועים של GPT-4V אך היא קטנה וזולה יותר.
הוא מדגיש כי מודלים כמו InternVL-1.5 ו- CogVLM עולים בביצועיהם על Llava, עם מודלים ספציפיים המצטיינים במשימות כמו זיהוי תווים אופטי (OCR) והבנת GUI (ממשק משתמש גרפי).
משתמשים דנים ביישומים מעשיים, במגבלות ובעלות-תועלת של מודלים אלה, כולל השימוש ב-GPT-4V בייצור למשימות חזותיות והיעילות של כלי OCR מודרניים כמו PaddleOCR ו-TrOCR.