2024-05-29

אוזניות AI מבודדות רמקול יחיד בקהל על ידי זיהוי מבט

אוניברסיטת וושינגטון (UW) פיתחה מערכת AI בשם "Target Speech Hearing" המסייעת למשתמשים להתמקד בדובר יחיד בסביבות רועשות על ידי התבוננות בהם במשך שלוש עד חמש שניות.
מערכת זו, שהוצגה בכנס ACM CHI, משתמשת בלמידת מכונה כדי לבודד ולהגביר את קולו של הדובר הרצוי בזמן אמת, גם כאשר המשתמש זז.
הטכנולוגיה נמצאת כעת בשלב הוכחת היתכנות, ונבחנה על 21 נבדקים שדיווחו על שיפור משמעותי בצלילות, עם תוכניות עתידיות להתרחב לאוזניות ומכשירי שמיעה.

תגובות

הטקסט בוחן אסטרטגיות וטכנולוגיות לשיפור חוויות שמיעתיות בסביבות רועשות, תוך התמקדות באוזניות AI, עיצוב צליל מתקדם וטכנולוגיות ביטול רעשים.
הוא מדגיש את האתגרים של חומרי מסעדה מודרניים התורמים לרעש ושימוש בטכניקות שיכוך קול למרות בעיות תחזוקה ואסתטיקה.
התקדמות טכנולוגית כגון מיקרופונים כיווניים, זיהוי דיבור בזמן אמת וסינון צלילים סלקטיבי נדונים, יחד עם חששות לגבי פרטיות ושימוש לרעה פוטנציאלי.

חבר מועצת המנהלים לשעבר של OpenAI חושף שקרים והתנהגות בלתי הולמת מאחורי הדחתו הקצרה של סם אלטמן

חברת מועצת המנהלים לשעבר של OpenAI, הלן טונר, חשפה כי סם אלטמן הודח לזמן קצר מתפקיד המנכ"ל בשל מקרים רבים של חוסר יושר והסתרת מידע מהדירקטוריון.
דוגמאות לכך כללו את הדירקטוריון שלמד על שחרורו של ChatGPT דרך טוויטר ואלטמן לא חשף את העניין הפיננסי שלו בחברה, יחד עם האשמות במסירת מידע בטיחות לא מדויק ו"התעללות פסיכולוגית" על ידי שני מנהלים.
אלטמן הוחזר לתפקיד המנכ"ל פחות משבוע לאחר מכן, לאחר שהעובדים איימו להתפטר ומיקרוסופט הביעה עניין בגיוס הצוות שלו; טונר התפטר זמן קצר לאחר שובו.

תגובות

מנכ"ל OpenAI, סם אלטמן, הודח לזמן קצר ולאחר מכן נשכר מחדש, מה שחשף מתחים בין סמכות הדירקטוריון לבין השפעתם של משקיעים ומייסדים מרכזיים.
הטיפול הכושל של הדירקטוריון בפיטוריו של אלטמן הוביל לתגובת נגד משמעותית של עובדים ולאיומים בהתפטרות המונית, מה שהדגיש את הדינמיקה המורכבת של ממשל תאגידי, השפעת עובדים ואינטרסים פיננסיים.
התקרית הציתה דיונים רחבים יותר על מנהיגות בטכנולוגיה, השלכות אתיות של התנהגות חסרת רחמים ותפקידן של תקשורת ואתיקה בממשל תאגידי.

לשקול מחדש ניתוב מחדש של HTTP-to-HTTPS עבור ממשקי API כדי לשפר את האבטחה

ניתוב מחדש של HTTP-to-HTTPS עלול לחשוף נתונים רגישים או לאפשר התקפות מסוג Man-In-The-Middle (MITM), במיוחד עבור ממשקי API שתוכנות שאליהן ניגשת תוכנה שעשויה שלא לטפל בכותרות אבטחה.
טכניקות כגון HSTS (HTTP Strict Transport Security) ומצבי HTTPS בלבד משפרות את האבטחה, אך ייתכן שאינן מספיקות עבור ממשקי API, ומדגישות את הצורך בגישה מהירה לכשל כדי לזהות שגיאות בשלב מוקדם.
יש לעדכן שיטות עבודה מומלצות כדי להמליץ לממשקי API לדחות לחלוטין בקשות לא מוצפנות ולבטל אישורי API שנשלחו דרך חיבורים לא מוצפנים כדי למנוע סיכוני אבטחה.

תגובות

הדיון שם דגש על שיפור אבטחת ה-API על ידי ניתוב מחדש של HTTP ל-HTTPS וביטול מפתחות API שנשלחו דרך HTTP כדי למנוע התקפות Man-in-the-Middle (MITM).
הוא מדגיש את החשיבות של ניהול נכון של מפתחות API, שימוש בקודי hash חתומים, nonces וחותמות זמן לאימות, ואת הצורך ב- HTTPS לשלמות הנתונים ולפרטיותם.
השיחה מבקרת את ההסתמכות על רשויות אישורים ומציעה פתרונות מעשיים כמו כתובות URL ייחודיות או מפתחות API לבקרת גישה מאובטחת בהקשרים ספציפיים.

Llama3-V: דגם מולטימודאלי ב-500 דולר מתחרה ב-GPT-4V בביצועים

Llama3-V הוא דגם מולטימודאלי חדש המבוסס על Llama3, שנועד להתחרות בדגמים גדולים יותר כמו GPT-4V אך בעלות נמוכה משמעותית (מתחת ל-500 דולר).
הוא עולה על המודל החדיש הנוכחי, Llava, ב -10-20% במדדי הבנה רב-מודאליים, תוך שימוש ב- SigLIP להטמעת תמונה ויישור אסימונים חזותיים וטקסטואליים באמצעות בלוק הקרנה עם שכבות תשומת לב עצמית.
אופטימיזציות עיקריות כוללות הטמעת תמונות טרום מחשוב ומינוף MPS/MLX להכשרה יעילה, עם תהליך הכשרה הכולל הכשרה מוקדמת על 600,000 דוגמאות וכוונון עדין מפוקח על מיליון דוגמאות.

תגובות

המאמר משווה בין מודלים שונים של בינה מלאכותית רב-מודאלית, תוך התמקדות ב-Llama 3-V, שמטרתו להתאים לביצועים של GPT-4V אך היא קטנה וזולה יותר.
הוא מדגיש כי מודלים כמו InternVL-1.5 ו- CogVLM עולים בביצועיהם על Llava, עם מודלים ספציפיים המצטיינים במשימות כמו זיהוי תווים אופטי (OCR) והבנת GUI (ממשק משתמש גרפי).
משתמשים דנים ביישומים מעשיים, במגבלות ובעלות-תועלת של מודלים אלה, כולל השימוש ב-GPT-4V בייצור למשימות חזותיות והיעילות של כלי OCR מודרניים כמו PaddleOCR ו-TrOCR.

Mistral AI חושפת את Codestral: בינה מלאכותית גנרטיבית עוצמתית ליצירת קוד

ב-29 במאי 2024, Mistral AI השיקה את Codestral, מודל AI גנרטיבי במשקל פתוח ליצירת קוד, שאומן על יותר מ-80 שפות תכנות.
Codestral כולל גודל דגם של 22B וחלון הקשר של 32k, ועולה על המתחרים במדדים כמו RepoBench ו-HumanEval.
Codestral, הזמין תחת רישיון Mistral AI Non-Production License, נגיש דרך נקודת קצה ייעודית או משולב בכלים כמו VSCode ו-JetBrains, כאשר מפתחים משבחים את המהירות, הדיוק וההשפעה על הפרודוקטיביות.

תגובות

מודל הקוד של מיסטרל, שפורסם על ידי mistral.ai, כולל רישיון מגביל האוסר על שימוש מסחרי, תנאי חיים ושימוש פנימי בחברה, מה שמגביל את היישומים המעשיים שלו וגורר ביקורת.
הדיון סביב הרישיון של מיסטרל מדגיש סוגיות רחבות יותר של זכויות יוצרים ורישוי בתוכן שנוצר על ידי בינה מלאכותית והשימוש לרעה במונח "קוד פתוח" בבינה מלאכותית.
משתמשים מביעים תסכול מיצירת הקוד הלא עקבית של AI, במיוחד במשימות מורכבות, ודנים במגבלות וביכולות של מודלי AI שונים, כולל Llama של מטא ומודלי GPT של OpenAI.

לקחים מרכזיים משנת בנייה עם מודלים לשוניים גדולים (חלק א')

המאמר "מה למדנו משנה של בנייה עם LLMs (חלק I)" על ידי יוג'ין יאן ועמיתיו בוחן את ההתקדמות המהירה ואת היישומים המעשיים של מודלים שפה גדולה (LLMs), תוך התמודדות עם האתגרים בפיתוח מוצרי AI יעילים.
שיעורי המפתח כוללים שיטות עבודה מומלצות בהנחיה, אחזור דור מוגבר (RAG), הנדסת זרימה והערכה, עם טכניקות כמו הנחיות n-shot והנחיית שרשרת מחשבה מודגשות.
המאמר מספק גם ייעוץ תפעולי לניהול סוכני AI, ליטוש הנחיות, כוונון עדין של מודלים והפחתת עלויות והשהיה באמצעות אחסון במטמון, תוך שימת דגש על הערכות מעשיות וגישות ממוקדות אדם.

תגובות

תובנות משנה של עבודה עם מודלי שפה גדולים (LLM) מדגישות את החשיבות של דגימות מרובות כדי להפחית את שיעורי ההזיות ויצירת הצדקות לפני החלטות לתוצאות מדויקות יותר.
המאמר דן באתגרים בהערכת תפוקות LLM, השפעת הטמפרטורה על אקראיות הפלט ותפיסות מוטעות לגבי דגימה, יחד עם חוויות בשימוש בכלים כמו patchbots וחיפוש אלומות.
הוא מטפל בחששות בתעשייה כגון שיעורי שגיאות גבוהים, השקעות מונעות FOMO, והדחיפה האגרסיבית של חברות כמו גוגל לשלב AI למרות בעיות פוטנציאליות באיכות השירות.

מנדטים לחזרה למשרד מסתכנים באיבוד כישרונות מובילים, מזהיר מומחה

פרופסור קווין מרפי מאוניברסיטת לימריק טוען שעובדים מרחוק פרודוקטיביים ומרוצים יותר בהשוואה לעובדים במשרדים.
הדחיפה לחזרה למשרד (RTO) מחייבת לאחר המגפה להסתכן באיבוד כישרונות מובילים, מכיוון שעובדים רבים דוחים כעת את הנורמות המשרדיות המסורתיות.
מנהלים צריכים לספק סיבות ותמריצים משכנעים לחזרה למשרד, להכיר בשינוי בדינמיקת הכוח לטובת העובדים, או להסתכן באיבוד כישרונות יקרי ערך למתחרים גמישים יותר.

תגובות

הוויכוח בין עבודה מרחוק לבין מנדט החזרה למשרד (RTO) מתמקד בגמישות, נוחות ואובדן פוטנציאלי של עובדים המעדיפים עבודה מרחוק.
היוממות מציעה אתנחתא מנטלית עבור חלק מהאנשים, אך מציבה אתגרים כמו זיהום, עלויות גבוהות וגבולות מטושטשים עבור אחרים, ומשפיעה על איזון בית-עבודה וצמיחה בקריירה.
עבודה מרחוק נתפסת כיעילה ובת קיימא יותר, ומציעה יתרונות כמו זמן משפחה מוגבר ופליטת פחמן מופחתת, אך עלולה להזניח את הצוות הזוטר ולדרוש תקשורת ברורה של יתרונות RTO.

הצעת החוק C-26 של קנדה: סמכויות שנויות במחלוקת להתקין דלתות אחוריות ברשת למעקב

הצעת חוק C-26, הצעת חוק פדרלית לאבטחת סייבר בקנדה, מעניקה לממשלה סמכויות לאלץ חברות טלקום להתקין דלתות אחוריות ברשתות מוצפנות, מה שעלול לסכן את האבטחה.
המבקרים, כולל Citizen Lab מאוניברסיטת טורונטו, טוענים כי אמצעים אלה יחלישו את הצפנת 5G ותכונות אבטחה אחרות, ויגדילו את הפגיעות לאיומי סייבר.
למרות אזהרות מומחים, הצעת החוק התקדמה ללא תיקונים, סותרת את עמדתה של קנדה התומכת בהצפנה ועלולה ליצור תקדים מסוכן עבור מדינות אחרות.

תגובות

ממשלת קנדה מחפשת סמכות ליצור דלתות אחוריות סודיות ברשתות טלקום למעקב, תוך עקיפת פיקוח משפטי מסורתי, מה שמעלה חששות משמעותיים לפרטיות ופוטנציאל לניצול לרעה על ידי רשויות אכיפת החוק.
המבקרים טוענים כי הדבר עלול להוביל לניטור פולשני בדומה לפרקטיקות של ה-NSA, שיכלול דיונים על חוקת קנדה, "סעיף המעבר" ויכולות יירוט חוקיות.
הדיון כולל דוגמאות היסטוריות של מעקב, כמו במהלך מחאת נהגי המשאיות, ונושאים רחבים יותר של התערבות ממשלתית, פרטיות ותגובות חברתיות לסמכות.

שלושה חוקי יסוד המסדירים את המורכבות הבלתי נמנעת של מערכות תוכנה

המאמר דן בשלושה חוקי יסוד התורמים למורכבות מיותרת בהנדסת תוכנה, במיוחד במערכות תשתית.
החוק הראשון: מערכות מתוכננות היטב מתדרדרות למערכות שתוכננו בצורה גרועה עם הזמן עקב שינויים מתמשכים.
החוק השני: המורכבות גדלה ככל שמערכות מצליחות מתעדפות נתח שוק על פני תכנון הפשטה טוב, מה שמוביל למערכות קשות לשינוי.
החוק השלישי: אין גבול עליון למורכבות תוכנה, המונעת על ידי היכולות והפילוסופיות המגוונות של מפתחים, וכתוצאה מכך עיצובים מורכבים.

תגובות

הדיון עוסק באתגרים של ניהול מורכבות תוכנה, במיוחד במערכות מדור קודם, ובפשרות בין עלות לאיכות, המובילות לעתים קרובות לחוב טכני.
הוא מדגיש את החשיבות של שכתוב מצטבר, שמירה על תרבות הנדסית חזקה, והבחנה בין מורכבות חיונית ומקרית לניהול תוכנה יעיל.
המשתתפים מדגישים את הצורך בתחזוקה מתמשכת, את ההשפעה של בחירות פיתוח גרועות, ואת תפקידה של תמיכת ההנהלה בהצדקת מאמצי השכתוב.

מסטארט-אפ למכירה: המסע של מייקל לינץ' עם TinyPilot

מייקל לינץ' יצר את TinyPilot באמצע 2020, מכשיר לשליטה מרחוק בשרתים, שצבר פופולריות במהירות וצמח לעסק עם הכנסות שנתיות של מיליון דולר וצוות של שבעה.
לינץ' מכר את TinyPilot תמורת 600 אלף דולר, והרוויח 490,803 דולר אחרי הוצאות, בגלל הלחץ של ניהול עסק חומרה והרצון לחזור לתכנות ולהקים משפחה.
המכירה, שהתאפשרה על ידי Quiet Light Brokerage, כללה אתגרים כמו איזון הלחץ של המייסדים, מציאת קונה וניהול בדיקת נאותות; הקונה היה סקוט, איש תקשורת תאגידי.

תגובות

מייקל לינץ' מכר את העסק שלו, TinyPilot, ודן בעלויות המשמעותיות הכרוכות במכירה, כולל עמלות תיווך ושכר טרחה משפטי, שהסתכמו בכ-18% ממחיר המכירה.
המסע היזמי של לינץ' כלל מעבר מעבודה בשכר גבוה בגוגל להערכת אוטונומיה ויצירתיות, הדגשת הערך החינוכי של יזמות וביקורת על ההתמקדות של תעשיית הטכנולוגיה בתגמול כולל.
לינץ' מתכנן לאתחל מיזמים עתידיים, תוך התמקדות במוצרים חינוכיים ותוכנה כשירות (SaaS), תוך הימנעות מחומרה בשל מורכבותה ואתגריה.

חבר מועצת המנהלים לשעבר של OpenAI חושף את הסיבות לפיטוריו והחזרתו של סם אלטמן

בנובמבר 2023, מועצת המנהלים של OpenAI פיטרה במפתיע את המנכ"ל סם אלטמן, בנימוק של "שקר מוחלט" והתנהגות מניפולטיבית, ששחקה את האמון.
נושאים ספציפיים כללו את הבעלות הגלויה של אלטמן על קרן הסטארט-אפים OpenAI, אספקת מידע בטיחות לא מדויק ויצירת סביבת עבודה רעילה.
למרות טענות אלה, לחצים פנימיים וחיצוניים, כולל תמיכה מצד העובדים ומיקרוסופט, הובילו להחזרתו של אלטמן, כאשר בדיקה עצמאית לא מצאה בעיות בבטיחות המוצר או בפעילות החברה.

תגובות

חבר לשעבר במועצת המנהלים של OpenAI חשף כי סם אלטמן פוטר בשל חוסר יושר, מה שהעלה שאלות לגבי המודעות של מועצת המנהלים להשקת ChatGPT.
המצב עורר דיונים על שקיפות ארגונית, פיקוח דירקטוריון וממשל אתי, עם השוואות לכשלים תאגידיים כמו אנרון.
יש ספקנות לגבי נוהלי האמון והבטיחות של OpenAI, עם עזיבת עובדים וביקורת על מנהיגותו של אלטמן, לצד דיונים על מיומנות טכנית ותפקיד הדירקטוריון.

הדלפת החיפוש של גוגל חושפת סודות של אלגוריתם דירוג ו-2,596 מודולים

הדלפה גדולה של מסמכי חיפוש פנימיים בגוגל חשפה היבטים קריטיים באלגוריתם הדירוג של גוגל, כולל שימוש בקליקים, קישורים, תוכן, ישויות ונתוני כרום.
מומחי התעשייה ראנד פישקין ומייקל קינג ניתחו את המסמכים, וחשפו 2,596 מודולי דירוג, את המשמעות של גיוון קישורים, רלוונטיות, קליקים מוצלחים וזיהוי מותג.
המסמכים חושפים גם את השימוש של גוגל במידע על מחברים, סמכות האתר ו"טווידנרים" כדי להתאים את הדירוג, ומציעים תובנות חשובות עבור מקדמי אתרים למרות השקלול המדויק הלא ידוע של גורמי הדירוג.

תגובות

מסמך חיפוש גוגל שדלף הצית ויכוחים על אלגוריתם הדירוג והשפעת תוכנית המודעות של גוגל על תוצאות החיפוש.
משתמשים דנים באלטרנטיבות כמו Kagi ו-search.marginalia.nu, עם ביקורות מעורבות על ההתאמה האישית של Kagi, מיקוד לא מסחרי ובעיות עם ספאם ותוכן שנוצר על ידי בינה מלאכותית.
השיחה מדגישה את הרצון במנועי חיפוש שמתעדפים את העדפות המשתמשים על פני הכנסות ממודעות, נוגעת למניפולציה של SEO, הפוטנציאל של מודלים לשפות גדולות (LLM), וחששות לגבי האותנטיות של ביקורות מקוונות וקריטריוני הדירוג של גוגל.

ChatTTS: מודל TTS מתקדם בקוד פתוח לדיאלוג טבעי באנגלית ובסינית

ChatTTS הוא מודל טקסט לדיבור (TTS) המותאם לדיאלוג, תומך באנגלית ובסינית, ומאומן על יותר מ-100,000 שעות של נתונים.
גרסת הקוד הפתוח של HuggingFace כוללת מודל מאומן מראש של 40,000 שעות, המצטיין בסינתזה טבעית ואקספרסיבית של דיבור עם שליטה פרוזודית עדינה.
המודל מיועד לשימוש אקדמי בלבד, עם תוכניות עתידיות לקוד פתוח של תכונות נוספות ולשיפור היציבות.

תגובות

הדיון מדגיש את הפיתוח והביצועים של מודלי TTS כמו ChatTTS ופייפר TTS, ומציין נושאים כגון עיבוד איטי ואתגרי איכות קול.
משתמשים מדגישים את הצורך ב- TTS באיכות גבוהה בשפות מרובות ודנים ביעילות של קולות אנושיים לעומת אוטומטיים בספרי שמע.
ישנה ביקורת על טענות מטעות של "קוד פתוח" בפרויקטי TTS וקריאה לרשימה מקיפה של מודלים ונתונים אמיתיים של TTS בקוד פתוח.

גוגל שותקת על הדלפה לכאורה של 2,500 עמודים המפרטים את אלגוריתם החיפוש

הדלפה של 2,500 עמודים של מסמכים פנימיים של גוגל, ששותפו על ידי מומחה ה-SEO רנד פישקין, עלולה לחשוף פערים בין ההצהרות הפומביות של גוגל לבין הפרקטיקות שלה בפועל בנוגע לאלגוריתמי חיפוש.
המסמכים מציעים שימוש בנתוני Chrome בדירוגים ובמעקב אחר פרטי מחברים, מה שמאתגר את הטענות הקודמות של גוגל ומעורר דיון על שקיפות החברה.
גוגל לא הגיבה על הלגיטימיות של המסמכים, והתקרית מדגישה חששות מתמשכים לגבי האופי המעורפל של פעולות החיפוש של גוגל על רקע ביקורת הגבלים עסקיים.

תגובות

הדלפה של תיעוד אלגוריתם החיפוש של גוגל חשפה פערים פוטנציאליים בין ההצהרות הפומביות של גוגל לבין הפרקטיקות שלהן בפועל.
ההדלפה מצביעה על כך שייתכן שנציגי גוגל ערערו על ממצאים מדויקים מקהילות השיווק, הטכנולוגיה והעיתונות, והעלו חששות אתיים לגבי מניפולציה של SEO.
דיונים משפטיים ב-GitHub דנים במשמעות ובחוקיות של ההדלפה, עם דעות שונות לגבי השפעתה על מעמד הסוד המסחרי והגנות על זכויות יוצרים.