2024-05-29

AI fejhallgató elkülöníti az egyetlen hangszórót a tömegben a tekintet észlelésével

A Washingtoni Egyetem (UW) kifejlesztett egy "Target Speech Hearing" nevű mesterséges intelligencia rendszert, amely segít a felhasználóknak zajos környezetben egyetlen beszélőre koncentrálni, ha három-öt másodpercig rájuk néznek.
Az ACM CHI konferencián bemutatott rendszer gépi tanulást használ a kívánt beszélő hangjának elkülönítésére és felerősítésére valós időben, még a felhasználó mozgása közben is.
A jelenleg a koncepció bizonyítási szakaszában lévő technológiát 21 alanyon tesztelték, akik jelentősen javuló tisztaságról számoltak be, és a jövőben tervezik a fülhallgatókra és hallókészülékekre való kiterjesztését.

Reakciók

A szöveg a zajos környezetben a hallási élmény javítását célzó stratégiákat és technológiákat vizsgálja, a mesterséges intelligencia fejhallgatókra, a fejlett hangtervezésre és a zajszűrő technológiákra összpontosítva.
Rávilágít a modern éttermek zajkeltő anyagainak kihívásaira, valamint a hangcsillapítási technikák használatára a karbantartási és esztétikai problémák ellenére.
Az olyan technológiai fejlesztések, mint az irányított mikrofonok, a valós idejű beszédfelismerés és a szelektív hangszűrés, valamint a magánélet védelmével és a lehetséges visszaélésekkel kapcsolatos aggályok kerülnek megvitatásra.

A volt OpenAI igazgatótanácsi tag feltárja a hazugságokat és a visszaéléseket Sam Altman rövid eltávolítása mögött

Helen Toner, az OpenAI igazgatótanácsának korábbi tagja nyilvánosságra hozta, hogy Sam Altmant rövid időre eltávolították vezérigazgatói posztjáról, mivel többszörösen tisztességtelen volt és információkat tartott vissza az igazgatótanács elől.
A példák között szerepelt, hogy az igazgatótanács a Twitteren keresztül értesült a ChatGPT kiadásáról, Altman pedig nem hozta nyilvánosságra a vállalatban való pénzügyi érdekeltségét, valamint a két vezető által nyújtott pontatlan biztonsági információkkal és "pszichológiai visszaéléssel" kapcsolatos vádak.
Altmant kevesebb mint egy héttel később visszahelyezték a vezérigazgatói posztra, miután a személyzet felmondással fenyegetőzött, és a Microsoft érdeklődést mutatott csapata felvétele iránt; Toner nem sokkal visszatérése után lemondott.

Reakciók

Az OpenAI vezérigazgatóját, Sam Altmant rövid időre leváltották, majd újra felvették, ami feszültséget okozott az igazgatótanács tekintélye, valamint a kulcsfontosságú befektetők és alapítók befolyása között.
Az igazgatótanács rosszul kezelte Altman kirúgását, ami jelentős munkavállalói visszahatáshoz és tömeges felmondással való fenyegetéshez vezetett, kiemelve a vállalatirányítás, a munkavállalói befolyás és a pénzügyi érdekek összetett dinamikáját.
Az eset szélesebb körű vitákat váltott ki a technológiai vezetésről, a kegyetlen viselkedés etikai következményeiről, valamint a kommunikáció és az etika szerepéről a vállalatirányításban.

A HTTP-HTTPS átirányítás újragondolása API-k esetében a biztonság növelése érdekében

A HTTP-HTTPS átirányítás érzékeny adatokat hozhat nyilvánosságra, vagy lehetővé teheti a Man-In-The-Middle (MITM) támadásokat, különösen az olyan API-k esetében, amelyekhez olyan szoftverek férnek hozzá, amelyek nem kezelik a biztonsági fejléceket.
Az olyan technikák, mint a HSTS (HTTP Strict Transport Security) és a HTTPS-Only módok javítják a biztonságot, de nem biztos, hogy elegendőek az API-k esetében, ami rávilágít arra, hogy a hibák korai észleléséhez hibabiztos megközelítésre van szükség.
A biztonsági kockázatok megelőzése érdekében a legjobb gyakorlatokat aktualizálni kell, hogy az API-k a titkosítatlan kéréseket teljes mértékben elutasítsák, és a titkosítatlan kapcsolatokon keresztül küldött API-hitelesítési adatokat visszavonják.

Reakciók

A megbeszélés hangsúlyt fektet az API-biztonság fokozására a HTTP HTTPS-re való átirányításával és a HTTP-n keresztül küldött API-kulcsok visszavonásával a Man-in-the-Middle (MITM) támadások megelőzése érdekében.
Rávilágít a megfelelő API-kulcskezelés fontosságára, az aláírt hash-ek, nonce-ek és időbélyegek használatára a hitelesítéshez, valamint a HTTPS szükségességére az adatok integritása és az adatvédelem érdekében.
A beszélgetés kritikával illeti a Tanúsítvány-szolgáltatókra való hagyatkozást, és olyan gyakorlati megoldásokat javasol, mint az egyedi URL-címek vagy API-kulcsok a biztonságos hozzáférés-szabályozáshoz bizonyos kontextusokban.

Llama3-V: GPT-4V teljesítményével vetekszik egy 500 dolláros multimodális modell

A Llama3-V egy új multimodális modell, amely a Llama3-on alapul, és úgy tervezték, hogy vetekedjen a nagyobb modellekkel, mint a GPT-4V, de jelentősen alacsonyabb áron (500 dollár alatt).
A multimodális megértési benchmarkokban 10-20%-kal felülmúlja a jelenlegi legmodernebb modellt, a Llavát, a SigLIP-et használva a képbeágyazáshoz és a vizuális és szöveges tokenek összehangolásához egy önfigyelő rétegekkel ellátott vetítési blokk segítségével.
A legfontosabb optimalizációk közé tartozik a képbeágyazások előzetes kiszámítása és az MPS/MLX kihasználása a hatékony képzés érdekében, a képzési folyamat pedig 600 000 példán végzett előképzést és 1 millió példán végzett felügyelt finomhangolást foglal magában.

Reakciók

A cikk különböző multimodális AI modelleket hasonlít össze, a Llama 3-V-re összpontosítva, amely a GPT-4V teljesítményét igyekszik elérni, de kisebb és olcsóbb.
Kiemeli, hogy az olyan modellek, mint az InternVL-1.5 és a CogVLM felülmúlják a Llava teljesítményét, és egyes modellek olyan feladatokban jeleskednek, mint az OCR (optikai karakterfelismerés) és a GUI (grafikus felhasználói felület) megértése.
A felhasználók megvitatják e modellek gyakorlati alkalmazásait, korlátait és költséghatékonyságát, beleértve a GPT-4V használatát a termelésben vizuális feladatokra, valamint a modern OCR-eszközök, például a PaddleOCR és a TrOCR hatékonyságát.

A Mistral AI bemutatja a Codestral-t: Code Generation: Egy hatékony generatív mesterséges intelligencia a kódgeneráláshoz

1. május 29-én a Mistral AI elindította a Codestral-t, egy nyílt súlyú generatív mesterséges intelligencia modellt kódgenerálásra, amelyet több mint 80 programozási nyelven képeztek ki.
A Codestral 22B modellmérettel és 32k kontextusablakkal rendelkezik, és olyan benchmarkokban, mint a RepoBench és a HumanEval, felülmúlja a versenytársak teljesítményét.
A Mistral AI Non-Production License alatt elérhető Codestral egy dedikált végponton keresztül érhető el, vagy olyan eszközökbe integrálható, mint a VSCode és a JetBrains, és a fejlesztők dicsérik a sebességét, pontosságát és termelékenységi hatását.

Reakciók

A mistral.ai által kiadott Mistral kódmodell korlátozó licenccel rendelkezik, amely tiltja a kereskedelmi felhasználást, az élő feltételeket és a belső vállalati felhasználást, ami korlátozza a gyakorlati alkalmazásokat és kritikát vált ki.
A Mistral licencével kapcsolatos vita rávilágít a mesterséges intelligencia által generált tartalmak szerzői jogával és licencelésével kapcsolatos szélesebb körű kérdésekre, valamint a "nyílt forráskódú" kifejezés helytelen használatára a mesterséges intelligenciában.
A felhasználók frusztrációjukat fejezik ki a mesterséges intelligencia következetlen kódgenerálásával kapcsolatban, különösen az összetett feladatok esetében, és megvitatják a különböző mesterséges intelligencia modellek, köztük a Meta Llama és az OpenAI GPT modelljeinek korlátait és képességeit.

A nagy nyelvi modellekkel való építkezés egy évének legfontosabb tanulságai (I. rész)

Eugene Yan és munkatársai "What We Learned from a Year of Building with LLMs (Part I)" című cikke a nagy nyelvi modellek (LLM) gyors fejlődését és gyakorlati alkalmazásait vizsgálja, miközben kitér a hatékony AI-termékek fejlesztésének kihívásaira.
A legfontosabb tanulságok között szerepelnek a legjobb gyakorlatok a prompting, a visszakereséssel kiegészített generálás (RAG), a flow engineering és az értékelés terén, olyan technikákkal, mint az n-shot prompting és a gondolati lánc prompting.
A cikk operatív tanácsokat is ad a mesterséges intelligencia-ügynökök kezelésével, az utasítások finomításával, a modellek finomhangolásával, valamint a költségek és a késleltetés gyorsítótárazással történő csökkentésével kapcsolatban, hangsúlyozva a gyakorlati értékeléseket és az emberközpontú megközelítéseket.

Reakciók

A nagy nyelvi modellekkel (LLM) végzett egyéves munka során szerzett tapasztalatok rávilágítanak a többszörös mintavétel fontosságára a hallucinációs arányok csökkentése és a pontosabb eredmények érdekében a döntések előtti indoklás létrehozása érdekében.
A cikk tárgyalja az LLM kimenetek értékelésével kapcsolatos kihívásokat, a hőmérséklet hatását a kimenet véletlenszerűségére, a mintavétellel kapcsolatos tévhiteket, valamint az olyan eszközökkel kapcsolatos tapasztalatokat, mint a patchbotok és a sugárkeresés.
Olyan iparági aggodalmakkal foglalkozik, mint a magas hibaarányok, a FOMO által vezérelt befektetések, valamint az olyan vállalatok, mint a Google agresszív törekvése a mesterséges intelligencia integrálására a lehetséges szolgáltatásminőségi problémák ellenére.

Az irodába visszatérési kötelezettségek a legjobb tehetségek elvesztésének kockázatát hordozzák magukban, figyelmeztet a szakértő

Kevin Murphy, a Limericki Egyetem professzora azt állítja, hogy a távmunkások produktívabbak és elégedettebbek az irodában dolgozókhoz képest.
Az irodába való visszatérés (Return to Office, RTO) mandátumának erőltetése a járvány után a legjobb tehetségek elvesztését kockáztatja, mivel sok munkavállaló elutasítja a hagyományos irodai normákat.
A vezetőknek meggyőző indokokat és ösztönzőket kell kínálniuk az irodába való visszatérésre, elismerve a hatalmi dinamikában bekövetkezett változást a munkavállalók javára, különben azt kockáztatják, hogy értékes tehetségeket veszítenek el a rugalmasabb versenytársak.

Reakciók

A távmunka és az irodába való visszatérési kötelezettség (RTO) közötti vita középpontjában a rugalmasság, a kényelem és a távmunkát preferáló alkalmazottak esetleges elvesztése áll.
Az ingázás egyesek számára mentális pihenést jelent, mások számára azonban olyan kihívásokat jelent, mint a környezetszennyezés, a magas költségek és a határok elmosódása, ami hatással van a munka és a magánélet egyensúlyára és a karrierépítésre.
A távmunkát hatékonyabbnak és fenntarthatóbbnak tartják, és olyan előnyökkel jár, mint a családdal töltött idő növekedése és a szén-dioxid-kibocsátás csökkenése, de a távmunka elhanyagolhatja a fiatalabb munkatársakat, és egyértelmű tájékoztatást igényel az RTO előnyeiről.

Kanada C-26-os törvényjavaslata: Hálózati hátsó ajtók telepítésének ellentmondásos hatásköre a megfigyelés érdekében

A C-26. számú kanadai szövetségi kiberbiztonsági törvényjavaslat felhatalmazza a kormányt arra, hogy a távközlési vállalatokat arra kényszerítse, hogy hátsó ajtókat telepítsenek a titkosított hálózatokba, ami potenciálisan veszélyeztetheti a biztonságot.
A kritikusok, köztük a Torontói Egyetem Citizen Lab-ja szerint ezek az intézkedések gyengítenék az 5G titkosítást és más biztonsági funkciókat, ami növelné a kiberfenyegetettséget.
A szakértői figyelmeztetések ellenére a törvényjavaslat módosítások nélkül haladt előre, ami ellentmond Kanada titkosításpárti álláspontjának, és potenciálisan veszélyes precedenst teremt más országok számára.

Reakciók

A kanadai kormány felhatalmazást kér arra, hogy a hagyományos jogi felügyelet megkerülésével titkos hátsó ajtókat hozzon létre a távközlési hálózatokban a megfigyelés céljából, ami jelentős adatvédelmi aggályokat vet fel, és a bűnüldözés számára visszaélési lehetőséget jelent.
A kritikusok szerint ez az NSA gyakorlatához hasonló invazív megfigyeléshez vezethet, ami vitákat vált ki Kanada alkotmányáról, a "semmisségi záradékról" és a törvényes lehallgatási képességekről.
A beszélgetés a megfigyelés történelmi példáira is kiterjed, mint például a kamionos tüntetések, valamint a kormányzat túlkapásainak, a magánélet védelmének és a hatóságra adott társadalmi válaszoknak a tágabb témáira.

A szoftverrendszerek elkerülhetetlen komplexitásának három alapvető törvénye

A cikk három alapvető törvényszerűséget tárgyal, amelyek hozzájárulnak a szoftverfejlesztés szükségtelen bonyolultságához, különösen az infrastrukturális rendszerek esetében.
Első törvény: A jól megtervezett rendszerek a folyamatos módosítások miatt idővel rosszul megtervezett rendszerekké degradálódnak.
Második törvény: A komplexitás növekszik, mivel a sikeres rendszerek a piaci részesedést a jó absztrakciós tervezéssel szemben előnyben részesítik, ami nehezen módosítható rendszerekhez vezet.
Harmadik törvény: A fejlesztők különböző képességei és filozófiái által vezérelt, bonyolult terveket eredményező szoftverek összetettségének nincs felső határa.

Reakciók

A vita a szoftver komplexitásának kezelésével kapcsolatos kihívásokkal foglalkozik, különösen a régi rendszerek esetében, valamint a költségek és a minőség közötti kompromisszumokkal, amelyek gyakran technikai adóssághoz vezetnek.
Hangsúlyozza az inkrementális refaktorálás fontosságát, az erős mérnöki kultúra fenntartását, valamint az alapvető és a véletlenszerű komplexitás megkülönböztetését a szoftver hatékony kezeléséhez.
A résztvevők kiemelik a folyamatos karbantartás szükségességét, a rossz fejlesztési döntések hatását, valamint a vezetői támogatás szerepét a refaktorálási erőfeszítések igazolásában.

Az indítástól az eladásig: Lynch útja a TinyPilotnál

Michael Lynch 2020 közepén hozta létre a TinyPilotot, egy távoli szervervezérlésre szolgáló eszközt, amely gyorsan népszerűvé vált, és egy 1 millió dolláros éves bevétellel és hétfős csapattal rendelkező vállalkozássá nőtte ki magát.
Lynch 600 ezer dollárért adta el a TinyPilotot, a költségek után 490 803 dollárt keresve, mivel a hardverüzlet irányításával járó stressz és a kódoláshoz való visszatérés, valamint a családalapítás vágya miatt.
A Quiet Light Brokerage által közvetített eladás olyan kihívásokkal járt, mint az alapítói stressz kiegyensúlyozása, a vevő megtalálása és az átvilágítás irányítása; a vevő Scott, egy vállalati médiaszakember volt.

Reakciók

Michael Lynch eladta vállalkozását, a TinyPilotot, és megvitatta az eladással járó jelentős költségeket, beleértve a brókeri jutalékokat és a jogi költségeket, amelyek az eladási ár mintegy 18%-át tették ki.
Lynch vállalkozói útja során a Google-nél betöltött jól fizető állásából az autonómia és a kreativitás értékének megbecsülésére tért át, kiemelte a vállalkozói szellem oktatási értékét, és kritikával illette a technológiai iparág teljes kompenzációra való összpontosítását.
Lynch azt tervezi, hogy a jövőben az oktatási termékekre és a Software as a Service (SaaS) szolgáltatásokra összpontosítva, a hardvereket pedig a bonyolultságuk és a kihívásaik miatt elkerülve, a bootstrap módszerrel fogja felépíteni a vállalkozásait.

Az OpenAI korábbi igazgatósági tagja feltárja Sam Altman kirúgásának és visszahelyezésének okait

2023 novemberében az OpenAI igazgatótanácsa váratlanul kirúgta Sam Altman vezérigazgatót, "nyílt hazugságra" és manipulatív viselkedésre hivatkozva, ami aláásta a bizalmat.
A konkrét problémák közé tartozott Altman nem nyilvános tulajdonjoga az OpenAI Startup Fundban, pontatlan biztonsági információk nyújtása és mérgező munkakörnyezet kialakítása.
E vádak ellenére a belső és külső nyomás - beleértve az alkalmazottak és a Microsoft támogatását - vezetett Altman visszahelyezéséhez, és egy független felülvizsgálat nem talált problémákat a termékbiztonsággal vagy a vállalat működésével kapcsolatban.

Reakciók

Az OpenAI igazgatótanácsának egy korábbi tagja nyilvánosságra hozta, hogy Sam Altmant tisztességtelenség miatt elbocsátották, ami kérdéseket vet fel azzal kapcsolatban, hogy az igazgatótanács tisztában volt-e a ChatGPT elindításával.
A helyzet vitákat váltott ki a szervezeti átláthatóságról, az igazgatótanácsi felügyeletről és az etikus irányításról, és olyan vállalati kudarcokhoz hasonlították, mint az Enron.
Szkeptikusak az OpenAI bizalmi és biztonsági gyakorlatával kapcsolatban, az alkalmazottak távozása és az Altman vezetésével kapcsolatos kritikák, valamint a technikai alkalmassággal és az igazgatótanács szerepével kapcsolatos viták mellett.

A Google Search Leak feltárja a rangsorolási algoritmus és a 2,596 modulok titkait

A Google Search belső dokumentumainak jelentős kiszivárgása a Google rangsorolási algoritmusának kritikus aspektusait tárta fel, beleértve a kattintások, linkek, tartalmak, entitások és Chrome-adatok használatát.
Rand Fishkin és Michael King iparági szakértők elemezték a dokumentumokat, és 2596 rangsorolási modult, a linkek sokféleségének, a relevanciának, a sikeres kattintásoknak és a márkaismertségnek a jelentőségét tárták fel.
A dokumentumok azt is feltárják, hogy a Google a szerzői információkat, a webhely tekintélyét és a "twiddlereket" használja a rangsorolás módosításához, ami értékes betekintést nyújt a SEO-k számára, annak ellenére, hogy a rangsorolási tényezők pontos súlyozása ismeretlen.

Reakciók

Egy kiszivárgott Google Search dokumentum vitákat váltott ki a rangsorolási algoritmusról és a Google hirdetési programjának a keresési eredményekre gyakorolt hatásáról.
A felhasználók olyan alternatívákat vitatnak meg, mint a Kagi és a search.marginalia.nu, vegyes véleményekkel a Kagi testreszabhatóságáról, nem kereskedelmi célú fókuszáról, valamint a spam és az AI által generált tartalmakkal kapcsolatos problémákról.
A beszélgetés rávilágít a felhasználói preferenciákat a hirdetési bevételekkel szemben előtérbe helyező keresőmotorok iránti vágyra, kitérve a SEO manipulációra, a nagy nyelvi modellek (LLM) lehetőségeire, valamint az online vélemények hitelességével és a Google rangsorolási kritériumaival kapcsolatos aggodalmakra.

ChatTTS: Fejlett nyílt forráskódú TTS modell természetes párbeszédhez angol és kínai nyelven

A ChatTTS egy párbeszédre optimalizált szöveg-beszéd (TTS) modell, amely angol és kínai nyelvet egyaránt támogat, és több mint 100 000 órányi adaton képzett.
A HuggingFace nyílt forráskódú verziója egy 40 000 órányi előre betanított modellt tartalmaz, amely kiválóan alkalmas a természetes és kifejező beszédszintézisre, finom szemcsés prozódiai vezérléssel.
A modellt kizárólag akadémiai használatra szánják, a jövőben további funkciók nyílt forráskódúvá tételét és a stabilitás javítását tervezik.

Reakciók

A vita kiemeli az olyan TTS modellek fejlesztését és teljesítményét, mint a ChatTTS és a Piper TTS, olyan problémákat említve, mint a lassú feldolgozás és a hangminőségi kihívások.
A felhasználók hangsúlyozzák, hogy több nyelven is szükség van jó minőségű TTS-re, és vitatják az emberi és az automatikus hangok hatékonyságát a hangoskönyvekben.
A TTS-projektek félrevezető "nyílt forráskódú" állításainak kritikája, valamint felhívás a valóban nyílt forráskódú TTS-modellek és -adatok átfogó listájának összeállítására.

A Google hallgat a keresési algoritmust részletező 2500 oldal állítólagos kiszivárgásáról

Egy 2500 oldalnyi belső Google-dokumentum kiszivárgása, amelyet Rand Fishkin SEO-szakértő osztott meg, ellentmondásokat fedhet fel a Google nyilvános nyilatkozatai és a keresési algoritmusokkal kapcsolatos tényleges gyakorlata között.
A dokumentumok arra utalnak, hogy a Chrome adatait használják a rangsorolásban és a szerzői információk nyomon követésében, megkérdőjelezve a Google korábbi állításait, és vitát váltva ki a vállalat átláthatóságáról.
A Google nem kommentálta a dokumentumok jogszerűségét, és az eset rávilágít a Google keresési műveleteinek átláthatatlan természetével kapcsolatos folyamatos aggodalmakra a trösztellenes vizsgálatok közepette.

Reakciók

A Google keresési algoritmus dokumentációjának kiszivárgása feltárta a Google nyilvános nyilatkozatai és tényleges gyakorlata közötti lehetséges eltéréseket.
A kiszivárgás arra utal, hogy a Google képviselői esetleg hiteltelenítették a marketing, a technológiai és az újságíró közösségek pontos megállapításait, ami etikai aggályokat vet fel a SEO-manipulációval kapcsolatban.
A GitHubon zajló jogi viták a szivárgás jelentőségét és jogszerűségét vitatják, és eltérő vélemények hangzanak el az üzleti titok státuszára és a szerzői jogvédelemre gyakorolt hatásáról.