Ugrás a fő tartalomhoz

2024-05-29

AI fejhallgató elkülöníti az egyetlen hangszórót a tömegben a tekintet észlelésével

  • A Washingtoni Egyetem (UW) kifejlesztett egy "Target Speech Hearing" nevű mesterséges intelligencia rendszert, amely segít a felhasználóknak zajos környezetben egyetlen beszélőre koncentrálni, ha három-öt másodpercig rájuk néznek.
  • Az ACM CHI konferencián bemutatott rendszer gépi tanulást használ a kívánt beszélő hangjának elkülönítésére és felerősítésére valós időben, még a felhasználó mozgása közben is.
  • A jelenleg a koncepció bizonyítási szakaszában lévő technológiát 21 alanyon tesztelték, akik jelentősen javuló tisztaságról számoltak be, és a jövőben tervezik a fülhallgatókra és hallókészülékekre való kiterjesztését.

Reakciók

  • A szöveg a zajos környezetben a hallási élmény javítását célzó stratégiákat és technológiákat vizsgálja, a mesterséges intelligencia fejhallgatókra, a fejlett hangtervezésre és a zajszűrő technológiákra összpontosítva.
  • Rávilágít a modern éttermek zajkeltő anyagainak kihívásaira, valamint a hangcsillapítási technikák használatára a karbantartási és esztétikai problémák ellenére.
  • Az olyan technológiai fejlesztések, mint az irányított mikrofonok, a valós idejű beszédfelismerés és a szelektív hangszűrés, valamint a magánélet védelmével és a lehetséges visszaélésekkel kapcsolatos aggályok kerülnek megvitatásra.

A volt OpenAI igazgatótanácsi tag feltárja a hazugságokat és a visszaéléseket Sam Altman rövid eltávolítása mögött

  • Helen Toner, az OpenAI igazgatótanácsának korábbi tagja nyilvánosságra hozta, hogy Sam Altmant rövid időre eltávolították vezérigazgatói posztjáról, mivel többszörösen tisztességtelen volt és információkat tartott vissza az igazgatótanács elől.
  • A példák között szerepelt, hogy az igazgatótanács a Twitteren keresztül értesült a ChatGPT kiadásáról, Altman pedig nem hozta nyilvánosságra a vállalatban való pénzügyi érdekeltségét, valamint a két vezető által nyújtott pontatlan biztonsági információkkal és "pszichológiai visszaéléssel" kapcsolatos vádak.
  • Altmant kevesebb mint egy héttel később visszahelyezték a vezérigazgatói posztra, miután a személyzet felmondással fenyegetőzött, és a Microsoft érdeklődést mutatott csapata felvétele iránt; Toner nem sokkal visszatérése után lemondott.

Reakciók

  • Az OpenAI vezérigazgatóját, Sam Altmant rövid időre leváltották, majd újra felvették, ami feszültséget okozott az igazgatótanács tekintélye, valamint a kulcsfontosságú befektetők és alapítók befolyása között.
  • Az igazgatótanács rosszul kezelte Altman kirúgását, ami jelentős munkavállalói visszahatáshoz és tömeges felmondással való fenyegetéshez vezetett, kiemelve a vállalatirányítás, a munkavállalói befolyás és a pénzügyi érdekek összetett dinamikáját.
  • Az eset szélesebb körű vitákat váltott ki a technológiai vezetésről, a kegyetlen viselkedés etikai következményeiről, valamint a kommunikáció és az etika szerepéről a vállalatirányításban.

A HTTP-HTTPS átirányítás újragondolása API-k esetében a biztonság növelése érdekében

  • A HTTP-HTTPS átirányítás érzékeny adatokat hozhat nyilvánosságra, vagy lehetővé teheti a Man-In-The-Middle (MITM) támadásokat, különösen az olyan API-k esetében, amelyekhez olyan szoftverek férnek hozzá, amelyek nem kezelik a biztonsági fejléceket.
  • Az olyan technikák, mint a HSTS (HTTP Strict Transport Security) és a HTTPS-Only módok javítják a biztonságot, de nem biztos, hogy elegendőek az API-k esetében, ami rávilágít arra, hogy a hibák korai észleléséhez hibabiztos megközelítésre van szükség.
  • A biztonsági kockázatok megelőzése érdekében a legjobb gyakorlatokat aktualizálni kell, hogy az API-k a titkosítatlan kéréseket teljes mértékben elutasítsák, és a titkosítatlan kapcsolatokon keresztül küldött API-hitelesítési adatokat visszavonják.

Reakciók

  • A megbeszélés hangsúlyt fektet az API-biztonság fokozására a HTTP HTTPS-re való átirányításával és a HTTP-n keresztül küldött API-kulcsok visszavonásával a Man-in-the-Middle (MITM) támadások megelőzése érdekében.
  • Rávilágít a megfelelő API-kulcskezelés fontosságára, az aláírt hash-ek, nonce-ek és időbélyegek használatára a hitelesítéshez, valamint a HTTPS szükségességére az adatok integritása és az adatvédelem érdekében.
  • A beszélgetés kritikával illeti a Tanúsítvány-szolgáltatókra való hagyatkozást, és olyan gyakorlati megoldásokat javasol, mint az egyedi URL-címek vagy API-kulcsok a biztonságos hozzáférés-szabályozáshoz bizonyos kontextusokban.

Llama3-V: GPT-4V teljesítményével vetekszik egy 500 dolláros multimodális modell

  • A Llama3-V egy új multimodális modell, amely a Llama3-on alapul, és úgy tervezték, hogy vetekedjen a nagyobb modellekkel, mint a GPT-4V, de jelentősen alacsonyabb áron (500 dollár alatt).
  • A multimodális megértési benchmarkokban 10-20%-kal felülmúlja a jelenlegi legmodernebb modellt, a Llavát, a SigLIP-et használva a képbeágyazáshoz és a vizuális és szöveges tokenek összehangolásához egy önfigyelő rétegekkel ellátott vetítési blokk segítségével.
  • A legfontosabb optimalizációk közé tartozik a képbeágyazások előzetes kiszámítása és az MPS/MLX kihasználása a hatékony képzés érdekében, a képzési folyamat pedig 600 000 példán végzett előképzést és 1 millió példán végzett felügyelt finomhangolást foglal magában.

Reakciók

  • A cikk különböző multimodális AI modelleket hasonlít össze, a Llama 3-V-re összpontosítva, amely a GPT-4V teljesítményét igyekszik elérni, de kisebb és olcsóbb.
  • Kiemeli, hogy az olyan modellek, mint az InternVL-1.5 és a CogVLM felülmúlják a Llava teljesítményét, és egyes modellek olyan feladatokban jeleskednek, mint az OCR (optikai karakterfelismerés) és a GUI (grafikus felhasználói felület) megértése.
  • A felhasználók megvitatják e modellek gyakorlati alkalmazásait, korlátait és költséghatékonyságát, beleértve a GPT-4V használatát a termelésben vizuális feladatokra, valamint a modern OCR-eszközök, például a PaddleOCR és a TrOCR hatékonyságát.

A Mistral AI bemutatja a Codestral-t: Code Generation: Egy hatékony generatív mesterséges intelligencia a kódgeneráláshoz

    1. május 29-én a Mistral AI elindította a Codestral-t, egy nyílt súlyú generatív mesterséges intelligencia modellt kódgenerálásra, amelyet több mint 80 programozási nyelven képeztek ki.
  • A Codestral 22B modellmérettel és 32k kontextusablakkal rendelkezik, és olyan benchmarkokban, mint a RepoBench és a HumanEval, felülmúlja a versenytársak teljesítményét.
  • A Mistral AI Non-Production License alatt elérhető Codestral egy dedikált végponton keresztül érhető el, vagy olyan eszközökbe integrálható, mint a VSCode és a JetBrains, és a fejlesztők dicsérik a sebességét, pontosságát és termelékenységi hatását.

Reakciók

  • A mistral.ai által kiadott Mistral kódmodell korlátozó licenccel rendelkezik, amely tiltja a kereskedelmi felhasználást, az élő feltételeket és a belső vállalati felhasználást, ami korlátozza a gyakorlati alkalmazásokat és kritikát vált ki.
  • A Mistral licencével kapcsolatos vita rávilágít a mesterséges intelligencia által generált tartalmak szerzői jogával és licencelésével kapcsolatos szélesebb körű kérdésekre, valamint a "nyílt forráskódú" kifejezés helytelen használatára a mesterséges intelligenciában.
  • A felhasználók frusztrációjukat fejezik ki a mesterséges intelligencia következetlen kódgenerálásával kapcsolatban, különösen az összetett feladatok esetében, és megvitatják a különböző mesterséges intelligencia modellek, köztük a Meta Llama és az OpenAI GPT modelljeinek korlátait és képességeit.

A nagy nyelvi modellekkel való építkezés egy évének legfontosabb tanulságai (I. rész)

  • Eugene Yan és munkatársai "What We Learned from a Year of Building with LLMs (Part I)" című cikke a nagy nyelvi modellek (LLM) gyors fejlődését és gyakorlati alkalmazásait vizsgálja, miközben kitér a hatékony AI-termékek fejlesztésének kihívásaira.
  • A legfontosabb tanulságok között szerepelnek a legjobb gyakorlatok a prompting, a visszakereséssel kiegészített generálás (RAG), a flow engineering és az értékelés terén, olyan technikákkal, mint az n-shot prompting és a gondolati lánc prompting.
  • A cikk operatív tanácsokat is ad a mesterséges intelligencia-ügynökök kezelésével, az utasítások finomításával, a modellek finomhangolásával, valamint a költségek és a késleltetés gyorsítótárazással történő csökkentésével kapcsolatban, hangsúlyozva a gyakorlati értékeléseket és az emberközpontú megközelítéseket.

Reakciók

  • A nagy nyelvi modellekkel (LLM) végzett egyéves munka során szerzett tapasztalatok rávilágítanak a többszörös mintavétel fontosságára a hallucinációs arányok csökkentése és a pontosabb eredmények érdekében a döntések előtti indoklás létrehozása érdekében.
  • A cikk tárgyalja az LLM kimenetek értékelésével kapcsolatos kihívásokat, a hőmérséklet hatását a kimenet véletlenszerűségére, a mintavétellel kapcsolatos tévhiteket, valamint az olyan eszközökkel kapcsolatos tapasztalatokat, mint a patchbotok és a sugárkeresés.
  • Olyan iparági aggodalmakkal foglalkozik, mint a magas hibaarányok, a FOMO által vezérelt befektetések, valamint az olyan vállalatok, mint a Google agresszív törekvése a mesterséges intelligencia integrálására a lehetséges szolgáltatásminőségi problémák ellenére.

Az irodába visszatérési kötelezettségek a legjobb tehetségek elvesztésének kockázatát hordozzák magukban, figyelmeztet a szakértő

  • Kevin Murphy, a Limericki Egyetem professzora azt állítja, hogy a távmunkások produktívabbak és elégedettebbek az irodában dolgozókhoz képest.
  • Az irodába való visszatérés (Return to Office, RTO) mandátumának erőltetése a járvány után a legjobb tehetségek elvesztését kockáztatja, mivel sok munkavállaló elutasítja a hagyományos irodai normákat.
  • A vezetőknek meggyőző indokokat és ösztönzőket kell kínálniuk az irodába való visszatérésre, elismerve a hatalmi dinamikában bekövetkezett változást a munkavállalók javára, különben azt kockáztatják, hogy értékes tehetségeket veszítenek el a rugalmasabb versenytársak.

Reakciók

  • A távmunka és az irodába való visszatérési kötelezettség (RTO) közötti vita középpontjában a rugalmasság, a kényelem és a távmunkát preferáló alkalmazottak esetleges elvesztése áll.
  • Az ingázás egyesek számára mentális pihenést jelent, mások számára azonban olyan kihívásokat jelent, mint a környezetszennyezés, a magas költségek és a határok elmosódása, ami hatással van a munka és a magánélet egyensúlyára és a karrierépítésre.
  • A távmunkát hatékonyabbnak és fenntarthatóbbnak tartják, és olyan előnyökkel jár, mint a családdal töltött idő növekedése és a szén-dioxid-kibocsátás csökkenése, de a távmunka elhanyagolhatja a fiatalabb munkatársakat, és egyértelmű tájékoztatást igényel az RTO előnyeiről.

Kanada C-26-os törvényjavaslata: Hálózati hátsó ajtók telepítésének ellentmondásos hatásköre a megfigyelés érdekében

  • A C-26. számú kanadai szövetségi kiberbiztonsági törvényjavaslat felhatalmazza a kormányt arra, hogy a távközlési vállalatokat arra kényszerítse, hogy hátsó ajtókat telepítsenek a titkosított hálózatokba, ami potenciálisan veszélyeztetheti a biztonságot.
  • A kritikusok, köztük a Torontói Egyetem Citizen Lab-ja szerint ezek az intézkedések gyengítenék az 5G titkosítást és más biztonsági funkciókat, ami növelné a kiberfenyegetettséget.
  • A szakértői figyelmeztetések ellenére a törvényjavaslat módosítások nélkül haladt előre, ami ellentmond Kanada titkosításpárti álláspontjának, és potenciálisan veszélyes precedenst teremt más országok számára.

Reakciók

  • A kanadai kormány felhatalmazást kér arra, hogy a hagyományos jogi felügyelet megkerülésével titkos hátsó ajtókat hozzon létre a távközlési hálózatokban a megfigyelés céljából, ami jelentős adatvédelmi aggályokat vet fel, és a bűnüldözés számára visszaélési lehetőséget jelent.
  • A kritikusok szerint ez az NSA gyakorlatához hasonló invazív megfigyeléshez vezethet, ami vitákat vált ki Kanada alkotmányáról, a "semmisségi záradékról" és a törvényes lehallgatási képességekről.
  • A beszélgetés a megfigyelés történelmi példáira is kiterjed, mint például a kamionos tüntetések, valamint a kormányzat túlkapásainak, a magánélet védelmének és a hatóságra adott társadalmi válaszoknak a tágabb témáira.

A szoftverrendszerek elkerülhetetlen komplexitásának három alapvető törvénye

  • A cikk három alapvető törvényszerűséget tárgyal, amelyek hozzájárulnak a szoftverfejlesztés szükségtelen bonyolultságához, különösen az infrastrukturális rendszerek esetében.
  • Első törvény: A jól megtervezett rendszerek a folyamatos módosítások miatt idővel rosszul megtervezett rendszerekké degradálódnak.
  • Második törvény: A komplexitás növekszik, mivel a sikeres rendszerek a piaci részesedést a jó absztrakciós tervezéssel szemben előnyben részesítik, ami nehezen módosítható rendszerekhez vezet.
  • Harmadik törvény: A fejlesztők különböző képességei és filozófiái által vezérelt, bonyolult terveket eredményező szoftverek összetettségének nincs felső határa.

Reakciók

  • A vita a szoftver komplexitásának kezelésével kapcsolatos kihívásokkal foglalkozik, különösen a régi rendszerek esetében, valamint a költségek és a minőség közötti kompromisszumokkal, amelyek gyakran technikai adóssághoz vezetnek.
  • Hangsúlyozza az inkrementális refaktorálás fontosságát, az erős mérnöki kultúra fenntartását, valamint az alapvető és a véletlenszerű komplexitás megkülönböztetését a szoftver hatékony kezeléséhez.
  • A résztvevők kiemelik a folyamatos karbantartás szükségességét, a rossz fejlesztési döntések hatását, valamint a vezetői támogatás szerepét a refaktorálási erőfeszítések igazolásában.

Az indítástól az eladásig: Lynch útja a TinyPilotnál

  • Michael Lynch 2020 közepén hozta létre a TinyPilotot, egy távoli szervervezérlésre szolgáló eszközt, amely gyorsan népszerűvé vált, és egy 1 millió dolláros éves bevétellel és hétfős csapattal rendelkező vállalkozássá nőtte ki magát.
  • Lynch 600 ezer dollárért adta el a TinyPilotot, a költségek után 490 803 dollárt keresve, mivel a hardverüzlet irányításával járó stressz és a kódoláshoz való visszatérés, valamint a családalapítás vágya miatt.
  • A Quiet Light Brokerage által közvetített eladás olyan kihívásokkal járt, mint az alapítói stressz kiegyensúlyozása, a vevő megtalálása és az átvilágítás irányítása; a vevő Scott, egy vállalati médiaszakember volt.

Reakciók

  • Michael Lynch eladta vállalkozását, a TinyPilotot, és megvitatta az eladással járó jelentős költségeket, beleértve a brókeri jutalékokat és a jogi költségeket, amelyek az eladási ár mintegy 18%-át tették ki.
  • Lynch vállalkozói útja során a Google-nél betöltött jól fizető állásából az autonómia és a kreativitás értékének megbecsülésére tért át, kiemelte a vállalkozói szellem oktatási értékét, és kritikával illette a technológiai iparág teljes kompenzációra való összpontosítását.
  • Lynch azt tervezi, hogy a jövőben az oktatási termékekre és a Software as a Service (SaaS) szolgáltatásokra összpontosítva, a hardvereket pedig a bonyolultságuk és a kihívásaik miatt elkerülve, a bootstrap módszerrel fogja felépíteni a vállalkozásait.

Az OpenAI korábbi igazgatósági tagja feltárja Sam Altman kirúgásának és visszahelyezésének okait

  • 2023 novemberében az OpenAI igazgatótanácsa váratlanul kirúgta Sam Altman vezérigazgatót, "nyílt hazugságra" és manipulatív viselkedésre hivatkozva, ami aláásta a bizalmat.
  • A konkrét problémák közé tartozott Altman nem nyilvános tulajdonjoga az OpenAI Startup Fundban, pontatlan biztonsági információk nyújtása és mérgező munkakörnyezet kialakítása.
  • E vádak ellenére a belső és külső nyomás - beleértve az alkalmazottak és a Microsoft támogatását - vezetett Altman visszahelyezéséhez, és egy független felülvizsgálat nem talált problémákat a termékbiztonsággal vagy a vállalat működésével kapcsolatban.

Reakciók

  • Az OpenAI igazgatótanácsának egy korábbi tagja nyilvánosságra hozta, hogy Sam Altmant tisztességtelenség miatt elbocsátották, ami kérdéseket vet fel azzal kapcsolatban, hogy az igazgatótanács tisztában volt-e a ChatGPT elindításával.
  • A helyzet vitákat váltott ki a szervezeti átláthatóságról, az igazgatótanácsi felügyeletről és az etikus irányításról, és olyan vállalati kudarcokhoz hasonlították, mint az Enron.
  • Szkeptikusak az OpenAI bizalmi és biztonsági gyakorlatával kapcsolatban, az alkalmazottak távozása és az Altman vezetésével kapcsolatos kritikák, valamint a technikai alkalmassággal és az igazgatótanács szerepével kapcsolatos viták mellett.

A Google Search Leak feltárja a rangsorolási algoritmus és a 2,596 modulok titkait

  • A Google Search belső dokumentumainak jelentős kiszivárgása a Google rangsorolási algoritmusának kritikus aspektusait tárta fel, beleértve a kattintások, linkek, tartalmak, entitások és Chrome-adatok használatát.
  • Rand Fishkin és Michael King iparági szakértők elemezték a dokumentumokat, és 2596 rangsorolási modult, a linkek sokféleségének, a relevanciának, a sikeres kattintásoknak és a márkaismertségnek a jelentőségét tárták fel.
  • A dokumentumok azt is feltárják, hogy a Google a szerzői információkat, a webhely tekintélyét és a "twiddlereket" használja a rangsorolás módosításához, ami értékes betekintést nyújt a SEO-k számára, annak ellenére, hogy a rangsorolási tényezők pontos súlyozása ismeretlen.

Reakciók

  • Egy kiszivárgott Google Search dokumentum vitákat váltott ki a rangsorolási algoritmusról és a Google hirdetési programjának a keresési eredményekre gyakorolt hatásáról.
  • A felhasználók olyan alternatívákat vitatnak meg, mint a Kagi és a search.marginalia.nu, vegyes véleményekkel a Kagi testreszabhatóságáról, nem kereskedelmi célú fókuszáról, valamint a spam és az AI által generált tartalmakkal kapcsolatos problémákról.
  • A beszélgetés rávilágít a felhasználói preferenciákat a hirdetési bevételekkel szemben előtérbe helyező keresőmotorok iránti vágyra, kitérve a SEO manipulációra, a nagy nyelvi modellek (LLM) lehetőségeire, valamint az online vélemények hitelességével és a Google rangsorolási kritériumaival kapcsolatos aggodalmakra.

ChatTTS: Fejlett nyílt forráskódú TTS modell természetes párbeszédhez angol és kínai nyelven

  • A ChatTTS egy párbeszédre optimalizált szöveg-beszéd (TTS) modell, amely angol és kínai nyelvet egyaránt támogat, és több mint 100 000 órányi adaton képzett.
  • A HuggingFace nyílt forráskódú verziója egy 40 000 órányi előre betanított modellt tartalmaz, amely kiválóan alkalmas a természetes és kifejező beszédszintézisre, finom szemcsés prozódiai vezérléssel.
  • A modellt kizárólag akadémiai használatra szánják, a jövőben további funkciók nyílt forráskódúvá tételét és a stabilitás javítását tervezik.

Reakciók

  • A vita kiemeli az olyan TTS modellek fejlesztését és teljesítményét, mint a ChatTTS és a Piper TTS, olyan problémákat említve, mint a lassú feldolgozás és a hangminőségi kihívások.
  • A felhasználók hangsúlyozzák, hogy több nyelven is szükség van jó minőségű TTS-re, és vitatják az emberi és az automatikus hangok hatékonyságát a hangoskönyvekben.
  • A TTS-projektek félrevezető "nyílt forráskódú" állításainak kritikája, valamint felhívás a valóban nyílt forráskódú TTS-modellek és -adatok átfogó listájának összeállítására.

A Google hallgat a keresési algoritmust részletező 2500 oldal állítólagos kiszivárgásáról

  • Egy 2500 oldalnyi belső Google-dokumentum kiszivárgása, amelyet Rand Fishkin SEO-szakértő osztott meg, ellentmondásokat fedhet fel a Google nyilvános nyilatkozatai és a keresési algoritmusokkal kapcsolatos tényleges gyakorlata között.
  • A dokumentumok arra utalnak, hogy a Chrome adatait használják a rangsorolásban és a szerzői információk nyomon követésében, megkérdőjelezve a Google korábbi állításait, és vitát váltva ki a vállalat átláthatóságáról.
  • A Google nem kommentálta a dokumentumok jogszerűségét, és az eset rávilágít a Google keresési műveleteinek átláthatatlan természetével kapcsolatos folyamatos aggodalmakra a trösztellenes vizsgálatok közepette.

Reakciók

  • A Google keresési algoritmus dokumentációjának kiszivárgása feltárta a Google nyilvános nyilatkozatai és tényleges gyakorlata közötti lehetséges eltéréseket.
  • A kiszivárgás arra utal, hogy a Google képviselői esetleg hiteltelenítették a marketing, a technológiai és az újságíró közösségek pontos megállapításait, ami etikai aggályokat vet fel a SEO-manipulációval kapcsolatban.
  • A GitHubon zajló jogi viták a szivárgás jelentőségét és jogszerűségét vitatják, és eltérő vélemények hangzanak el az üzleti titok státuszára és a szerzői jogvédelemre gyakorolt hatásáról.