Přeskočit na hlavní obsah

2024-05-29

Sluchátka s umělou inteligencí izolují jednoho mluvčího v davu pomocí detekce pohledu

  • Washingtonská univerzita (UW) vyvinula systém umělé inteligence s názvem "Target Speech Hearing", který pomáhá uživatelům soustředit se na jednoho mluvčího v hlučném prostředí tím, že se na něj tři až pět sekund dívají.
  • Tento systém, který byl představen na konferenci ACM CHI, využívá strojové učení k izolaci a zesílení hlasu požadovaného řečníka v reálném čase, a to i při pohybu uživatele.
  • V současné době je tato technologie ve fázi ověřování koncepce a byla testována na 21 subjektech, které zaznamenaly výrazné zlepšení srozumitelnosti, přičemž v budoucnu se plánuje rozšíření na sluchátka a naslouchátka.

Reakce

  • Text se zabývá strategiemi a technologiemi pro zlepšení sluchových zážitků v hlučném prostředí a zaměřuje se na sluchátka s umělou inteligencí, pokročilý zvukový design a technologie pro potlačení hluku.
  • Upozorňuje na problémy spojené s moderními materiály v restauracích, které přispívají k hluku, a na používání technik tlumení zvuku navzdory problémům s údržbou a estetikou.
  • Diskutuje se o technologickém pokroku, jako jsou směrové mikrofony, rozpoznávání řeči v reálném čase a selektivní filtrování zvuku, a o obavách týkajících se soukromí a možného zneužití.

Bývalý člen představenstva OpenAI odhaluje lži a pochybení, které stály za krátkým sesazením Sama Altmana z funkce

  • Bývalá členka správní rady OpenAI Helen Tonerová prozradila, že Sam Altman byl krátce odvolán z funkce generálního ředitele kvůli četným případům nečestného jednání a zatajování informací před správní radou.
  • Příklady zahrnovaly, že se správní rada dozvěděla o vydání ChatGPT prostřednictvím Twitteru a Altman nezveřejnil svůj finanční zájem ve společnosti, spolu s obviněními z poskytování nepřesných bezpečnostních informací a "psychického týrání" ze strany dvou vedoucích pracovníků.
  • Altman byl po necelém týdnu znovu jmenován generálním ředitelem poté, co zaměstnanci pohrozili výpovědí a Microsoft projevil zájem o zaměstnání jeho týmu; Toner krátce po jeho návratu rezignoval.

Reakce

  • Generální ředitel společnosti OpenAI Sam Altman byl krátce odvolán a poté znovu přijat, což odhalilo napětí mezi pravomocemi správní rady a vlivem klíčových investorů a zakladatelů.
  • Špatný postup správní rady při Altmanově propuštění vedl k výrazné reakci zaměstnanců a hrozbám hromadné rezignace, což podtrhuje složitou dynamiku řízení společnosti, vlivu zaměstnanců a finančních zájmů.
  • Incident vyvolal širší diskusi o vedení v technologiích, etických důsledcích bezohledného chování a roli komunikace a etiky v řízení firem.

Přehodnocení přesměrování HTTP na HTTPPS pro rozhraní API s cílem zvýšit zabezpečení

  • Přesměrování z protokolu HTTP na protokol HTTPPS může vést k odhalení citlivých dat nebo umožnit útoky typu Man-In-The-Middle (MITM), zejména v případě rozhraní API, ke kterým přistupuje software, který nemusí zpracovávat bezpečnostní hlavičky.
  • Techniky jako HSTS (HTTP Strict Transport Security) a režimy HTTPS-Only zlepšují zabezpečení, ale pro rozhraní API nemusí být dostačující, což zdůrazňuje potřebu rychlého přístupu k včasnému odhalení chyb.
  • Osvědčené postupy by měly být aktualizovány tak, aby doporučovaly, aby rozhraní API zcela odmítala nešifrované požadavky a odvolávala pověření API odeslaná přes nešifrovaná připojení, aby se zabránilo bezpečnostním rizikům.

Reakce

  • V diskusi je kladen důraz na zvýšení zabezpečení rozhraní API přesměrováním protokolu HTTP na protokol HTTPS a zrušením klíčů API odesílaných prostřednictvím protokolu HTTP, aby se zabránilo útokům typu MITM (Man-in-the-Middle).
  • Zdůrazňuje význam správné správy klíčů API, používání podepsaných hashů, noncesů a časových značek pro ověřování a nezbytnost protokolu HTTPS pro integritu dat a ochranu soukromí.
  • V rozhovoru se kritizuje spoléhání se na certifikační autority a navrhují se praktická řešení, jako jsou jedinečné adresy URL nebo klíče API pro bezpečné řízení přístupu ve specifických kontextech.

Llama3-V: Multimodální model za 500 dolarů se výkonem vyrovná GPT-4V

  • Llama3-V je nový multimodální model založený na Llama3, který je navržen tak, aby konkuroval větším modelům, jako je GPT-4V, ale za výrazně nižší cenu (pod 500 USD).
  • Ve srovnávacích testech multimodálního porozumění překonává současný nejmodernější model Llava o 10-20 %, přičemž využívá SigLIP pro vkládání obrázků a vyrovnávání vizuálních a textových tokenů prostřednictvím projekčního bloku s vrstvami vlastní pozornosti.
  • Klíčové optimalizace zahrnují předvýpočet vložených obrazů a využití MPS/MLX pro efektivní trénink, přičemž tréninkový proces zahrnuje předtrénink na 600 000 příkladech a doladění pod dohledem na 1 milionu příkladů.

Reakce

  • Článek porovnává různé modely multimodální umělé inteligence a zaměřuje se na Llama 3-V, který se snaží vyrovnat výkonu GPT-4V, ale je menší a levnější.
  • Zdůrazňuje, že modely jako InternVL-1.5 a CogVLM překonávají model Llava, přičemž konkrétní modely vynikají v úlohách jako OCR (optické rozpoznávání znaků) a porozumění grafickému uživatelskému rozhraní (GUI).
  • Uživatelé diskutují o praktických aplikacích, omezeních a nákladové efektivitě těchto modelů, včetně použití GPT-4V ve výrobě pro vizuální úlohy a účinnosti moderních nástrojů OCR, jako jsou PaddleOCR a TrOCR.

Mistral AI představuje Codestral: Výkonná generativní umělá inteligence pro generování kódu

  • Společnost Mistral AI uvedla 29. května 2024 na trh Codestral, otevřený generativní model umělé inteligence pro generování kódu vycvičený na více než 80 programovacích jazycích.
  • Codestral nabízí model o velikosti 22B a kontextové okno 32k, čímž překonává konkurenci v benchmarcích, jako jsou RepoBench a HumanEval.
  • Codestral je k dispozici pod licencí Mistral AI Non-Production License a lze k němu přistupovat prostřednictvím vyhrazeného koncového bodu nebo jej integrovat do nástrojů, jako jsou VSCode a JetBrains, přičemž vývojáři si pochvalují jeho rychlost, přesnost a dopad na produktivitu.

Reakce

  • Model kódu společnosti Mistral, který zveřejnila společnost mistral.ai, má restriktivní licenci zakazující komerční použití, živé podmínky a interní použití ve společnosti, což omezuje jeho praktické využití a vyvolává kritiku.
  • Debata o licenci společnosti Mistral poukazuje na širší otázky autorských práv a licencí v oblasti obsahu vytvářeného umělou inteligencí a na zneužívání termínu "open-source" v oblasti umělé inteligence.
  • Uživatelé vyjadřují frustraci z nekonzistentního generování kódu umělou inteligencí, zejména u složitých úloh, a diskutují o omezeních a možnostech různých modelů umělé inteligence, včetně modelů Llama společnosti Meta a GPT společnosti OpenAI.

Klíčové poznatky z roku práce s velkými jazykovými modely (část I)

  • Článek "What We Learned from a Year of Building with LLMs (Part I)" od Eugena Yana a jeho kolegů se zabývá rychlým pokrokem a praktickými aplikacemi velkých jazykových modelů (LLM) a zároveň problémy při vývoji efektivních produktů umělé inteligence.
  • Klíčové lekce zahrnují osvědčené postupy v oblasti podnětů, generování rozšířeného vyhledávání (RAG), techniky toku a vyhodnocování, přičemž je kladen důraz na techniky, jako jsou podněty typu n-shot a podněty řetězce myšlenek.
  • Článek také poskytuje provozní rady týkající se správy agentů AI, zdokonalování výzev, vylaďování modelů a snižování nákladů a latence pomocí ukládání do mezipaměti, přičemž klade důraz na praktická hodnocení a přístupy zaměřené na člověka.

Reakce

  • Poznatky z roční práce s velkými jazykovými modely (LLM) zdůrazňují význam vícenásobného výběru vzorků pro snížení míry halucinací a vytváření zdůvodnění před rozhodnutím pro přesnější výsledky.
  • Článek se zabývá problémy při vyhodnocování výstupů LLM, vlivem teploty na náhodnost výstupu a mylnými představami o vzorkování, jakož i zkušenostmi s použitím nástrojů, jako jsou patchboty a vyhledávání paprskem.
  • Zabývá se obavami v odvětví, jako je vysoká chybovost, investice vyvolané FOMO a agresivní snaha společností, jako je Google, integrovat umělou inteligenci navzdory možným problémům s kvalitou služeb.

Odborník varuje: "Návrat do zaměstnání hrozí ztrátou špičkových talentů

  • Profesor Kevin Murphy z University of Limerick tvrdí, že pracovníci na dálku jsou produktivnější a spokojenější než ti, kteří pracují v kancelářích.
  • Snaha o návrat do kanceláře (RTO) po pandemii hrozí ztrátou špičkových talentů, protože mnoho zaměstnanců nyní odmítá tradiční kancelářské normy.
  • Vedoucí pracovníci by měli poskytnout přesvědčivé důvody a pobídky pro návrat do kanceláře a vzít na vědomí změnu dynamiky moci ve prospěch zaměstnanců, jinak riskují, že ztratí cenné talenty ve prospěch flexibilnějších konkurentů.

Reakce

  • Debata mezi prací na dálku a mandáty pro návrat do kanceláře (RTO) se vede o flexibilitě, pohodlí a potenciální ztrátě zaměstnanců, kteří preferují práci na dálku.
  • Dojíždění do zaměstnání je pro někoho duševním odpočinkem, pro jiné však představuje problém, jako je znečištění, vysoké náklady a neurčité hranice, což ovlivňuje rovnováhu mezi pracovním a soukromým životem a kariérní růst.
  • Práce na dálku je považována za efektivnější a udržitelnější, nabízí výhody, jako je více času pro rodinu a snížení emisí uhlíku, ale může zanedbávat mladší zaměstnance a vyžadovat jasnou komunikaci o výhodách RTO.

Kanadský návrh zákona C-26: Kontroverzní pravomoc instalovat zadní vrátka do sítě za účelem sledování

  • Návrh zákona C-26, kanadský federální zákon o kybernetické bezpečnosti, uděluje vládě pravomoc nutit telekomunikační společnosti instalovat zadní vrátka do šifrovaných sítí, což může ohrozit bezpečnost.
  • Kritici, včetně laboratoře Citizen Lab Torontské univerzity, tvrdí, že tato opatření by oslabila šifrování 5G a další bezpečnostní prvky, což by zvýšilo zranitelnost vůči kybernetickým hrozbám.
  • Navzdory varování odborníků byl návrh zákona schválen bez pozměňovacích návrhů, což je v rozporu s pro-šifrovacím postojem Kanady a potenciálně vytváří nebezpečný precedens pro další země.

Reakce

  • Kanadská vláda se snaží získat oprávnění k vytvoření tajných zadních vrátek v telekomunikačních sítích pro sledování, čímž obchází tradiční právní dohled, což vyvolává značné obavy o ochranu soukromí a možnost zneužití ze strany orgánů činných v trestním řízení.
  • Kritici tvrdí, že by to mohlo vést k invazivnímu sledování podobnému praktikám NSA, což zahrnuje debaty o kanadské ústavě, "doložce o neporušení" a možnostech zákonného odposlechu.
  • Diskuse zahrnuje historické příklady sledování, jako například během protestů řidičů kamionů, a širší témata nadměrné moci, soukromí a reakce společnosti na autoritu.

Tři základní zákony, kterými se řídí nevyhnutelná složitost softwarových systémů

  • Článek se zabývá třemi základními zákonitostmi, které přispívají ke zbytečné složitosti softwarového inženýrství, zejména v infrastrukturních systémech.
  • První zákon: Dobře navržené systémy se v důsledku neustálých úprav časem mění na špatně navržené.
  • Druhý zákon: Složitost roste, když úspěšné systémy upřednostňují podíl na trhu před dobrým návrhem abstrakce, což vede k obtížně modifikovatelným systémům.
  • Třetí zákon: Složitost softwaru nemá horní hranici, což je dáno různými schopnostmi a filozofií vývojářů a vede ke složitým návrhům.

Reakce

  • Diskuse se zabývá výzvami spojenými s řízením složitosti softwaru, zejména u starších systémů, a kompromisy mezi náklady a kvalitou, které často vedou k technickému dluhu.
  • Zdůrazňuje význam inkrementálního refaktoringu, udržování silné inženýrské kultury a rozlišování mezi zásadní a náhodnou složitostí pro efektivní správu softwaru.
  • Účastníci zdůrazňují nutnost průběžné údržby, dopad špatných rozhodnutí při vývoji a roli podpory vedení při zdůvodňování úsilí o refaktorizaci.

Od startu po prodej: Cesta Michaela Lynche s firmou TinyPilot

  • Michael Lynch vytvořil v polovině roku 2020 zařízení TinyPilot pro vzdálené ovládání serverů, které si rychle získalo popularitu a rozrostlo se do firmy s ročním obratem 1 milion dolarů a sedmičlenným týmem.
  • Lynch prodal společnost TinyPilot za 600 tisíc dolarů, což po odečtení nákladů činilo 490 803 dolarů, kvůli stresu z řízení hardwarové firmy a touze vrátit se k programování a založit rodinu.
  • Prodej, který zprostředkovala makléřská společnost Quiet Light Brokerage, zahrnoval výzvy, jako je vyvážení stresu zakladatele, nalezení kupujícího a zvládnutí due diligence; kupujícím byl Scott, profesionál v oblasti firemních médií.

Reakce

  • Michael Lynch prodal svůj podnik TinyPilot a hovořil o značných nákladech spojených s prodejem, včetně provizí makléřům a právních poplatků, které činily přibližně 18 % prodejní ceny.
  • Lynchova podnikatelská cesta zahrnovala přechod od dobře placeného zaměstnání ve společnosti Google k ocenění autonomie a kreativity, zdůraznění vzdělávací hodnoty podnikání a kritiku zaměření technologického průmyslu na celkové odměňování.
  • Lynch plánuje v budoucnu podnikat se zaměřením na vzdělávací produkty a software jako službu (SaaS) a vyhnout se hardwaru kvůli jeho složitosti a náročnosti.

Bývalý člen představenstva OpenAI odhaluje důvody vyhazovu Sama Altmana a jeho opětovného jmenování do funkce

  • V listopadu 2023 představenstvo společnosti OpenAI nečekaně propustilo generálního ředitele Sama Altmana s odvoláním na "otevřené lhaní" a manipulativní chování, které narušilo důvěru.
  • Konkrétní problémy se týkaly Altmanova nezveřejněného vlastnictví fondu OpenAI Startup Fund, poskytování nepřesných informací o bezpečnosti a vytváření toxického pracovního prostředí.
  • Navzdory těmto obviněním vedly interní a externí tlaky, včetně podpory ze strany zaměstnanců a společnosti Microsoft, k Altmanovu opětovnému jmenování do funkce, přičemž nezávislý přezkum neshledal žádné problémy s bezpečností výrobků nebo provozem společnosti.

Reakce

  • Bývalý člen představenstva OpenAI prozradil, že Sam Altman byl odvolán kvůli nečestnosti, což vyvolává otázky ohledně informovanosti představenstva o spuštění ChatGPT.
  • Situace vyvolala diskuse o transparentnosti organizací, dohledu správních rad a etickém řízení a přirovnává se ke krachům společností, jako je Enron.
  • Vedle debat o technické způsobilosti a úloze správní rady panuje skepse ohledně důvěryhodnosti a bezpečnosti společnosti OpenAI, odchodů zaměstnanců a kritiky Altmanova vedení.

Únik informací o vyhledávání Google odhaluje tajemství algoritmu řazení a 2 596 modulů

  • Velký únik interních dokumentů vyhledávače Google odhalil kritické aspekty algoritmu hodnocení společnosti Google, včetně používání kliknutí, odkazů, obsahu, entit a údajů z prohlížeče Chrome.
  • Odborníci z oboru Rand Fishkin a Michael King analyzovali dokumenty a odhalili 2 596 modulů hodnocení, význam rozmanitosti odkazů, relevance, úspěšných kliknutí a známosti značky.
  • Dokumenty také odhalují, jak Google používá informace o autorech, autoritu webu a "twiddlers" k úpravě hodnocení, což nabízí cenné informace pro SEO, přestože není známa přesná váha faktorů hodnocení.

Reakce

  • Uniklý dokument vyhledávače Google rozpoutal debaty o algoritmu řazení a vlivu reklamního programu společnosti Google na výsledky vyhledávání.
  • Uživatelé diskutují o alternativách, jako je Kagi a search.marginalia.nu, přičemž se různí názory na přizpůsobení Kagi, jeho nekomerční zaměření a problémy se spamem a obsahem generovaným umělou inteligencí.
  • Rozhovor zdůrazňuje touhu po vyhledávačích, které upřednostňují preference uživatelů před příjmy z reklamy, a dotýká se manipulace se SEO, potenciálu velkých jazykových modelů (LLM) a obav o pravost online recenzí a kritérií hodnocení společnosti Google.

ChatTTS: Pokročilý open-source TTS model pro přirozený dialog v angličtině a čínštině

  • ChatTTS je model převodu textu na řeč (TTS) optimalizovaný pro dialogy, podporující angličtinu i čínštinu a vycvičený na více než 100 000 hodinách dat.
  • Verze s otevřeným zdrojovým kódem na portálu HuggingFace obsahuje 40 000 hodin předtrénovaného modelu, který vyniká přirozenou a expresivní syntézou řeči s jemnou prozodickou kontrolou.
  • Model je určen pouze pro akademické účely, v budoucnu se plánuje otevření dalších funkcí a zlepšení stability.

Reakce

  • V diskusi je zdůrazněn vývoj a výkon modelů TTS, jako jsou ChatTTS a Piper TTS, a jsou zmíněny problémy, jako je pomalé zpracování a problémy s kvalitou hlasu.
  • Uživatelé zdůrazňují potřebu vysoce kvalitních TTS ve více jazycích a diskutují o efektivitě lidských hlasů oproti automatickým hlasům v audioknihách.
  • Je zde kritika zavádějících tvrzení o "open-source" v projektech TTS a výzva k vytvoření komplexního seznamu skutečně open-source modelů a dat TTS.

Google mlčí k údajnému úniku 2 500 stránek s podrobnými informacemi o vyhledávacím algoritmu

  • Únik 2 500 stránek interních dokumentů společnosti Google, které sdílel odborník na SEO Rand Fishkin, může odhalit nesrovnalosti mezi veřejnými prohlášeními společnosti Google a jejími skutečnými postupy týkajícími se vyhledávacích algoritmů.
  • Dokumenty naznačují používání údajů z prohlížeče Chrome při sestavování žebříčků a sledování informací o autorech, což zpochybňuje předchozí tvrzení společnosti Google a vyvolává debatu o transparentnosti společnosti.
  • Společnost Google se k oprávněnosti dokumentů nevyjádřila a tento incident poukazuje na přetrvávající obavy ohledně neprůhlednosti vyhledávacích operací společnosti Google v souvislosti s antimonopolní kontrolou.

Reakce

  • Únik dokumentace vyhledávacího algoritmu společnosti Google odhalil možné nesrovnalosti mezi veřejnými prohlášeními společnosti Google a jejími skutečnými postupy.
  • Únik informací naznačuje, že zástupci společnosti Google možná zdiskreditovali přesná zjištění marketingové, technické a novinářské komunity, což vyvolává etické obavy ohledně manipulace se SEO.
  • V právních diskusích na serveru GitHub se diskutuje o významu a legálnosti úniku a názory na jeho dopad na status obchodního tajemství a ochranu autorských práv se různí.