2024-05-29

Sluchátka s umělou inteligencí izolují jednoho mluvčího v davu pomocí detekce pohledu

Washingtonská univerzita (UW) vyvinula systém umělé inteligence s názvem "Target Speech Hearing", který pomáhá uživatelům soustředit se na jednoho mluvčího v hlučném prostředí tím, že se na něj tři až pět sekund dívají.
Tento systém, který byl představen na konferenci ACM CHI, využívá strojové učení k izolaci a zesílení hlasu požadovaného řečníka v reálném čase, a to i při pohybu uživatele.
V současné době je tato technologie ve fázi ověřování koncepce a byla testována na 21 subjektech, které zaznamenaly výrazné zlepšení srozumitelnosti, přičemž v budoucnu se plánuje rozšíření na sluchátka a naslouchátka.

Reakce

Text se zabývá strategiemi a technologiemi pro zlepšení sluchových zážitků v hlučném prostředí a zaměřuje se na sluchátka s umělou inteligencí, pokročilý zvukový design a technologie pro potlačení hluku.
Upozorňuje na problémy spojené s moderními materiály v restauracích, které přispívají k hluku, a na používání technik tlumení zvuku navzdory problémům s údržbou a estetikou.
Diskutuje se o technologickém pokroku, jako jsou směrové mikrofony, rozpoznávání řeči v reálném čase a selektivní filtrování zvuku, a o obavách týkajících se soukromí a možného zneužití.

Bývalý člen představenstva OpenAI odhaluje lži a pochybení, které stály za krátkým sesazením Sama Altmana z funkce

Bývalá členka správní rady OpenAI Helen Tonerová prozradila, že Sam Altman byl krátce odvolán z funkce generálního ředitele kvůli četným případům nečestného jednání a zatajování informací před správní radou.
Příklady zahrnovaly, že se správní rada dozvěděla o vydání ChatGPT prostřednictvím Twitteru a Altman nezveřejnil svůj finanční zájem ve společnosti, spolu s obviněními z poskytování nepřesných bezpečnostních informací a "psychického týrání" ze strany dvou vedoucích pracovníků.
Altman byl po necelém týdnu znovu jmenován generálním ředitelem poté, co zaměstnanci pohrozili výpovědí a Microsoft projevil zájem o zaměstnání jeho týmu; Toner krátce po jeho návratu rezignoval.

Reakce

Generální ředitel společnosti OpenAI Sam Altman byl krátce odvolán a poté znovu přijat, což odhalilo napětí mezi pravomocemi správní rady a vlivem klíčových investorů a zakladatelů.
Špatný postup správní rady při Altmanově propuštění vedl k výrazné reakci zaměstnanců a hrozbám hromadné rezignace, což podtrhuje složitou dynamiku řízení společnosti, vlivu zaměstnanců a finančních zájmů.
Incident vyvolal širší diskusi o vedení v technologiích, etických důsledcích bezohledného chování a roli komunikace a etiky v řízení firem.

Přehodnocení přesměrování HTTP na HTTPPS pro rozhraní API s cílem zvýšit zabezpečení

Přesměrování z protokolu HTTP na protokol HTTPPS může vést k odhalení citlivých dat nebo umožnit útoky typu Man-In-The-Middle (MITM), zejména v případě rozhraní API, ke kterým přistupuje software, který nemusí zpracovávat bezpečnostní hlavičky.
Techniky jako HSTS (HTTP Strict Transport Security) a režimy HTTPS-Only zlepšují zabezpečení, ale pro rozhraní API nemusí být dostačující, což zdůrazňuje potřebu rychlého přístupu k včasnému odhalení chyb.
Osvědčené postupy by měly být aktualizovány tak, aby doporučovaly, aby rozhraní API zcela odmítala nešifrované požadavky a odvolávala pověření API odeslaná přes nešifrovaná připojení, aby se zabránilo bezpečnostním rizikům.

Reakce

V diskusi je kladen důraz na zvýšení zabezpečení rozhraní API přesměrováním protokolu HTTP na protokol HTTPS a zrušením klíčů API odesílaných prostřednictvím protokolu HTTP, aby se zabránilo útokům typu MITM (Man-in-the-Middle).
Zdůrazňuje význam správné správy klíčů API, používání podepsaných hashů, noncesů a časových značek pro ověřování a nezbytnost protokolu HTTPS pro integritu dat a ochranu soukromí.
V rozhovoru se kritizuje spoléhání se na certifikační autority a navrhují se praktická řešení, jako jsou jedinečné adresy URL nebo klíče API pro bezpečné řízení přístupu ve specifických kontextech.

Llama3-V: Multimodální model za 500 dolarů se výkonem vyrovná GPT-4V

Llama3-V je nový multimodální model založený na Llama3, který je navržen tak, aby konkuroval větším modelům, jako je GPT-4V, ale za výrazně nižší cenu (pod 500 USD).
Ve srovnávacích testech multimodálního porozumění překonává současný nejmodernější model Llava o 10-20 %, přičemž využívá SigLIP pro vkládání obrázků a vyrovnávání vizuálních a textových tokenů prostřednictvím projekčního bloku s vrstvami vlastní pozornosti.
Klíčové optimalizace zahrnují předvýpočet vložených obrazů a využití MPS/MLX pro efektivní trénink, přičemž tréninkový proces zahrnuje předtrénink na 600 000 příkladech a doladění pod dohledem na 1 milionu příkladů.

Reakce

Článek porovnává různé modely multimodální umělé inteligence a zaměřuje se na Llama 3-V, který se snaží vyrovnat výkonu GPT-4V, ale je menší a levnější.
Zdůrazňuje, že modely jako InternVL-1.5 a CogVLM překonávají model Llava, přičemž konkrétní modely vynikají v úlohách jako OCR (optické rozpoznávání znaků) a porozumění grafickému uživatelskému rozhraní (GUI).
Uživatelé diskutují o praktických aplikacích, omezeních a nákladové efektivitě těchto modelů, včetně použití GPT-4V ve výrobě pro vizuální úlohy a účinnosti moderních nástrojů OCR, jako jsou PaddleOCR a TrOCR.

Mistral AI představuje Codestral: Výkonná generativní umělá inteligence pro generování kódu

Společnost Mistral AI uvedla 29. května 2024 na trh Codestral, otevřený generativní model umělé inteligence pro generování kódu vycvičený na více než 80 programovacích jazycích.
Codestral nabízí model o velikosti 22B a kontextové okno 32k, čímž překonává konkurenci v benchmarcích, jako jsou RepoBench a HumanEval.
Codestral je k dispozici pod licencí Mistral AI Non-Production License a lze k němu přistupovat prostřednictvím vyhrazeného koncového bodu nebo jej integrovat do nástrojů, jako jsou VSCode a JetBrains, přičemž vývojáři si pochvalují jeho rychlost, přesnost a dopad na produktivitu.

Reakce

Model kódu společnosti Mistral, který zveřejnila společnost mistral.ai, má restriktivní licenci zakazující komerční použití, živé podmínky a interní použití ve společnosti, což omezuje jeho praktické využití a vyvolává kritiku.
Debata o licenci společnosti Mistral poukazuje na širší otázky autorských práv a licencí v oblasti obsahu vytvářeného umělou inteligencí a na zneužívání termínu "open-source" v oblasti umělé inteligence.
Uživatelé vyjadřují frustraci z nekonzistentního generování kódu umělou inteligencí, zejména u složitých úloh, a diskutují o omezeních a možnostech různých modelů umělé inteligence, včetně modelů Llama společnosti Meta a GPT společnosti OpenAI.

Klíčové poznatky z roku práce s velkými jazykovými modely (část I)

Článek "What We Learned from a Year of Building with LLMs (Part I)" od Eugena Yana a jeho kolegů se zabývá rychlým pokrokem a praktickými aplikacemi velkých jazykových modelů (LLM) a zároveň problémy při vývoji efektivních produktů umělé inteligence.
Klíčové lekce zahrnují osvědčené postupy v oblasti podnětů, generování rozšířeného vyhledávání (RAG), techniky toku a vyhodnocování, přičemž je kladen důraz na techniky, jako jsou podněty typu n-shot a podněty řetězce myšlenek.
Článek také poskytuje provozní rady týkající se správy agentů AI, zdokonalování výzev, vylaďování modelů a snižování nákladů a latence pomocí ukládání do mezipaměti, přičemž klade důraz na praktická hodnocení a přístupy zaměřené na člověka.

Reakce

Poznatky z roční práce s velkými jazykovými modely (LLM) zdůrazňují význam vícenásobného výběru vzorků pro snížení míry halucinací a vytváření zdůvodnění před rozhodnutím pro přesnější výsledky.
Článek se zabývá problémy při vyhodnocování výstupů LLM, vlivem teploty na náhodnost výstupu a mylnými představami o vzorkování, jakož i zkušenostmi s použitím nástrojů, jako jsou patchboty a vyhledávání paprskem.
Zabývá se obavami v odvětví, jako je vysoká chybovost, investice vyvolané FOMO a agresivní snaha společností, jako je Google, integrovat umělou inteligenci navzdory možným problémům s kvalitou služeb.

Odborník varuje: "Návrat do zaměstnání hrozí ztrátou špičkových talentů

Profesor Kevin Murphy z University of Limerick tvrdí, že pracovníci na dálku jsou produktivnější a spokojenější než ti, kteří pracují v kancelářích.
Snaha o návrat do kanceláře (RTO) po pandemii hrozí ztrátou špičkových talentů, protože mnoho zaměstnanců nyní odmítá tradiční kancelářské normy.
Vedoucí pracovníci by měli poskytnout přesvědčivé důvody a pobídky pro návrat do kanceláře a vzít na vědomí změnu dynamiky moci ve prospěch zaměstnanců, jinak riskují, že ztratí cenné talenty ve prospěch flexibilnějších konkurentů.

Reakce

Debata mezi prací na dálku a mandáty pro návrat do kanceláře (RTO) se vede o flexibilitě, pohodlí a potenciální ztrátě zaměstnanců, kteří preferují práci na dálku.
Dojíždění do zaměstnání je pro někoho duševním odpočinkem, pro jiné však představuje problém, jako je znečištění, vysoké náklady a neurčité hranice, což ovlivňuje rovnováhu mezi pracovním a soukromým životem a kariérní růst.
Práce na dálku je považována za efektivnější a udržitelnější, nabízí výhody, jako je více času pro rodinu a snížení emisí uhlíku, ale může zanedbávat mladší zaměstnance a vyžadovat jasnou komunikaci o výhodách RTO.

Kanadský návrh zákona C-26: Kontroverzní pravomoc instalovat zadní vrátka do sítě za účelem sledování

Návrh zákona C-26, kanadský federální zákon o kybernetické bezpečnosti, uděluje vládě pravomoc nutit telekomunikační společnosti instalovat zadní vrátka do šifrovaných sítí, což může ohrozit bezpečnost.
Kritici, včetně laboratoře Citizen Lab Torontské univerzity, tvrdí, že tato opatření by oslabila šifrování 5G a další bezpečnostní prvky, což by zvýšilo zranitelnost vůči kybernetickým hrozbám.
Navzdory varování odborníků byl návrh zákona schválen bez pozměňovacích návrhů, což je v rozporu s pro-šifrovacím postojem Kanady a potenciálně vytváří nebezpečný precedens pro další země.

Reakce

Kanadská vláda se snaží získat oprávnění k vytvoření tajných zadních vrátek v telekomunikačních sítích pro sledování, čímž obchází tradiční právní dohled, což vyvolává značné obavy o ochranu soukromí a možnost zneužití ze strany orgánů činných v trestním řízení.
Kritici tvrdí, že by to mohlo vést k invazivnímu sledování podobnému praktikám NSA, což zahrnuje debaty o kanadské ústavě, "doložce o neporušení" a možnostech zákonného odposlechu.
Diskuse zahrnuje historické příklady sledování, jako například během protestů řidičů kamionů, a širší témata nadměrné moci, soukromí a reakce společnosti na autoritu.

Tři základní zákony, kterými se řídí nevyhnutelná složitost softwarových systémů

Článek se zabývá třemi základními zákonitostmi, které přispívají ke zbytečné složitosti softwarového inženýrství, zejména v infrastrukturních systémech.
První zákon: Dobře navržené systémy se v důsledku neustálých úprav časem mění na špatně navržené.
Druhý zákon: Složitost roste, když úspěšné systémy upřednostňují podíl na trhu před dobrým návrhem abstrakce, což vede k obtížně modifikovatelným systémům.
Třetí zákon: Složitost softwaru nemá horní hranici, což je dáno různými schopnostmi a filozofií vývojářů a vede ke složitým návrhům.

Reakce

Diskuse se zabývá výzvami spojenými s řízením složitosti softwaru, zejména u starších systémů, a kompromisy mezi náklady a kvalitou, které často vedou k technickému dluhu.
Zdůrazňuje význam inkrementálního refaktoringu, udržování silné inženýrské kultury a rozlišování mezi zásadní a náhodnou složitostí pro efektivní správu softwaru.
Účastníci zdůrazňují nutnost průběžné údržby, dopad špatných rozhodnutí při vývoji a roli podpory vedení při zdůvodňování úsilí o refaktorizaci.

Od startu po prodej: Cesta Michaela Lynche s firmou TinyPilot

Michael Lynch vytvořil v polovině roku 2020 zařízení TinyPilot pro vzdálené ovládání serverů, které si rychle získalo popularitu a rozrostlo se do firmy s ročním obratem 1 milion dolarů a sedmičlenným týmem.
Lynch prodal společnost TinyPilot za 600 tisíc dolarů, což po odečtení nákladů činilo 490 803 dolarů, kvůli stresu z řízení hardwarové firmy a touze vrátit se k programování a založit rodinu.
Prodej, který zprostředkovala makléřská společnost Quiet Light Brokerage, zahrnoval výzvy, jako je vyvážení stresu zakladatele, nalezení kupujícího a zvládnutí due diligence; kupujícím byl Scott, profesionál v oblasti firemních médií.

Reakce

Michael Lynch prodal svůj podnik TinyPilot a hovořil o značných nákladech spojených s prodejem, včetně provizí makléřům a právních poplatků, které činily přibližně 18 % prodejní ceny.
Lynchova podnikatelská cesta zahrnovala přechod od dobře placeného zaměstnání ve společnosti Google k ocenění autonomie a kreativity, zdůraznění vzdělávací hodnoty podnikání a kritiku zaměření technologického průmyslu na celkové odměňování.
Lynch plánuje v budoucnu podnikat se zaměřením na vzdělávací produkty a software jako službu (SaaS) a vyhnout se hardwaru kvůli jeho složitosti a náročnosti.

Bývalý člen představenstva OpenAI odhaluje důvody vyhazovu Sama Altmana a jeho opětovného jmenování do funkce

V listopadu 2023 představenstvo společnosti OpenAI nečekaně propustilo generálního ředitele Sama Altmana s odvoláním na "otevřené lhaní" a manipulativní chování, které narušilo důvěru.
Konkrétní problémy se týkaly Altmanova nezveřejněného vlastnictví fondu OpenAI Startup Fund, poskytování nepřesných informací o bezpečnosti a vytváření toxického pracovního prostředí.
Navzdory těmto obviněním vedly interní a externí tlaky, včetně podpory ze strany zaměstnanců a společnosti Microsoft, k Altmanovu opětovnému jmenování do funkce, přičemž nezávislý přezkum neshledal žádné problémy s bezpečností výrobků nebo provozem společnosti.

Reakce

Bývalý člen představenstva OpenAI prozradil, že Sam Altman byl odvolán kvůli nečestnosti, což vyvolává otázky ohledně informovanosti představenstva o spuštění ChatGPT.
Situace vyvolala diskuse o transparentnosti organizací, dohledu správních rad a etickém řízení a přirovnává se ke krachům společností, jako je Enron.
Vedle debat o technické způsobilosti a úloze správní rady panuje skepse ohledně důvěryhodnosti a bezpečnosti společnosti OpenAI, odchodů zaměstnanců a kritiky Altmanova vedení.

Únik informací o vyhledávání Google odhaluje tajemství algoritmu řazení a 2 596 modulů

Velký únik interních dokumentů vyhledávače Google odhalil kritické aspekty algoritmu hodnocení společnosti Google, včetně používání kliknutí, odkazů, obsahu, entit a údajů z prohlížeče Chrome.
Odborníci z oboru Rand Fishkin a Michael King analyzovali dokumenty a odhalili 2 596 modulů hodnocení, význam rozmanitosti odkazů, relevance, úspěšných kliknutí a známosti značky.
Dokumenty také odhalují, jak Google používá informace o autorech, autoritu webu a "twiddlers" k úpravě hodnocení, což nabízí cenné informace pro SEO, přestože není známa přesná váha faktorů hodnocení.

Reakce

Uniklý dokument vyhledávače Google rozpoutal debaty o algoritmu řazení a vlivu reklamního programu společnosti Google na výsledky vyhledávání.
Uživatelé diskutují o alternativách, jako je Kagi a search.marginalia.nu, přičemž se různí názory na přizpůsobení Kagi, jeho nekomerční zaměření a problémy se spamem a obsahem generovaným umělou inteligencí.
Rozhovor zdůrazňuje touhu po vyhledávačích, které upřednostňují preference uživatelů před příjmy z reklamy, a dotýká se manipulace se SEO, potenciálu velkých jazykových modelů (LLM) a obav o pravost online recenzí a kritérií hodnocení společnosti Google.

ChatTTS: Pokročilý open-source TTS model pro přirozený dialog v angličtině a čínštině

ChatTTS je model převodu textu na řeč (TTS) optimalizovaný pro dialogy, podporující angličtinu i čínštinu a vycvičený na více než 100 000 hodinách dat.
Verze s otevřeným zdrojovým kódem na portálu HuggingFace obsahuje 40 000 hodin předtrénovaného modelu, který vyniká přirozenou a expresivní syntézou řeči s jemnou prozodickou kontrolou.
Model je určen pouze pro akademické účely, v budoucnu se plánuje otevření dalších funkcí a zlepšení stability.

Reakce

V diskusi je zdůrazněn vývoj a výkon modelů TTS, jako jsou ChatTTS a Piper TTS, a jsou zmíněny problémy, jako je pomalé zpracování a problémy s kvalitou hlasu.
Uživatelé zdůrazňují potřebu vysoce kvalitních TTS ve více jazycích a diskutují o efektivitě lidských hlasů oproti automatickým hlasům v audioknihách.
Je zde kritika zavádějících tvrzení o "open-source" v projektech TTS a výzva k vytvoření komplexního seznamu skutečně open-source modelů a dat TTS.

Google mlčí k údajnému úniku 2 500 stránek s podrobnými informacemi o vyhledávacím algoritmu

Únik 2 500 stránek interních dokumentů společnosti Google, které sdílel odborník na SEO Rand Fishkin, může odhalit nesrovnalosti mezi veřejnými prohlášeními společnosti Google a jejími skutečnými postupy týkajícími se vyhledávacích algoritmů.
Dokumenty naznačují používání údajů z prohlížeče Chrome při sestavování žebříčků a sledování informací o autorech, což zpochybňuje předchozí tvrzení společnosti Google a vyvolává debatu o transparentnosti společnosti.
Společnost Google se k oprávněnosti dokumentů nevyjádřila a tento incident poukazuje na přetrvávající obavy ohledně neprůhlednosti vyhledávacích operací společnosti Google v souvislosti s antimonopolní kontrolou.

Reakce

Únik dokumentace vyhledávacího algoritmu společnosti Google odhalil možné nesrovnalosti mezi veřejnými prohlášeními společnosti Google a jejími skutečnými postupy.
Únik informací naznačuje, že zástupci společnosti Google možná zdiskreditovali přesná zjištění marketingové, technické a novinářské komunity, což vyvolává etické obavy ohledně manipulace se SEO.
V právních diskusích na serveru GitHub se diskutuje o významu a legálnosti úniku a názory na jeho dopad na status obchodního tajemství a ochranu autorských práv se různí.