2024-05-29

Slúchadlá s umelou inteligenciou izolujú jedného hovoriaceho v dave pomocou detekcie pohľadu

Washingtonská univerzita (UW) vyvinula systém umelej inteligencie s názvom "Target Speech Hearing", ktorý pomáha používateľom sústrediť sa na jedného hovoriaceho v hlučnom prostredí tak, že sa na neho pozerajú tri až päť sekúnd.
Tento systém, ktorý bol predstavený na konferencii ACM CHI, využíva strojové učenie na izoláciu a zosilnenie hlasu požadovaného rečníka v reálnom čase, dokonca aj keď sa používateľ pohybuje.
V súčasnosti je táto technológia vo fáze overovania koncepcie a bola testovaná na 21 účastníkoch, ktorí zaznamenali výrazne lepšiu zrozumiteľnosť, pričom v budúcnosti sa plánuje jej rozšírenie na slúchadlá a načúvacie prístroje.

Reakcie

V texte sa skúmajú stratégie a technológie na zlepšenie sluchových zážitkov v hlučnom prostredí so zameraním na slúchadlá s umelou inteligenciou, pokročilý zvukový dizajn a technológie na potláčanie hluku.
Poukazuje na problémy spojené s modernými materiálmi v reštauráciách, ktoré prispievajú k hluku, a na používanie techník tlmenia hluku napriek problémom s údržbou a estetikou.
Diskutuje sa o technologickom pokroku, ako sú smerové mikrofóny, rozpoznávanie reči v reálnom čase a selektívne filtrovanie zvuku, ako aj o obavách týkajúcich sa súkromia a možného zneužitia.

Bývalý člen predstavenstva OpenAI odhalil lži a pochybenia, ktoré stáli za krátkym odvolaním Sama Altmana

Bývalá členka predstavenstva spoločnosti OpenAI Helen Tonerová prezradila, že Sam Altman bol nakrátko odvolaný z funkcie generálneho riaditeľa kvôli viacerým prípadom nečestnosti a zatajovania informácií pred predstavenstvom.
Príkladom bolo, že sa správna rada dozvedela o prepustení ChatGPT prostredníctvom Twitteru a Altman nezverejnil svoj finančný podiel v spoločnosti, ako aj obvinenia z poskytovania nepresných informácií o bezpečnosti a "psychického zneužívania" zo strany dvoch vedúcich pracovníkov.
Altman bol po necelom týždni opätovne vymenovaný za výkonného riaditeľa po tom, čo zamestnanci pohrozili výpoveďou a spoločnosť Microsoft prejavila záujem o zamestnanie jeho tímu; Toner krátko po jeho návrate odstúpil.

Reakcie

Generálny riaditeľ spoločnosti OpenAI Sam Altman bol nakrátko odvolaný a potom znovu prijatý, čo odhalilo napätie medzi právomocami správnej rady a vplyvom kľúčových investorov a zakladateľov.
Nesprávny postup správnej rady pri prepustení Altmana viedol k výraznej reakcii zamestnancov a hrozbám hromadnej výpovede, čo poukázalo na zložitú dynamiku riadenia spoločnosti, vplyv zamestnancov a finančné záujmy.
Incident vyvolal širšie diskusie o vedení v oblasti technológií, etických dôsledkoch bezohľadného správania a úlohe komunikácie a etiky v riadení spoločností.

Prehodnotenie presmerovania HTTP na HTTPPS pre rozhrania API s cieľom zvýšiť bezpečnosť

Presmerovanie z protokolu HTTP na protokol HTTPPS môže viesť k odhaleniu citlivých údajov alebo umožniť útoky typu Man-In-The-Middle (MITM), najmä v prípade rozhraní API, ku ktorým pristupuje softvér, ktorý nemusí pracovať s bezpečnostnými hlavičkami.
Techniky ako HSTS (HTTP Strict Transport Security) a režimy HTTPS-Only zlepšujú bezpečnosť, ale nemusia byť dostatočné pre API, čo poukazuje na potrebu rýchleho prístupu na včasné zachytenie chýb.
Najlepšie postupy by sa mali aktualizovať tak, aby sa API odporúčalo úplne odmietnuť nešifrované požiadavky a zrušiť poverenia API odoslané cez nešifrované spojenia, aby sa predišlo bezpečnostným rizikám.

Reakcie

V diskusii sa zdôrazňuje zvýšenie bezpečnosti API presmerovaním protokolu HTTP na HTTPS a zrušením kľúčov API odoslaných cez HTTP, aby sa zabránilo útokom typu Man-in-the-Middle (MITM).
Zdôrazňuje význam správnej správy kľúčov API, používania podpísaných hashov, noncesov a časových značiek na overovanie a nevyhnutnosť protokolu HTTPS na zabezpečenie integrity a súkromia údajov.
V rozhovore sa kritizuje spoliehanie sa na certifikačné autority a navrhujú sa praktické riešenia, ako sú jedinečné adresy URL alebo kľúče API na bezpečné riadenie prístupu v konkrétnych kontextoch.

Lama3-V: Multimodálny model za 500 dolárov sa výkonnostne vyrovná GPT-4V

Llama3-V je nový multimodálny model založený na Llama3, ktorý je navrhnutý tak, aby konkuroval väčším modelom, ako je GPT-4V, ale za výrazne nižšiu cenu (pod 500 USD).
V referenčných testoch multimodálneho porozumenia prekonáva súčasný špičkový model Llava o 10 - 20 %, pričom na vkladanie obrázkov a zosúladenie vizuálnych a textových tokenov využíva SigLIP prostredníctvom projekčného bloku s vrstvami vlastnej pozornosti.
Kľúčové optimalizácie zahŕňajú predvýpočet vložených obrázkov a využitie MPS/MLX na efektívne trénovanie, pričom proces trénovania zahŕňa predtrénovanie na 600 000 príkladoch a dolaďovanie pod dohľadom na 1 milióne príkladov.

Reakcie

V článku sa porovnávajú rôzne multimodálne modely umelej inteligencie so zameraním na Llama 3-V, ktorý sa snaží vyrovnať výkonu GPT-4V, ale je menší a lacnejší.
Zdôrazňuje, že modely ako InternVL-1.5 a CogVLM prekonávajú model Llava, pričom konkrétne modely vynikali v úlohách ako OCR (optické rozpoznávanie znakov) a porozumenie grafickému používateľskému rozhraniu (GUI).
Používatelia diskutujú o praktických aplikáciách, obmedzeniach a nákladovej efektívnosti týchto modelov vrátane použitia GPT-4V vo výrobe na vizuálne úlohy a účinnosti moderných nástrojov OCR, ako sú PaddleOCR a TrOCR.

Spoločnosť Mistral AI predstavuje Codestral: Výkonnú generatívnu umelú inteligenciu na generovanie kódu

1. mája 2024 spoločnosť Mistral AI spustila Codestral, generatívny model AI s otvorenou váhou na generovanie kódu, ktorý je vycvičený na viac ako 80 programovacích jazykov.
Codestral má veľkosť modelu 22B a kontextové okno 32k, čím prekonáva konkurenciu v benchmarkoch ako RepoBench a HumanEval.
Codestral je k dispozícii pod licenciou Mistral AI Non-Production License a možno k nemu pristupovať prostredníctvom vyhradeného koncového bodu alebo ho integrovať do nástrojov ako VSCode a JetBrains, pričom vývojári si pochvaľujú jeho rýchlosť, presnosť a vplyv na produktivitu.

Reakcie

Model kódu Mistral, ktorý zverejnila spoločnosť mistral.ai, má obmedzujúcu licenciu zakazujúcu komerčné použitie, živé podmienky a interné použitie v spoločnosti, čo obmedzuje jeho praktické využitie a vyvoláva kritiku.
Diskusia o licencii spoločnosti Mistral poukazuje na širšie otázky autorských práv a licencií v oblasti obsahu vytvoreného umelou inteligenciou a na nesprávne používanie pojmu "open-source" v oblasti umelej inteligencie.
Používatelia vyjadrujú frustráciu z nekonzistentného generovania kódu AI, najmä pri zložitých úlohách, a diskutujú o obmedzeniach a možnostiach rôznych modelov AI vrátane modelov Llama spoločnosti Meta a GPT spoločnosti OpenAI.

Kľúčové poznatky z ročného budovania veľkých jazykových modelov (časť I)

V článku "Čo sme sa naučili z roka budovania s LLM (časť I)" Eugene Yan a jeho kolegovia skúmajú rýchly pokrok a praktické aplikácie veľkých jazykových modelov (LLM) a zároveň sa zaoberajú výzvami pri vývoji efektívnych produktov umelej inteligencie.
Kľúčové lekcie zahŕňajú osvedčené postupy v oblasti podnetov, generovania s rozšíreným vyhľadávaním (RAG), inžinierstva toku a hodnotenia, pričom sa zdôrazňujú techniky, ako sú podnety n-shot a podnety myšlienkového reťazca.
Článok poskytuje aj prevádzkové rady týkajúce sa riadenia agentov umelej inteligencie, zdokonaľovania výziev, ladenia modelov a znižovania nákladov a latencie prostredníctvom ukladania do vyrovnávacej pamäte, pričom kladie dôraz na praktické hodnotenia a prístupy zamerané na človeka.

Reakcie

Poznatky z ročnej práce s veľkými jazykovými modelmi (LLM) poukazujú na dôležitosť viacnásobného výberu vzoriek na zníženie miery halucinácií a vytváranie odôvodnení pred rozhodnutiami pre presnejšie výsledky.
Článok sa zaoberá problémami pri vyhodnocovaní výstupov LLM, vplyvom teploty na náhodnosť výstupu a nesprávnymi predstavami o vzorkovaní spolu so skúsenosťami s používaním nástrojov, ako sú patchboty a vyhľadávanie pomocou lúča.
Zaoberá sa obavami v odvetví, ako je vysoká chybovosť, investície spôsobené FOMO a agresívne snahy spoločností ako Google integrovať umelú inteligenciu napriek potenciálnym problémom s kvalitou služieb.

Odborník varuje, že mandáty na návrat do zamestnania predstavujú riziko straty špičkových talentov

Profesor Kevin Murphy z Limerickej univerzity tvrdí, že pracovníci na diaľku sú v porovnaní s pracovníkmi v kanceláriách produktívnejší a spokojnejší.
Tlak na zavedenie mandátov na návrat do kancelárií (RTO) po skončení pandémie predstavuje riziko straty najlepších talentov, keďže mnohí zamestnanci v súčasnosti odmietajú tradičné kancelárske normy.
Vedúci pracovníci by mali poskytnúť presvedčivé dôvody a stimuly pre návrat do kancelárie, pričom by mali uznať zmenu dynamiky moci v prospech zamestnancov, inak riskujú stratu cenných talentov v prospech flexibilnejších konkurentov.

Reakcie

Diskusia medzi prácou na diaľku a mandátmi na návrat do kancelárie (RTO) sa sústreďuje na flexibilitu, pohodlie a potenciálnu stratu zamestnancov, ktorí uprednostňujú prácu na diaľku.
Pre niektorých je dochádzanie do zamestnania psychickým oddychom, pre iných však predstavuje problém, ako je znečistenie, vysoké náklady a neurčité hranice, čo ovplyvňuje rovnováhu medzi pracovným a súkromným životom a kariérny rast.
Práca na diaľku sa považuje za efektívnejšiu a udržateľnejšiu, ponúka výhody, ako je viac času pre rodinu a zníženie emisií uhlíka, ale môže zanedbávať mladších zamestnancov a vyžadovať jasnú komunikáciu o výhodách RTO.

Kanadský návrh zákona C-26: Kontroverzné právomoci na inštaláciu zadných dverí do siete na účely sledovania

Návrh zákona C-26, federálny zákon o kybernetickej bezpečnosti v Kanade, udeľuje vláde právomoc nútiť telekomunikačné spoločnosti inštalovať zadné vrátka do šifrovaných sietí, čo môže ohroziť bezpečnosť.
Kritici vrátane Citizen Lab z Torontskej univerzity tvrdia, že tieto opatrenia by oslabili šifrovanie 5G a ďalšie bezpečnostné prvky, čím by sa zvýšila zraniteľnosť voči kybernetickým hrozbám.
Napriek varovaniam odborníkov bol návrh zákona schválený bez pozmeňujúcich a doplňujúcich návrhov, čo je v rozpore s prošifrovacím postojom Kanady a môže vytvoriť nebezpečný precedens pre ostatné krajiny.

Reakcie

Kanadská vláda sa snaží získať oprávnenie na vytvorenie tajných zadných dverí v telekomunikačných sieťach na účely sledovania, čím obchádza tradičný právny dohľad, čo vyvoláva značné obavy o ochranu súkromia a možnosť zneužitia orgánmi presadzovania práva.
Kritici tvrdia, že by to mohlo viesť k invazívnemu monitorovaniu podobnému praktikám NSA, čo zahŕňa diskusie o kanadskej ústave, "klauzule o neporušení" a možnostiach zákonného odpočúvania.
Diskusia zahŕňa historické príklady sledovania, ako napríklad počas protestov kamionistov, a širšie témy nadmerného zásahu vlády, súkromia a reakcií spoločnosti na autoritu.

Tri základné zákony, ktorými sa riadi nevyhnutná zložitosť softvérových systémov

Článok sa zaoberá tromi základnými zákonmi, ktoré prispievajú k zbytočnej zložitosti softvérového inžinierstva, najmä v infraštruktúrnych systémoch.
Prvý zákon: Dobre navrhnuté systémy sa v dôsledku neustálych úprav časom zmenia na zle navrhnuté systémy.
Druhý zákon: Zložitosť sa zvyšuje, keď úspešné systémy uprednostňujú podiel na trhu pred dobrým návrhom abstrakcie, čo vedie k ťažko modifikovateľným systémom.
Tretí zákon: Zložitosť softvéru nemá hornú hranicu, čo je spôsobené rôznymi schopnosťami a filozofiou vývojárov, čo vedie k zložitým návrhom.

Reakcie

Diskusia sa zaoberá výzvami riadenia zložitosti softvéru, najmä v starších systémoch, a kompromismi medzi nákladmi a kvalitou, ktoré často vedú k technickému dlhu.
Zdôrazňuje dôležitosť inkrementálneho refaktorovania, udržiavania silnej inžinierskej kultúry a rozlišovania medzi podstatnou a náhodnou zložitosťou pre efektívne riadenie softvéru.
Účastníci zdôrazňujú nevyhnutnosť nepretržitej údržby, vplyv zlých rozhodnutí pri vývoji a úlohu podpory manažmentu pri zdôvodňovaní úsilia o refaktorovanie.

Od spustenia po predaj: Cesta Michaela Lyncha s TinyPilotom

Michael Lynch vytvoril v polovici roka 2020 zariadenie TinyPilot na vzdialené ovládanie serverov, ktoré si rýchlo získalo popularitu a rozrástlo sa na firmu s ročným obratom 1 milión dolárov a sedemčlenným tímom.
Lynch predal spoločnosť TinyPilot za 600-tisíc dolárov, pričom po odpočítaní nákladov získal 490 803 dolárov, a to z dôvodu stresu z riadenia hardvérového podniku a túžby vrátiť sa k programovaniu a založiť si rodinu.
Predaj, ktorý sprostredkovala maklérska spoločnosť Quiet Light Brokerage, zahŕňal výzvy, ako je vyváženie stresu zakladateľa, nájdenie kupujúceho a zvládnutie due diligence; kupujúcim bol Scott, odborník na firemné médiá.

Reakcie

Michael Lynch predal svoju firmu TinyPilot a hovoril o značných nákladoch spojených s predajom vrátane provízií maklérom a právnych poplatkov, ktoré predstavovali približne 18 % predajnej ceny.
Lynchova podnikateľská cesta zahŕňala prechod od dobre platenej práce v spoločnosti Google k oceňovaniu autonómie a kreativity, zdôrazňovanie vzdelávacej hodnoty podnikania a kritiku zamerania technologického priemyslu na celkové odmeňovanie.
Lynch sa plánuje v budúcnosti zamerať na vzdelávacie produkty a softvér ako službu (SaaS) a vyhnúť sa hardvéru kvôli jeho zložitosti a výzvam.

Bývalý člen predstavenstva OpenAI odhalil dôvody prepustenia Sama Altmana a jeho opätovného prijatia do funkcie

V novembri 2023 predstavenstvo spoločnosti OpenAI nečakane prepustilo generálneho riaditeľa Sama Altmana s odvolaním sa na "otvorené klamstvá" a manipulatívne správanie, ktoré narušili dôveru.
Konkrétne problémy sa týkali Altmanovho nezverejneného vlastníctva fondu OpenAI Startup Fund, poskytovania nepresných informácií o bezpečnosti a vytvárania toxického pracovného prostredia.
Napriek týmto obvineniam viedli interné a externé tlaky vrátane podpory zo strany zamestnancov a spoločnosti Microsoft k Altmanovmu opätovnému uvedeniu do funkcie, pričom nezávislé preskúmanie nezistilo žiadne problémy s bezpečnosťou výrobkov alebo prevádzkou spoločnosti.

Reakcie

Bývalý člen predstavenstva OpenAI prezradil, že Sam Altman bol odvolaný z dôvodu nečestnosti, čo vyvoláva otázky o informovanosti predstavenstva o spustení ChatGPT.
Táto situácia vyvolala diskusie o transparentnosti organizácie, dohľade nad správnou radou a etickom riadení, pričom sa prirovnáva k zlyhaniam spoločností ako Enron.
V súvislosti s dôverou a bezpečnostnými postupmi spoločnosti OpenAI sa objavuje skepsa, odchody zamestnancov a kritika Altmanovho vedenia, ako aj diskusie o technickej zdatnosti a úlohe správnej rady.

Únik informácií z vyhľadávania Google odhaľuje tajomstvá algoritmu hodnotenia a 2596 modulov

Veľký únik interných dokumentov vyhľadávača Google odhalil kritické aspekty algoritmu hodnotenia spoločnosti Google vrátane používania kliknutí, odkazov, obsahu, subjektov a údajov z prehliadača Chrome.
Odborníci z odvetvia Rand Fishkin a Michael King analyzovali dokumenty a odhalili 2 596 modulov hodnotenia, význam rozmanitosti odkazov, relevantnosti, úspešných kliknutí a rozpoznateľnosti značky.
Dokumenty tiež odhaľujú, ako spoločnosť Google využíva informácie o autoroch, autoritu stránok a "twiddlers" na úpravu poradia, čo ponúka cenné informácie pre SEO optimalizátorov napriek neznámej presnej váhe faktorov hodnotenia.

Reakcie

Uniknutý dokument o vyhľadávaní Google rozpútal diskusie o algoritme hodnotenia a vplyve reklamného programu spoločnosti Google na výsledky vyhľadávania.
Používatelia diskutujú o alternatívach, ako sú Kagi a search.marginalia.nu, pričom ich názory na prispôsobenie Kagi, jeho nekomerčné zameranie a problémy so spamom a obsahom generovaným umelou inteligenciou sa rôznia.
V rozhovore sa zdôrazňuje túžba po vyhľadávačoch, ktoré uprednostňujú preferencie používateľov pred príjmami z reklám, a hovorí sa o manipulácii SEO, potenciáli veľkých jazykových modelov (LLM) a obavách týkajúcich sa pravosti online recenzií a kritérií hodnotenia spoločnosti Google.

ChatTTS: Pokročilý open-source TTS model pre prirodzený dialóg v angličtine a čínštine

ChatTTS je model prevodu textu na reč (TTS) optimalizovaný na dialóg, ktorý podporuje angličtinu aj čínštinu a je vycvičený na viac ako 100 000 hodinách údajov.
Verzia s otvoreným zdrojovým kódom na HuggingFace obsahuje 40 000 hodín predtrénovaný model, ktorý vyniká prirodzenou a expresívnou syntézou reči s jemnou prozodickou kontrolou.
Model je určený len na akademické účely, v budúcnosti sa plánuje otvorenie ďalších funkcií a zlepšenie stability.

Reakcie

V diskusii sa poukazuje na vývoj a výkon modelov TTS, ako sú ChatTTS a Piper TTS, pričom sa upozorňuje na problémy, ako je pomalé spracovanie a problémy s kvalitou hlasu.
Používatelia zdôrazňujú potrebu vysokokvalitnej TTS vo viacerých jazykoch a diskutujú o účinnosti ľudských hlasov v porovnaní s automatickými hlasmi v audioknihách.
Kritizujú sa zavádzajúce tvrdenia o "otvorenom zdroji" v projektoch TTS a vyzýva sa na vytvorenie komplexného zoznamu skutočne otvorených modelov a údajov TTS.

Google mlčí o údajnom úniku 2 500 stránok s podrobnými informáciami o algoritme vyhľadávania

Únik 2 500 strán interných dokumentov spoločnosti Google, ktoré zdieľal expert na SEO Rand Fishkin, môže odhaliť nezrovnalosti medzi verejnými vyhláseniami spoločnosti Google a jej skutočnými postupmi týkajúcimi sa vyhľadávacích algoritmov.
Dokumenty naznačujú používanie údajov z prehliadača Chrome pri zostavovaní rebríčkov a sledovaní informácií o autoroch, čím spochybňujú predchádzajúce tvrdenia spoločnosti Google a vyvolávajú diskusiu o transparentnosti spoločnosti.
Spoločnosť Google sa k legitímnosti dokumentov nevyjadrila a tento incident poukazuje na pretrvávajúce obavy z neprehľadnosti vyhľadávacích operácií spoločnosti Google v súvislosti s protimonopolnou kontrolou.

Reakcie

Únik dokumentácie vyhľadávacieho algoritmu spoločnosti Google odhalil možné nezrovnalosti medzi verejnými vyhláseniami spoločnosti Google a jej skutočnými postupmi.
Únik informácií naznačuje, že zástupcovia spoločnosti Google mohli zdiskreditovať presné zistenia marketingových, technologických a novinárskych komunít, čo vyvoláva etické obavy týkajúce sa manipulácie SEO.
V právnych diskusiách na GitHube sa diskutuje o význame a legálnosti úniku, pričom názory na jeho vplyv na status obchodného tajomstva a ochranu autorských práv sa rôznia.