Skip to main content

2024-05-29

Slúchadlá s umelou inteligenciou izolujú jedného hovoriaceho v dave pomocou detekcie pohľadu

  • Washingtonská univerzita (UW) vyvinula systém umelej inteligencie s názvom "Target Speech Hearing", ktorý pomáha používateľom sústrediť sa na jedného hovoriaceho v hlučnom prostredí tak, že sa na neho pozerajú tri až päť sekúnd.
  • Tento systém, ktorý bol predstavený na konferencii ACM CHI, využíva strojové učenie na izoláciu a zosilnenie hlasu požadovaného rečníka v reálnom čase, dokonca aj keď sa používateľ pohybuje.
  • V súčasnosti je táto technológia vo fáze overovania koncepcie a bola testovaná na 21 účastníkoch, ktorí zaznamenali výrazne lepšiu zrozumiteľnosť, pričom v budúcnosti sa plánuje jej rozšírenie na slúchadlá a načúvacie prístroje.

Reakcie

  • V texte sa skúmajú stratégie a technológie na zlepšenie sluchových zážitkov v hlučnom prostredí so zameraním na slúchadlá s umelou inteligenciou, pokročilý zvukový dizajn a technológie na potláčanie hluku.
  • Poukazuje na problémy spojené s modernými materiálmi v reštauráciách, ktoré prispievajú k hluku, a na používanie techník tlmenia hluku napriek problémom s údržbou a estetikou.
  • Diskutuje sa o technologickom pokroku, ako sú smerové mikrofóny, rozpoznávanie reči v reálnom čase a selektívne filtrovanie zvuku, ako aj o obavách týkajúcich sa súkromia a možného zneužitia.

Bývalý člen predstavenstva OpenAI odhalil lži a pochybenia, ktoré stáli za krátkym odvolaním Sama Altmana

  • Bývalá členka predstavenstva spoločnosti OpenAI Helen Tonerová prezradila, že Sam Altman bol nakrátko odvolaný z funkcie generálneho riaditeľa kvôli viacerým prípadom nečestnosti a zatajovania informácií pred predstavenstvom.
  • Príkladom bolo, že sa správna rada dozvedela o prepustení ChatGPT prostredníctvom Twitteru a Altman nezverejnil svoj finančný podiel v spoločnosti, ako aj obvinenia z poskytovania nepresných informácií o bezpečnosti a "psychického zneužívania" zo strany dvoch vedúcich pracovníkov.
  • Altman bol po necelom týždni opätovne vymenovaný za výkonného riaditeľa po tom, čo zamestnanci pohrozili výpoveďou a spoločnosť Microsoft prejavila záujem o zamestnanie jeho tímu; Toner krátko po jeho návrate odstúpil.

Reakcie

  • Generálny riaditeľ spoločnosti OpenAI Sam Altman bol nakrátko odvolaný a potom znovu prijatý, čo odhalilo napätie medzi právomocami správnej rady a vplyvom kľúčových investorov a zakladateľov.
  • Nesprávny postup správnej rady pri prepustení Altmana viedol k výraznej reakcii zamestnancov a hrozbám hromadnej výpovede, čo poukázalo na zložitú dynamiku riadenia spoločnosti, vplyv zamestnancov a finančné záujmy.
  • Incident vyvolal širšie diskusie o vedení v oblasti technológií, etických dôsledkoch bezohľadného správania a úlohe komunikácie a etiky v riadení spoločností.

Prehodnotenie presmerovania HTTP na HTTPPS pre rozhrania API s cieľom zvýšiť bezpečnosť

  • Presmerovanie z protokolu HTTP na protokol HTTPPS môže viesť k odhaleniu citlivých údajov alebo umožniť útoky typu Man-In-The-Middle (MITM), najmä v prípade rozhraní API, ku ktorým pristupuje softvér, ktorý nemusí pracovať s bezpečnostnými hlavičkami.
  • Techniky ako HSTS (HTTP Strict Transport Security) a režimy HTTPS-Only zlepšujú bezpečnosť, ale nemusia byť dostatočné pre API, čo poukazuje na potrebu rýchleho prístupu na včasné zachytenie chýb.
  • Najlepšie postupy by sa mali aktualizovať tak, aby sa API odporúčalo úplne odmietnuť nešifrované požiadavky a zrušiť poverenia API odoslané cez nešifrované spojenia, aby sa predišlo bezpečnostným rizikám.

Reakcie

  • V diskusii sa zdôrazňuje zvýšenie bezpečnosti API presmerovaním protokolu HTTP na HTTPS a zrušením kľúčov API odoslaných cez HTTP, aby sa zabránilo útokom typu Man-in-the-Middle (MITM).
  • Zdôrazňuje význam správnej správy kľúčov API, používania podpísaných hashov, noncesov a časových značiek na overovanie a nevyhnutnosť protokolu HTTPS na zabezpečenie integrity a súkromia údajov.
  • V rozhovore sa kritizuje spoliehanie sa na certifikačné autority a navrhujú sa praktické riešenia, ako sú jedinečné adresy URL alebo kľúče API na bezpečné riadenie prístupu v konkrétnych kontextoch.

Lama3-V: Multimodálny model za 500 dolárov sa výkonnostne vyrovná GPT-4V

  • Llama3-V je nový multimodálny model založený na Llama3, ktorý je navrhnutý tak, aby konkuroval väčším modelom, ako je GPT-4V, ale za výrazne nižšiu cenu (pod 500 USD).
  • V referenčných testoch multimodálneho porozumenia prekonáva súčasný špičkový model Llava o 10 - 20 %, pričom na vkladanie obrázkov a zosúladenie vizuálnych a textových tokenov využíva SigLIP prostredníctvom projekčného bloku s vrstvami vlastnej pozornosti.
  • Kľúčové optimalizácie zahŕňajú predvýpočet vložených obrázkov a využitie MPS/MLX na efektívne trénovanie, pričom proces trénovania zahŕňa predtrénovanie na 600 000 príkladoch a dolaďovanie pod dohľadom na 1 milióne príkladov.

Reakcie

  • V článku sa porovnávajú rôzne multimodálne modely umelej inteligencie so zameraním na Llama 3-V, ktorý sa snaží vyrovnať výkonu GPT-4V, ale je menší a lacnejší.
  • Zdôrazňuje, že modely ako InternVL-1.5 a CogVLM prekonávajú model Llava, pričom konkrétne modely vynikali v úlohách ako OCR (optické rozpoznávanie znakov) a porozumenie grafickému používateľskému rozhraniu (GUI).
  • Používatelia diskutujú o praktických aplikáciách, obmedzeniach a nákladovej efektívnosti týchto modelov vrátane použitia GPT-4V vo výrobe na vizuálne úlohy a účinnosti moderných nástrojov OCR, ako sú PaddleOCR a TrOCR.

Spoločnosť Mistral AI predstavuje Codestral: Výkonnú generatívnu umelú inteligenciu na generovanie kódu

    1. mája 2024 spoločnosť Mistral AI spustila Codestral, generatívny model AI s otvorenou váhou na generovanie kódu, ktorý je vycvičený na viac ako 80 programovacích jazykov.
  • Codestral má veľkosť modelu 22B a kontextové okno 32k, čím prekonáva konkurenciu v benchmarkoch ako RepoBench a HumanEval.
  • Codestral je k dispozícii pod licenciou Mistral AI Non-Production License a možno k nemu pristupovať prostredníctvom vyhradeného koncového bodu alebo ho integrovať do nástrojov ako VSCode a JetBrains, pričom vývojári si pochvaľujú jeho rýchlosť, presnosť a vplyv na produktivitu.

Reakcie

  • Model kódu Mistral, ktorý zverejnila spoločnosť mistral.ai, má obmedzujúcu licenciu zakazujúcu komerčné použitie, živé podmienky a interné použitie v spoločnosti, čo obmedzuje jeho praktické využitie a vyvoláva kritiku.
  • Diskusia o licencii spoločnosti Mistral poukazuje na širšie otázky autorských práv a licencií v oblasti obsahu vytvoreného umelou inteligenciou a na nesprávne používanie pojmu "open-source" v oblasti umelej inteligencie.
  • Používatelia vyjadrujú frustráciu z nekonzistentného generovania kódu AI, najmä pri zložitých úlohách, a diskutujú o obmedzeniach a možnostiach rôznych modelov AI vrátane modelov Llama spoločnosti Meta a GPT spoločnosti OpenAI.

Kľúčové poznatky z ročného budovania veľkých jazykových modelov (časť I)

  • V článku "Čo sme sa naučili z roka budovania s LLM (časť I)" Eugene Yan a jeho kolegovia skúmajú rýchly pokrok a praktické aplikácie veľkých jazykových modelov (LLM) a zároveň sa zaoberajú výzvami pri vývoji efektívnych produktov umelej inteligencie.
  • Kľúčové lekcie zahŕňajú osvedčené postupy v oblasti podnetov, generovania s rozšíreným vyhľadávaním (RAG), inžinierstva toku a hodnotenia, pričom sa zdôrazňujú techniky, ako sú podnety n-shot a podnety myšlienkového reťazca.
  • Článok poskytuje aj prevádzkové rady týkajúce sa riadenia agentov umelej inteligencie, zdokonaľovania výziev, ladenia modelov a znižovania nákladov a latencie prostredníctvom ukladania do vyrovnávacej pamäte, pričom kladie dôraz na praktické hodnotenia a prístupy zamerané na človeka.

Reakcie

  • Poznatky z ročnej práce s veľkými jazykovými modelmi (LLM) poukazujú na dôležitosť viacnásobného výberu vzoriek na zníženie miery halucinácií a vytváranie odôvodnení pred rozhodnutiami pre presnejšie výsledky.
  • Článok sa zaoberá problémami pri vyhodnocovaní výstupov LLM, vplyvom teploty na náhodnosť výstupu a nesprávnymi predstavami o vzorkovaní spolu so skúsenosťami s používaním nástrojov, ako sú patchboty a vyhľadávanie pomocou lúča.
  • Zaoberá sa obavami v odvetví, ako je vysoká chybovosť, investície spôsobené FOMO a agresívne snahy spoločností ako Google integrovať umelú inteligenciu napriek potenciálnym problémom s kvalitou služieb.

Odborník varuje, že mandáty na návrat do zamestnania predstavujú riziko straty špičkových talentov

  • Profesor Kevin Murphy z Limerickej univerzity tvrdí, že pracovníci na diaľku sú v porovnaní s pracovníkmi v kanceláriách produktívnejší a spokojnejší.
  • Tlak na zavedenie mandátov na návrat do kancelárií (RTO) po skončení pandémie predstavuje riziko straty najlepších talentov, keďže mnohí zamestnanci v súčasnosti odmietajú tradičné kancelárske normy.
  • Vedúci pracovníci by mali poskytnúť presvedčivé dôvody a stimuly pre návrat do kancelárie, pričom by mali uznať zmenu dynamiky moci v prospech zamestnancov, inak riskujú stratu cenných talentov v prospech flexibilnejších konkurentov.

Reakcie

  • Diskusia medzi prácou na diaľku a mandátmi na návrat do kancelárie (RTO) sa sústreďuje na flexibilitu, pohodlie a potenciálnu stratu zamestnancov, ktorí uprednostňujú prácu na diaľku.
  • Pre niektorých je dochádzanie do zamestnania psychickým oddychom, pre iných však predstavuje problém, ako je znečistenie, vysoké náklady a neurčité hranice, čo ovplyvňuje rovnováhu medzi pracovným a súkromným životom a kariérny rast.
  • Práca na diaľku sa považuje za efektívnejšiu a udržateľnejšiu, ponúka výhody, ako je viac času pre rodinu a zníženie emisií uhlíka, ale môže zanedbávať mladších zamestnancov a vyžadovať jasnú komunikáciu o výhodách RTO.

Kanadský návrh zákona C-26: Kontroverzné právomoci na inštaláciu zadných dverí do siete na účely sledovania

  • Návrh zákona C-26, federálny zákon o kybernetickej bezpečnosti v Kanade, udeľuje vláde právomoc nútiť telekomunikačné spoločnosti inštalovať zadné vrátka do šifrovaných sietí, čo môže ohroziť bezpečnosť.
  • Kritici vrátane Citizen Lab z Torontskej univerzity tvrdia, že tieto opatrenia by oslabili šifrovanie 5G a ďalšie bezpečnostné prvky, čím by sa zvýšila zraniteľnosť voči kybernetickým hrozbám.
  • Napriek varovaniam odborníkov bol návrh zákona schválený bez pozmeňujúcich a doplňujúcich návrhov, čo je v rozpore s prošifrovacím postojom Kanady a môže vytvoriť nebezpečný precedens pre ostatné krajiny.

Reakcie

  • Kanadská vláda sa snaží získať oprávnenie na vytvorenie tajných zadných dverí v telekomunikačných sieťach na účely sledovania, čím obchádza tradičný právny dohľad, čo vyvoláva značné obavy o ochranu súkromia a možnosť zneužitia orgánmi presadzovania práva.
  • Kritici tvrdia, že by to mohlo viesť k invazívnemu monitorovaniu podobnému praktikám NSA, čo zahŕňa diskusie o kanadskej ústave, "klauzule o neporušení" a možnostiach zákonného odpočúvania.
  • Diskusia zahŕňa historické príklady sledovania, ako napríklad počas protestov kamionistov, a širšie témy nadmerného zásahu vlády, súkromia a reakcií spoločnosti na autoritu.

Tri základné zákony, ktorými sa riadi nevyhnutná zložitosť softvérových systémov

  • Článok sa zaoberá tromi základnými zákonmi, ktoré prispievajú k zbytočnej zložitosti softvérového inžinierstva, najmä v infraštruktúrnych systémoch.
  • Prvý zákon: Dobre navrhnuté systémy sa v dôsledku neustálych úprav časom zmenia na zle navrhnuté systémy.
  • Druhý zákon: Zložitosť sa zvyšuje, keď úspešné systémy uprednostňujú podiel na trhu pred dobrým návrhom abstrakcie, čo vedie k ťažko modifikovateľným systémom.
  • Tretí zákon: Zložitosť softvéru nemá hornú hranicu, čo je spôsobené rôznymi schopnosťami a filozofiou vývojárov, čo vedie k zložitým návrhom.

Reakcie

  • Diskusia sa zaoberá výzvami riadenia zložitosti softvéru, najmä v starších systémoch, a kompromismi medzi nákladmi a kvalitou, ktoré často vedú k technickému dlhu.
  • Zdôrazňuje dôležitosť inkrementálneho refaktorovania, udržiavania silnej inžinierskej kultúry a rozlišovania medzi podstatnou a náhodnou zložitosťou pre efektívne riadenie softvéru.
  • Účastníci zdôrazňujú nevyhnutnosť nepretržitej údržby, vplyv zlých rozhodnutí pri vývoji a úlohu podpory manažmentu pri zdôvodňovaní úsilia o refaktorovanie.

Od spustenia po predaj: Cesta Michaela Lyncha s TinyPilotom

  • Michael Lynch vytvoril v polovici roka 2020 zariadenie TinyPilot na vzdialené ovládanie serverov, ktoré si rýchlo získalo popularitu a rozrástlo sa na firmu s ročným obratom 1 milión dolárov a sedemčlenným tímom.
  • Lynch predal spoločnosť TinyPilot za 600-tisíc dolárov, pričom po odpočítaní nákladov získal 490 803 dolárov, a to z dôvodu stresu z riadenia hardvérového podniku a túžby vrátiť sa k programovaniu a založiť si rodinu.
  • Predaj, ktorý sprostredkovala maklérska spoločnosť Quiet Light Brokerage, zahŕňal výzvy, ako je vyváženie stresu zakladateľa, nájdenie kupujúceho a zvládnutie due diligence; kupujúcim bol Scott, odborník na firemné médiá.

Reakcie

  • Michael Lynch predal svoju firmu TinyPilot a hovoril o značných nákladoch spojených s predajom vrátane provízií maklérom a právnych poplatkov, ktoré predstavovali približne 18 % predajnej ceny.
  • Lynchova podnikateľská cesta zahŕňala prechod od dobre platenej práce v spoločnosti Google k oceňovaniu autonómie a kreativity, zdôrazňovanie vzdelávacej hodnoty podnikania a kritiku zamerania technologického priemyslu na celkové odmeňovanie.
  • Lynch sa plánuje v budúcnosti zamerať na vzdelávacie produkty a softvér ako službu (SaaS) a vyhnúť sa hardvéru kvôli jeho zložitosti a výzvam.

Bývalý člen predstavenstva OpenAI odhalil dôvody prepustenia Sama Altmana a jeho opätovného prijatia do funkcie

  • V novembri 2023 predstavenstvo spoločnosti OpenAI nečakane prepustilo generálneho riaditeľa Sama Altmana s odvolaním sa na "otvorené klamstvá" a manipulatívne správanie, ktoré narušili dôveru.
  • Konkrétne problémy sa týkali Altmanovho nezverejneného vlastníctva fondu OpenAI Startup Fund, poskytovania nepresných informácií o bezpečnosti a vytvárania toxického pracovného prostredia.
  • Napriek týmto obvineniam viedli interné a externé tlaky vrátane podpory zo strany zamestnancov a spoločnosti Microsoft k Altmanovmu opätovnému uvedeniu do funkcie, pričom nezávislé preskúmanie nezistilo žiadne problémy s bezpečnosťou výrobkov alebo prevádzkou spoločnosti.

Reakcie

  • Bývalý člen predstavenstva OpenAI prezradil, že Sam Altman bol odvolaný z dôvodu nečestnosti, čo vyvoláva otázky o informovanosti predstavenstva o spustení ChatGPT.
  • Táto situácia vyvolala diskusie o transparentnosti organizácie, dohľade nad správnou radou a etickom riadení, pričom sa prirovnáva k zlyhaniam spoločností ako Enron.
  • V súvislosti s dôverou a bezpečnostnými postupmi spoločnosti OpenAI sa objavuje skepsa, odchody zamestnancov a kritika Altmanovho vedenia, ako aj diskusie o technickej zdatnosti a úlohe správnej rady.

Únik informácií z vyhľadávania Google odhaľuje tajomstvá algoritmu hodnotenia a 2596 modulov

  • Veľký únik interných dokumentov vyhľadávača Google odhalil kritické aspekty algoritmu hodnotenia spoločnosti Google vrátane používania kliknutí, odkazov, obsahu, subjektov a údajov z prehliadača Chrome.
  • Odborníci z odvetvia Rand Fishkin a Michael King analyzovali dokumenty a odhalili 2 596 modulov hodnotenia, význam rozmanitosti odkazov, relevantnosti, úspešných kliknutí a rozpoznateľnosti značky.
  • Dokumenty tiež odhaľujú, ako spoločnosť Google využíva informácie o autoroch, autoritu stránok a "twiddlers" na úpravu poradia, čo ponúka cenné informácie pre SEO optimalizátorov napriek neznámej presnej váhe faktorov hodnotenia.

Reakcie

  • Uniknutý dokument o vyhľadávaní Google rozpútal diskusie o algoritme hodnotenia a vplyve reklamného programu spoločnosti Google na výsledky vyhľadávania.
  • Používatelia diskutujú o alternatívach, ako sú Kagi a search.marginalia.nu, pričom ich názory na prispôsobenie Kagi, jeho nekomerčné zameranie a problémy so spamom a obsahom generovaným umelou inteligenciou sa rôznia.
  • V rozhovore sa zdôrazňuje túžba po vyhľadávačoch, ktoré uprednostňujú preferencie používateľov pred príjmami z reklám, a hovorí sa o manipulácii SEO, potenciáli veľkých jazykových modelov (LLM) a obavách týkajúcich sa pravosti online recenzií a kritérií hodnotenia spoločnosti Google.

ChatTTS: Pokročilý open-source TTS model pre prirodzený dialóg v angličtine a čínštine

  • ChatTTS je model prevodu textu na reč (TTS) optimalizovaný na dialóg, ktorý podporuje angličtinu aj čínštinu a je vycvičený na viac ako 100 000 hodinách údajov.
  • Verzia s otvoreným zdrojovým kódom na HuggingFace obsahuje 40 000 hodín predtrénovaný model, ktorý vyniká prirodzenou a expresívnou syntézou reči s jemnou prozodickou kontrolou.
  • Model je určený len na akademické účely, v budúcnosti sa plánuje otvorenie ďalších funkcií a zlepšenie stability.

Reakcie

  • V diskusii sa poukazuje na vývoj a výkon modelov TTS, ako sú ChatTTS a Piper TTS, pričom sa upozorňuje na problémy, ako je pomalé spracovanie a problémy s kvalitou hlasu.
  • Používatelia zdôrazňujú potrebu vysokokvalitnej TTS vo viacerých jazykoch a diskutujú o účinnosti ľudských hlasov v porovnaní s automatickými hlasmi v audioknihách.
  • Kritizujú sa zavádzajúce tvrdenia o "otvorenom zdroji" v projektoch TTS a vyzýva sa na vytvorenie komplexného zoznamu skutočne otvorených modelov a údajov TTS.

Google mlčí o údajnom úniku 2 500 stránok s podrobnými informáciami o algoritme vyhľadávania

  • Únik 2 500 strán interných dokumentov spoločnosti Google, ktoré zdieľal expert na SEO Rand Fishkin, môže odhaliť nezrovnalosti medzi verejnými vyhláseniami spoločnosti Google a jej skutočnými postupmi týkajúcimi sa vyhľadávacích algoritmov.
  • Dokumenty naznačujú používanie údajov z prehliadača Chrome pri zostavovaní rebríčkov a sledovaní informácií o autoroch, čím spochybňujú predchádzajúce tvrdenia spoločnosti Google a vyvolávajú diskusiu o transparentnosti spoločnosti.
  • Spoločnosť Google sa k legitímnosti dokumentov nevyjadrila a tento incident poukazuje na pretrvávajúce obavy z neprehľadnosti vyhľadávacích operácií spoločnosti Google v súvislosti s protimonopolnou kontrolou.

Reakcie

  • Únik dokumentácie vyhľadávacieho algoritmu spoločnosti Google odhalil možné nezrovnalosti medzi verejnými vyhláseniami spoločnosti Google a jej skutočnými postupmi.
  • Únik informácií naznačuje, že zástupcovia spoločnosti Google mohli zdiskreditovať presné zistenia marketingových, technologických a novinárskych komunít, čo vyvoláva etické obavy týkajúce sa manipulácie SEO.
  • V právnych diskusiách na GitHube sa diskutuje o význame a legálnosti úniku, pričom názory na jeho vplyv na status obchodného tajomstva a ochranu autorských práv sa rôznia.