Washingtonská univerzita (UW) vyvinula systém umelej inteligencie s názvom "Target Speech Hearing", ktorý pomáha používateľom sústrediť sa na jedného hovoriaceho v hlučnom prostredí tak, že sa na neho pozerajú tri až päť sekúnd.
Tento systém, ktorý bol predstavený na konferencii ACM CHI, využíva strojové učenie na izoláciu a zosilnenie hlasu požadovaného rečníka v reálnom čase, dokonca aj keď sa používateľ pohybuje.
V súčasnosti je táto technológia vo fáze overovania koncepcie a bola testovaná na 21 účastníkoch, ktorí zaznamenali výrazne lepšiu zrozumiteľnosť, pričom v budúcnosti sa plánuje jej rozšírenie na slúchadlá a načúvacie prístroje.
V texte sa skúmajú stratégie a technológie na zlepšenie sluchových zážitkov v hlučnom prostredí so zameraním na slúchadlá s umelou inteligenciou, pokročilý zvukový dizajn a technológie na potláčanie hluku.
Poukazuje na problémy spojené s modernými materiálmi v reštauráciách, ktoré prispievajú k hluku, a na používanie techník tlmenia hluku napriek problémom s údržbou a estetikou.
Diskutuje sa o technologickom pokroku, ako sú smerové mikrofóny, rozpoznávanie reči v reálnom čase a selektívne filtrovanie zvuku, ako aj o obavách týkajúcich sa súkromia a možného zneužitia.
Bývalá členka predstavenstva spoločnosti OpenAI Helen Tonerová prezradila, že Sam Altman bol nakrátko odvolaný z funkcie generálneho riaditeľa kvôli viacerým prípadom nečestnosti a zatajovania informácií pred predstavenstvom.
Príkladom bolo, že sa správna rada dozvedela o prepustení ChatGPT prostredníctvom Twitteru a Altman nezverejnil svoj finančný podiel v spoločnosti, ako aj obvinenia z poskytovania nepresných informácií o bezpečnosti a "psychického zneužívania" zo strany dvoch vedúcich pracovníkov.
Altman bol po necelom týždni opätovne vymenovaný za výkonného riaditeľa po tom, čo zamestnanci pohrozili výpoveďou a spoločnosť Microsoft prejavila záujem o zamestnanie jeho tímu; Toner krátko po jeho návrate odstúpil.
Generálny riaditeľ spoločnosti OpenAI Sam Altman bol nakrátko odvolaný a potom znovu prijatý, čo odhalilo napätie medzi právomocami správnej rady a vplyvom kľúčových investorov a zakladateľov.
Nesprávny postup správnej rady pri prepustení Altmana viedol k výraznej reakcii zamestnancov a hrozbám hromadnej výpovede, čo poukázalo na zložitú dynamiku riadenia spoločnosti, vplyv zamestnancov a finančné záujmy.
Incident vyvolal širšie diskusie o vedení v oblasti technológií, etických dôsledkoch bezohľadného správania a úlohe komunikácie a etiky v riadení spoločností.
Presmerovanie z protokolu HTTP na protokol HTTPPS môže viesť k odhaleniu citlivých údajov alebo umožniť útoky typu Man-In-The-Middle (MITM), najmä v prípade rozhraní API, ku ktorým pristupuje softvér, ktorý nemusí pracovať s bezpečnostnými hlavičkami.
Techniky ako HSTS (HTTP Strict Transport Security) a režimy HTTPS-Only zlepšujú bezpečnosť, ale nemusia byť dostatočné pre API, čo poukazuje na potrebu rýchleho prístupu na včasné zachytenie chýb.
Najlepšie postupy by sa mali aktualizovať tak, aby sa API odporúčalo úplne odmietnuť nešifrované požiadavky a zrušiť poverenia API odoslané cez nešifrované spojenia, aby sa predišlo bezpečnostným rizikám.
V diskusii sa zdôrazňuje zvýšenie bezpečnosti API presmerovaním protokolu HTTP na HTTPS a zrušením kľúčov API odoslaných cez HTTP, aby sa zabránilo útokom typu Man-in-the-Middle (MITM).
Zdôrazňuje význam správnej správy kľúčov API, používania podpísaných hashov, noncesov a časových značiek na overovanie a nevyhnutnosť protokolu HTTPS na zabezpečenie integrity a súkromia údajov.
V rozhovore sa kritizuje spoliehanie sa na certifikačné autority a navrhujú sa praktické riešenia, ako sú jedinečné adresy URL alebo kľúče API na bezpečné riadenie prístupu v konkrétnych kontextoch.
Llama3-V je nový multimodálny model založený na Llama3, ktorý je navrhnutý tak, aby konkuroval väčším modelom, ako je GPT-4V, ale za výrazne nižšiu cenu (pod 500 USD).
V referenčných testoch multimodálneho porozumenia prekonáva súčasný špičkový model Llava o 10 - 20 %, pričom na vkladanie obrázkov a zosúladenie vizuálnych a textových tokenov využíva SigLIP prostredníctvom projekčného bloku s vrstvami vlastnej pozornosti.
Kľúčové optimalizácie zahŕňajú predvýpočet vložených obrázkov a využitie MPS/MLX na efektívne trénovanie, pričom proces trénovania zahŕňa predtrénovanie na 600 000 príkladoch a dolaďovanie pod dohľadom na 1 milióne príkladov.
V článku sa porovnávajú rôzne multimodálne modely umelej inteligencie so zameraním na Llama 3-V, ktorý sa snaží vyrovnať výkonu GPT-4V, ale je menší a lacnejší.
Zdôrazňuje, že modely ako InternVL-1.5 a CogVLM prekonávajú model Llava, pričom konkrétne modely vynikali v úlohách ako OCR (optické rozpoznávanie znakov) a porozumenie grafickému používateľskému rozhraniu (GUI).
Používatelia diskutujú o praktických aplikáciách, obmedzeniach a nákladovej efektívnosti týchto modelov vrátane použitia GPT-4V vo výrobe na vizuálne úlohy a účinnosti moderných nástrojov OCR, ako sú PaddleOCR a TrOCR.
mája 2024 spoločnosť Mistral AI spustila Codestral, generatívny model AI s otvorenou váhou na generovanie kódu, ktorý je vycvičený na viac ako 80 programovacích jazykov.
Codestral má veľkosť modelu 22B a kontextové okno 32k, čím prekonáva konkurenciu v benchmarkoch ako RepoBench a HumanEval.
Codestral je k dispozícii pod licenciou Mistral AI Non-Production License a možno k nemu pristupovať prostredníctvom vyhradeného koncového bodu alebo ho integrovať do nástrojov ako VSCode a JetBrains, pričom vývojári si pochvaľujú jeho rýchlosť, presnosť a vplyv na produktivitu.
Model kódu Mistral, ktorý zverejnila spoločnosť mistral.ai, má obmedzujúcu licenciu zakazujúcu komerčné použitie, živé podmienky a interné použitie v spoločnosti, čo obmedzuje jeho praktické využitie a vyvoláva kritiku.
Diskusia o licencii spoločnosti Mistral poukazuje na širšie otázky autorských práv a licencií v oblasti obsahu vytvoreného umelou inteligenciou a na nesprávne používanie pojmu "open-source" v oblasti umelej inteligencie.
Používatelia vyjadrujú frustráciu z nekonzistentného generovania kódu AI, najmä pri zložitých úloh ách, a diskutujú o obmedzeniach a možnostiach rôznych modelov AI vrátane modelov Llama spoločnosti Meta a GPT spoločnosti OpenAI.
V článku "Čo sme sa naučili z roka budovania s LLM (časť I)" Eugene Yan a jeho kolegovia skúmajú rýchly pokrok a praktické aplikácie veľkých jazykových modelov (LLM) a zároveň sa zaoberajú výzvami pri vývoji efektívnych produktov umelej inteligencie.
Kľúčové lekcie zahŕňajú osvedčené postupy v oblasti podnetov, generovania s rozšíreným vyhľadávaním (RAG), inžinierstva toku a hodnotenia, pričom sa zdôrazňujú techniky, ako sú podnety n-shot a podnety myšlienkového reťazca.
Článok poskytuje aj prevádzkové rady týkajúce sa riadenia agentov umelej inteligencie, zdokonaľovania výziev, ladenia modelov a znižovania nákladov a latencie prostredníctvom ukladania do vyrovnávacej pamäte, pričom kladie dôraz na praktické hodnotenia a prístupy zamerané na človeka.
Poznatky z ročnej práce s veľkými jazykovými modelmi (LLM) poukazujú na dôležitosť viacnásobného výberu vzoriek na zníženie miery halucinácií a vytváranie odôvodnení pred rozhodnutiami pre presnejšie výsledky.
Článok sa zaoberá problémami pri vyhodnocovaní výstupov LLM, vplyvom teploty na náhodnosť výstupu a nesprávnymi predstavami o vzorkovaní spolu so skúsenosťami s používaním nástrojov, ako sú patchboty a vyhľadávanie pomocou lúča.
Zaoberá sa obavami v odvetví, ako je vysoká chybovosť, investície spôsobené FOMO a agresívne snahy spoločností ako Google integrovať umelú inteligenciu napriek potenciálnym problémom s kvalitou služieb.
Profesor Kevin Murphy z Limerickej univerzity tvrdí, že pracovníci na diaľku sú v porovnaní s pracovníkmi v kanceláriách produktívnejší a spokojnejší.
Tlak na zavedenie mandátov na návrat do kancelárií (RTO) po skončení pandémie predstavuje riziko straty najlepších talentov, keďže mnohí zamestnanci v súčasnosti odmietajú tradičné kancelárske normy.
Vedúci pracovníci by mali poskytnúť presvedčivé dôvody a stimuly pre návrat do kancelárie, pričom by mali uznať zmenu dynamiky moci v prospech zamestnancov, inak riskujú stratu cenných talentov v prospech flexibilnejších konkurentov.
Diskusia medzi prácou na diaľku a mandátmi na návrat do kancelárie (RTO) sa sústreďuje na flexibilitu, pohodlie a potenciálnu stratu zamestnancov, ktorí uprednostňujú prácu na diaľku.
Pre niektorých je dochádzanie do zamestnania psychickým oddychom, pre iných však predstavuje problém, ako je znečistenie, vysoké náklady a neurčité hranice, čo ovplyvňuje rovnováhu medzi pracovným a súkromným životom a kariérny rast.
Práca na diaľku sa považuje za efektívnejšiu a udržateľnejšiu, ponúka výhody, ako je viac času pre rodinu a zníženie emisií uhlíka, ale môže zanedbávať mladších zamestnancov a vyžadovať jasnú komunikáciu o výhodách RTO.