University of Washington (UW) har udviklet et AI-system ved navn "Target Speech Hearing", der hjælper brugere med at fokusere på en enkelt taler i støjende omgivelser ved at se på dem i tre til fem sekunder.
Dette system, der blev præsenteret på ACM CHI-konferencen, bruger maskinlæring til at isolere og forstærke den ønskede talers stemme i realtid, selv når brugeren bevæger sig.
I øjeblikket er teknologien i proof-of-concept-stadiet og blev testet på 21 forsøgspersoner, som rapporterede om markant forbedret klarhed, og der er planer om at udvide til ørepropper og høreapparater.
Teksten udforsker strategier og teknologier til at forbedre høreoplevelser i støjende omgivelser med fokus på AI-hovedtelefoner, avanceret lyddesign og støjreducerende teknologier.
Den fremhæver udfordringerne ved moderne restaurantmaterialer, der bidrager til støj, og brugen af lyddæmpende teknikker på trods af vedligeholdelse og æstetiske problemer.
Teknologiske fremskridt som retningsmikrofoner, talegenkendelse i realtid og selektiv lydfiltrering diskuteres sammen med bekymringer om privatlivets fred og potentielt misbrug.
Det tidligere OpenAI-bestyrelsesmedlem Helen Toner afslørede, at Sam Altman kortvarigt blev fjernet som CEO på grund af flere tilfælde af uærlighed og tilbageholdelse af information fra bestyrelsen.
Eksemplerne omfatter, at bestyrelsen fik kendskab til ChatGPT's udgivelse via Twitter, og at Altman ikke oplyste om sin økonomiske interesse i virksomheden, samt beskyldninger om at have givet unøjagtige sikkerhedsoplysninger og "psykologisk misbrug" af to ledere.
Altman blev genindsat som CEO mindre end en uge senere, efter at medarbejderne truede med at sige op, og Microsoft udtrykte interesse for at ansætte hans team; Toner sagde op kort tid efter hans tilbagevenden.
OpenAI's CEO Sam Altman blev kortvarigt afsat og derefter genansat, hvilket afslørede spændinger mellem bestyrelsens autoritet og indflydelsen fra vigtige investorer og grundlæggere.
Bestyrelsens dårlige håndtering af Altmans fyring førte til betydelige reaktioner fra medarbejderne og trusler om masseafskedigelse, hvilket understreger den komplekse dynamik mellem virksomhedsledelse, medarbejderindflydelse og økonomiske interesser.
Hændelsen udløste bredere diskussioner om lederskab i tech, etiske konsekvenser af hensynsløs adfærd og kommunikationens og etikkens rolle i virksomhedsledelse.
HTTP-til-HTTPS-omdirigering kan afsløre følsomme data eller muliggøre Man-In-The-Middle (MITM)-angreb, især for API'er, der tilgås af software, som måske ikke håndterer sikkerhedsoverskrifter.
Teknikker som HSTS (HTTP Strict Transport Security) og HTTPS-Only-tilstande forbedrer sikkerheden, men er måske ikke tilstrækkelige for API'er, hvilket understreger behovet for en fejlfri tilgang til at fange fejl tidligt.
Bedste praksis bør opdateres, så det anbefales, at API'er helt afviser ukrypterede anmodninger og tilbagekalder API-legitimationsoplysninger, der sendes via ukrypterede forbindelser, for at forhindre sikkerhedsrisici.
Diskussionen lægger vægt på at forbedre API-sikkerheden ved at omdirigere HTTP til HTTPS og tilbagekalde API-nøgler sendt via HTTP for at forhindre Man-in-the-Middle (MITM)-angreb.
Den fremhæver vigtigheden af korrekt API-nøglehåndtering, brug af signerede hashes, nonces og tidsstempler til autentificering og nødvendigheden af HTTPS til dataintegritet og privatliv.
Samtalen kritiserer afhængigheden af certifikatudstedere og foreslår praktiske løsninger som unikke URL'er eller API-nøgler til sikker adgangskontrol i specifikke sammenhænge.
Llama3-V er en ny multimodal model baseret på Llama3, der er designet til at konkurrere med større modeller som GPT-4V, men til en betydeligt lavere pris (under 500 dollars).
Den overgår den nuværende state-of-the-art-model, Llava, med 10-20 % i benchmarks for multimodal forståelse ved hjælp af SigLIP til billedindlejring og tilpasning af visuelle og tekstlige tokens gennem en projektionsblok med selvopmærksomhedslag.
De vigtigste optimeringer omfatter forudberegning af billedindlejringer og udnyttelse af MPS/MLX til effektiv træning, med en træningsproces, der involverer pretraining på 600.000 eksempler og overvåget finjustering på 1 million eksempler.
Artiklen sammenligner forskellige multimodale AI-modeller med fokus på Llama 3-V, som har til formål at matche GPT-4V's ydeevne, men som er mindre og billigere.
Den fremhæver, at modeller som InternVL-1.5 og CogVLM klarer sig bedre end Llava, og at specifikke modeller udmærker sig i opgaver som OCR (Optical Character Recognition) og GUI (Graphical User Interface)-forståelse.
Brugerne diskuterer praktiske anvendelser, begrænsninger og omkostningseffektiviteten af disse modeller, herunder brugen af GPT-4V i produktionen til visuelle opgaver og effektiviteten af moderne OCR-værktøjer som PaddleOCR og TrOCR.
Den 29. maj 2024 lancerede Mistral AI Codestral, en open-weight generativ AI-model til kodegenerering, der er trænet på over 80 programmeringssprog.
Codestral har en modelstørrelse på 22B og et 32k kontekstvindue og klarer sig bedre end konkurrenterne i benchmarks som RepoBench og HumanEval.
Codestral er tilgængelig under Mistral AI Non-Production License og kan tilgås via et dedikeret endpoint eller integreres i værktøjer som VSCode og JetBrains, og udviklere roser dens hastighed, nøjagtighed og produktivitetseffekt.
Mistrals kodemodel, der er udgivet af mistral.ai, har en restriktiv licens, der forbyder kommerciel brug, live-forhold og intern brug i virksomheden, hvilket begrænser dens praktiske anvendelser og giver anledning til kritik.
Debatten om Mistrals licens belyser bredere spørgsmål om ophavsret og licenser i AI-genereret indhold og misbrug af begrebet "open source" i AI.
Brugerne udtrykker frustration over AI's inkonsekvente kodegenerering, især i forbindelse med komplekse opgaver, og diskuterer begrænsningerne og mulighederne i forskellige AI-modeller, herunder Metas Llama og OpenAI's GPT-modeller.
Artiklen "What We Learned from a Year of Building with LLMs (Part I)" af Eugene Yan og kolleger udforsker de hurtige fremskridt og praktiske anvendelser af store sprogmodeller (LLM'er), samtidig med at den tager fat på udfordringerne ved at udvikle effektive AI-produkter.
De vigtigste erfaringer omfatter bedste praksis inden for prompting, retrieval-augmented generation (RAG), flow engineering og evaluering, hvor teknikker som n-shot prompts og chain-of-thought prompts fremhæves.
Artiklen giver også operationelle råd om styring af AI-agenter, forbedring af prompter, finjustering af modeller og reduktion af omkostninger og ventetid gennem caching, idet der lægges vægt på praktiske evalueringer og menneskecentrerede tilgange.
Indsigter fra et års arbejde med store sprogmodeller (LLM'er) fremhæver vigtigheden af flere prøveudtagninger for at reducere hallucinationsraten og generere begrundelser før beslutninger for at opnå mere præcise resultater.
Artiklen diskuterer udfordringer med at evaluere LLM-output, temperaturens indvirkning på output-tilfældigheder og misforståelser om sampling sammen med erfaringer med værktøjer som patchbots og strålesøgning.
Den tager fat på bekymringer i branchen som f.eks. høje fejlprocenter, FOMO-drevne investeringer og det aggressive pres fra virksomheder som Google for at integrere AI på trods af potentielle problemer med servicekvaliteten.
Professor Kevin Murphy fra University of Limerick hævder, at fjernarbejdere er mere produktive og tilfredse sammenlignet med dem, der arbejder på kontorer.
Presset for RTO-mandater (Return to Office) efter pandemien risikerer at miste toptalenter, da mange medarbejdere nu afviser traditionelle kontornormer.
Ledere bør give overbevisende grunde og incitamenter til at vende tilbage til kontoret og anerkende skiftet i magtdynamik til fordel for medarbejderne eller risikere at miste værdifuldt talent til mere fleksible konkurrenter.
Debatten mellem fjernarbejde og RTO-mandater (return-to-office) handler om fleksibilitet, komfort og det potentielle tab af medarbejdere, der foretrækker fjernarbejde.
Pendling giver en mental pause for nogle, men giver udfordringer som forurening, høje omkostninger og slørede grænser for andre, hvilket påvirker balancen mellem arbejdsliv og privatliv og karriereudvikling.
Fjernarbejde anses for at være mere effektivt og bæredygtigt og giver fordele som mere tid til familien og mindre CO2-udledning, men det kan gå ud over yngre medarbejdere og kræver klar kommunikation af RTO-fordele.
Bill C-26, et føderalt lovforslag om cybersikkerhed i Canada, giver regeringen beføjelser til at tvinge teleselskaber til at installere bagdøre i krypterede netværk, hvilket potentielt kan kompromittere sikkerheden.
Kritikere, herunder University of Toronto's Citizen Lab, hævder, at disse foranstaltninger vil svække 5G-kryptering og andre sikkerhedsfunktioner og øge sårbarheden over for cybertrusler.
På trods af eksperternes advarsler er lovforslaget gået videre uden ændringer, hvilket er i modstrid med Canadas holdning til kryptering og potentielt skaber en farlig præcedens for andre lande.
Den canadiske regering søger bemyndigelse til at skabe hemmelige bagdøre i telenetværk til overvågning uden om traditionelt juridisk tilsyn, hvilket giver anledning til betydelige bekymringer om privatlivets fred og potentiale for misbrug af retshåndhævelse.
Kritikere hævder, at dette kan føre til invasiv overvågning i lighed med NSA's praksis, hvilket involverer debatter om Canadas forfatning, "notwithstanding clause" og lovlige aflytningsmuligheder.
Diskussionen omfatter historiske eksempler på overvågning, f.eks. under lastbilchaufførernes protester, og bredere temaer om regeringsovergreb, privatlivets fred og samfundets reaktioner på autoritet.