2024-05-29

AI-hörlurar isolerar enstaka talare i folkmassor genom blickdetektering

University of Washington (UW) har utvecklat ett AI-system med namnet "Target Speech Hearing" som hjälper användare att fokusera på en enda talare i bullriga miljöer genom att titta på dem i tre till fem sekunder.
Systemet, som presenterades vid ACM CHI-konferensen, använder maskininlärning för att isolera och förstärka den önskade talarens röst i realtid, även när användaren rör sig.
Tekniken är för närvarande i proof-of-concept-stadiet och testades på 21 personer som rapporterade betydligt förbättrad klarhet, med framtida planer på att expandera till öronsnäckor och hörapparater.

Reaktioner

Texten utforskar strategier och teknik för att förbättra hörselupplevelser i bullriga miljöer, med fokus på AI-hörlurar, avancerad ljuddesign och brusreducerande teknik.
Den belyser utmaningarna med moderna restaurangmaterial som bidrar till buller och användningen av ljuddämpande tekniker trots underhålls- och estetiska problem.
Tekniska framsteg som riktmikrofoner, taligenkänning i realtid och selektiv ljudfiltrering diskuteras, liksom frågor om integritet och potentiellt missbruk.

Före detta styrelseledamot i OpenAI avslöjar lögner och oegentligheter bakom Sam Altmans kortvariga avsättning

Helen Toner, tidigare styrelseledamot i OpenAI, avslöjade att Sam Altman under en kort tid avsattes som VD på grund av flera fall av oärlighet och undanhållande av information från styrelsen.
Exempel på detta var att styrelsen fick kännedom om ChatGPT:s lansering via Twitter och att Altman inte avslöjade sitt ekonomiska intresse i bolaget, samt anklagelser om att ha tillhandahållit felaktig säkerhetsinformation och "psykologisk misshandel" av två chefer.
Altman återinsattes som VD mindre än en vecka senare efter att personalen hotat att säga upp sig och Microsoft uttryckt intresse för att anställa hans team; Toner avgick kort efter hans återkomst.

Reaktioner

OpenAI:s VD Sam Altman avsattes kortvarigt och återanställdes sedan, vilket avslöjade spänningar mellan styrelsens auktoritet och inflytandet från viktiga investerare och grundare.
Styrelsens felaktiga hantering av Altmans avsked ledde till betydande motreaktioner från de anställda och hot om massavgång, vilket understryker den komplexa dynamiken mellan bolagsstyrning, medarbetarinflytande och ekonomiska intressen.
Händelsen gav upphov till bredare diskussioner om ledarskap inom teknik, etiska konsekvenser av hänsynslöst beteende samt kommunikationens och etikens roll i bolagsstyrningen.

Omdöme om HTTP-till-HTTPS-omdirigering för API:er för att förbättra säkerheten

HTTP-till-HTTPS-omdirigering kan exponera känsliga data eller möjliggöra MITM-attacker (Man-In-The-Middle), särskilt för API:er som nås av programvara som kanske inte hanterar säkerhetsrubriker.
Tekniker som HSTS (HTTP Strict Transport Security) och HTTPS-Only-lägen förbättrar säkerheten men är kanske inte tillräckliga för API:er, vilket understryker behovet av en fail-fast-strategi för att upptäcka fel tidigt.
Bästa praxis bör uppdateras för att rekommendera att API:er avvisar okrypterade förfrågningar helt och hållet och återkallar API-autentiseringsuppgifter som skickas via okrypterade anslutningar för att förhindra säkerhetsrisker.

Reaktioner

I diskussionen betonas vikten av att förbättra API-säkerheten genom att omdirigera HTTP till HTTPS och återkalla API-nycklar som skickas via HTTP för att förhindra MITM-attacker (Man-in-the-Middle).
Den belyser vikten av korrekt hantering av API-nycklar, användning av signerade hasher, nonces och tidsstämplar för autentisering samt nödvändigheten av HTTPS för dataintegritet och sekretess.
Samtalet kritiserar beroendet av certifikatutfärdare och föreslår praktiska lösningar som unika webbadresser eller API-nycklar för säker åtkomstkontroll i specifika sammanhang.

Llama3-V: En multimodal modell för 500 dollar konkurrerar med GPT-4V i prestanda

Llama3-V är en ny multimodal modell baserad på Llama3, utformad för att konkurrera med större modeller som GPT-4V men till en betydligt lägre kostnad (under 500 USD).
Den överträffar den nuvarande toppmodellen Llava med 10-20% i benchmarks för multimodal förståelse, med hjälp av SigLIP för bildinbäddning och anpassning av visuella och textuella symboler genom ett projektionsblock med självuppmärksammade lager.
Viktiga optimeringar inkluderar förberäkning av bildinbäddningar och utnyttjande av MPS/MLX för effektiv träning, med en träningsprocess som omfattar förträning på 600.000 exempel och övervakad finjustering på 1 miljon exempel.

Reaktioner

I artikeln jämförs olika multimodala AI-modeller med fokus på Llama 3-V, som syftar till att matcha GPT-4V:s prestanda men är mindre och billigare.
Den visar att modeller som InternVL-1.5 och CogVLM överträffar Llava, och att vissa modeller utmärker sig i uppgifter som OCR (Optical Character Recognition) och GUI (Graphical User Interface) förståelse.
Användarna diskuterar praktiska tillämpningar, begränsningar och kostnadseffektiviteten hos dessa modeller, inklusive användningen av GPT-4V i produktion för visuella uppgifter och effektiviteten hos moderna OCR-verktyg som PaddleOCR och TrOCR.

Mistral AI presenterar Codestral: En kraftfull generativ AI för kodgenerering

Den 29 maj 2024 lanserade Mistral AI Codestral, en generativ AI-modell med öppen vikt för kodgenerering, tränad på över 80 programmeringsspråk.
Codestral har en modellstorlek på 22B och ett kontextfönster på 32k och överträffar konkurrenterna i benchmarks som RepoBench och HumanEval.
Codestral är tillgängligt under Mistral AI Non-Production License och kan nås via en dedikerad slutpunkt eller integreras i verktyg som VSCode och JetBrains, och utvecklare berömmer dess hastighet, noggrannhet och produktivitetseffekt.

Reaktioner

Mistrals kodmodell, som släpps av mistral.ai, har en restriktiv licens som förbjuder kommersiell användning, liveförhållanden och intern användning av företaget, vilket begränsar dess praktiska tillämpningar och väcker kritik.
Debatten kring Mistrals licens belyser bredare frågor om upphovsrätt och licensiering av AI-genererat innehåll och missbruket av termen "öppen källkod" inom AI.
Användarna uttrycker frustration över AI:s inkonsekventa kodgenerering, särskilt i komplexa uppgifter, och diskuterar begränsningarna och kapaciteten hos olika AI-modeller, inklusive Metas Llama och OpenAI:s GPT-modeller.

Viktiga lärdomar från ett år av byggande med stora språkmodeller (del I)

Artikeln "What We Learned from a Year of Building with LLMs (Part I)" av Eugene Yan och kollegor utforskar de snabba framstegen och praktiska tillämpningarna av stora språkmodeller (LLM), samtidigt som den tar upp utmaningarna med att utveckla effektiva AI-produkter.
Viktiga lärdomar inkluderar bästa praxis inom prompting, RAG (retrieval-augmented generation), flödesteknik och utvärdering, med tekniker som n-shot prompts och chain-of-thought prompts som betonas.
Artikeln ger också operativa råd om hur man hanterar AI-agenter, förfinar uppmaningar, finjusterar modeller och minskar kostnader och latens genom cachelagring, med betoning på praktiska utvärderingar och människocentrerade tillvägagångssätt.

Reaktioner

Insikterna från ett års arbete med stora språkmodeller (LLM) visar hur viktigt det är med multipla provtagningar för att minska antalet hallucinationer och att ta fram motiveringar före beslut för att få mer exakta resultat.
I artikeln diskuteras utmaningar med att utvärdera LLM-utdata, temperaturens inverkan på slumpmässigheten i utdata och missuppfattningar om sampling, tillsammans med erfarenheter av att använda verktyg som patchbots och beam search.
Den tar upp branschproblem som höga felfrekvenser, FOMO-drivna investeringar och den aggressiva drivkraften hos företag som Google att integrera AI trots potentiella problem med servicekvaliteten.

Mandat för återgång till arbetet riskerar att förlora topptalanger, varnar expert

Professor Kevin Murphy från University of Limerick hävdar att distansarbetare är mer produktiva och nöjda jämfört med dem som arbetar på kontor.
Kraven på återgång till kontoret (RTO) efter pandemin riskerar att leda till att vi förlorar topptalanger, eftersom många anställda nu tar avstånd från traditionella kontorsnormer.
Cheferna bör ge övertygande skäl och incitament för att återvända till kontoret och erkänna förändringen i maktdynamiken till förmån för medarbetarna, annars riskerar de att förlora värdefulla talanger till mer flexibla konkurrenter.

Reaktioner

Debatten mellan distansarbete och återgång till kontoret (RTO) handlar om flexibilitet, komfort och den potentiella förlusten av medarbetare som föredrar distansarbete.
Pendling ger en mental paus för vissa, men innebär utmaningar som föroreningar, höga kostnader och suddiga gränser för andra, vilket påverkar balansen mellan arbete och privatliv och karriärutvecklingen.
Distansarbete ses som mer effektivt och hållbart och erbjuder fördelar som ökad tid för familjen och minskade koldioxidutsläpp, men kan försumma yngre medarbetare och kräver tydlig kommunikation om RTO-fördelarna.

Kanadas lagförslag C-26: Kontroversiella befogenheter att installera bakdörrar i nätverk för övervakning

Bill C-26, en federal lag om cybersäkerhet i Kanada, ger regeringen befogenheter att tvinga telekomföretag att installera bakdörrar i krypterade nätverk, vilket potentiellt kan äventyra säkerheten.
Kritiker, däribland Citizen Lab vid University of Toronto, hävdar att dessa åtgärder skulle försvaga 5G-kryptering och andra säkerhetsfunktioner, vilket ökar sårbarheten för cyberhot.
Trots experternas varningar har lagförslaget gått vidare utan ändringar, vilket motsäger Kanadas inställning till kryptering och potentiellt skapar ett farligt prejudikat för andra länder.

Reaktioner

Den kanadensiska regeringen ansöker om tillstånd att skapa hemliga bakdörrar i telekomnätverk för övervakning, genom att kringgå traditionell rättslig tillsyn, vilket ger upphov till betydande integritetsfrågor och risk för missbruk av brottsbekämpande myndigheter.
Kritiker hävdar att detta kan leda till invasiv övervakning som liknar NSA:s metoder, vilket leder till debatter om Kanadas konstitution, "undantagsklausulen" och lagliga avlyssningsmöjligheter.
Diskussionen omfattar historiska exempel på övervakning, till exempel under lastbilschaufförernas protester, och bredare teman som myndighetsövergrepp, integritet och samhällets reaktioner på auktoriteter.

Tre grundläggande lagar som styr den oundvikliga komplexiteten hos mjukvarusystem

I artikeln diskuteras tre grundläggande lagar som bidrar till onödig komplexitet inom programvaruutveckling, särskilt inom infrastruktursystem.
Första lagen: Välkonstruerade system försämras till dåligt konstruerade system över tiden på grund av kontinuerliga modifieringar.
andra lagen: Komplexiteten ökar när framgångsrika system prioriterar marknadsandelar framför bra abstraktionsdesign, vilket leder till system som är svåra att modifiera.
Tredje lagen: Det finns ingen övre gräns för programvarans komplexitet, som drivs av utvecklarnas olika förmågor och filosofier, vilket resulterar i invecklade konstruktioner.

Reaktioner

Diskussionen tar upp utmaningarna med att hantera mjukvarukomplexitet, särskilt i äldre system, och avvägningarna mellan kostnad och kvalitet, vilket ofta leder till teknisk skuld.
Den betonar vikten av inkrementell refaktorisering, att upprätthålla en stark ingenjörskultur och att skilja mellan nödvändig och oavsiktlig komplexitet för att hantera programvara på ett effektivt sätt.
Deltagarna belyser nödvändigheten av kontinuerligt underhåll, effekterna av dåliga utvecklingsval och ledningens roll när det gäller att motivera refaktoriseringsinsatser.

Från uppstart till försäljning: Michael Lynchs resa med TinyPilot

Michael Lynch skapade TinyPilot i mitten av 2020, en enhet för fjärrstyrning av servrar, som snabbt blev populär och växte till ett företag med en årlig omsättning på 1 miljon dollar och ett team på sju personer.
Lynch sålde TinyPilot för 600 000 dollar, med ett nettoresultat på 490 803 dollar efter kostnader, på grund av stressen med att hantera ett hårdvaruföretag och en önskan att återvända till kodning och bilda familj.
Försäljningen, som underlättades av Quiet Light Brokerage, innebar utmaningar som att balansera grundarens stress, hitta en köpare och hantera due diligence; köparen var Scott, som arbetar med företagsmedier.

Reaktioner

Michael Lynch sålde sitt företag TinyPilot och diskuterade de betydande kostnaderna i samband med försäljningen, inklusive mäklarprovisioner och juridiska avgifter, som uppgick till cirka 18% av försäljningspriset.
Lynchs entreprenörsresa inkluderade en övergång från ett högavlönat jobb på Google till att värdesätta självständighet och kreativitet, lyfta fram entreprenörskapets pedagogiska värde och kritisera teknikbranschens fokus på total ersättning.
Lynch planerar att starta upp framtida företag, med fokus på utbildningsprodukter och SaaS (Software as a Service), och undvika hårdvara på grund av dess komplexitet och utmaningar.

Tidigare styrelseledamot i OpenAI avslöjar skälen bakom Sam Altmans avskedande och återinsättande

I november 2023 avskedade OpenAI:s styrelse oväntat VD Sam Altman med hänvisning till "direkta lögner" och manipulativt beteende som undergrävt förtroendet.
Specifika frågor inkluderade Altmans hemliga ägande av OpenAI Startup Fund, tillhandahållande av felaktig säkerhetsinformation och skapande av en giftig arbetsmiljö.
Trots dessa anklagelser ledde interna och externa påtryckningar, inklusive stöd från anställda och Microsoft, till att Altman återinsattes i tjänst, och en oberoende granskning visade att det inte fanns några problem med produktsäkerheten eller företagets verksamhet.

Reaktioner

En tidigare styrelseledamot i OpenAI avslöjade att Sam Altman avskedades på grund av oärlighet, vilket väckte frågor om styrelsens medvetenhet om ChatGPT:s lansering.
Situationen har gett upphov till diskussioner om organisatorisk transparens, styrelsekontroll och etisk styrning, med jämförelser med företagsfiaskon som Enron.
Det finns en skepsis mot OpenAI:s förtroende- och säkerhetsrutiner, med avhoppade medarbetare och kritik mot Altmans ledarskap, parallellt med debatter om teknisk kompetens och styrelsens roll.

Google Search Leak avslöjar hemligheter för rankningsalgoritm och 2 596 moduler

En stor läcka av interna Google Search-dokument har avslöjat kritiska aspekter av Googles rankningsalgoritm, inklusive användningen av klick, länkar, innehåll, enheter och Chrome-data.
Branschexperterna Rand Fishkin och Michael King analyserade dokumenten och avslöjade 2.596 rankningsmoduler, betydelsen av länkdiversitet, relevans, framgångsrika klick och varumärkesigenkänning.
Dokumenten avslöjar också Googles användning av författarinformation, webbplatsauktoritet och "twiddlers" för att justera rankningar, vilket ger värdefulla insikter för SEO trots den okända exakta viktningen av rankningsfaktorer.

Reaktioner

Ett läckt dokument från Google Search har startat debatter om rankningsalgoritmen och hur Googles annonsprogram påverkar sökresultaten.
Användare diskuterar alternativ som Kagi och search.marginalia.nu, med blandade omdömen om Kagis anpassning, icke-kommersiella fokus och problem med spam och AI-genererat innehåll.
Samtalet lyfter fram en önskan om sökmotorer som prioriterar användarnas preferenser framför annonsintäkter, berör SEO-manipulation, potentialen i Large Language Models (LLM) och oro över äktheten i online-recensioner och Googles rankingkriterier.

ChatTTS: Avancerad TTS-modell med öppen källkod för naturlig dialog på engelska och kinesiska

ChatTTS är en text-till-tal-modell (TTS) som är optimerad för dialog, stöder både engelska och kinesiska och har tränats på över 100 000 timmars data.
Open source-versionen på HuggingFace innehåller en 40.000 timmar lång förtränad modell som utmärker sig genom naturlig och uttrycksfull talsyntes med finkornig prosodisk kontroll.
Modellen är endast avsedd för akademiskt bruk, med framtida planer på att använda öppen källkod för ytterligare funktioner och förbättra stabiliteten.

Reaktioner

Diskussionen belyser utvecklingen och prestandan hos TTS-modeller som ChatTTS och Piper TTS, och tar upp problem som långsam bearbetning och utmaningar med röstkvaliteten.
Användarna betonar behovet av TTS av hög kvalitet på flera språk och diskuterar effektiviteten hos mänskliga röster kontra automatiserade röster i ljudböcker.
Det finns en kritik av vilseledande påståenden om "öppen källkod" i TTS-projekt och en uppmaning till en omfattande lista över TTS-modeller och data som verkligen är öppen källkod.

Google tyst om påstådd läcka av 2 500 sidor som beskriver sökalgoritm

En läcka på 2 500 sidor med interna Google-dokument, som delats av SEO-experten Rand Fishkin, kan avslöja avvikelser mellan Googles offentliga uttalanden och dess faktiska praxis när det gäller sökalgoritmer.
Dokumenten tyder på att Chrome-data används i rankningar och spårning av författarinformation, vilket utmanar Googles tidigare påståenden och skapar debatt om företagets transparens.
Google har inte kommenterat dokumentens legitimitet, och händelsen belyser pågående farhågor om den ogenomskinliga karaktären hos Googles sökverksamhet mitt i antitrustgranskningen.

Reaktioner

En läcka av Googles dokumentation av sökalgoritmen har avslöjat potentiella avvikelser mellan Googles offentliga uttalanden och deras faktiska praxis.
Läckan tyder på att Googles representanter kan ha misskrediterat korrekta resultat från marknadsförings-, teknik- och journalistgrupperna, vilket väcker etiska frågor om SEO-manipulation.
Juridiska diskussioner på GitHub debatterar betydelsen och lagligheten av läckan, med olika åsikter om dess inverkan på statusen som affärshemlighet och upphovsrättsskydd.