University of Washington (UW) har utviklet et AI-system kalt "Target Speech Hearing" som hjelper brukere med å fokusere på én enkelt høyttaler i støyende omgivelser ved å se på vedkommende i tre til fem sekunder.
Dette systemet, som ble presentert på ACM CHI-konferansen, bruker maskinlæring til å isolere og forsterke stemmen til den ønskede taleren i sanntid, selv når brukeren beveger seg.
Teknologien er foreløpig på proof-of-concept-stadiet, og ble testet på 21 forsøkspersoner som rapporterte betydelig forbedret klarhet, med fremtidige planer om å utvide til ørepropper og høreapparater.
Teksten utforsker strategier og teknologier for å forbedre hørselsopplevelsen i støyende omgivelser, med fokus på AI-hodetelefoner, avansert lyddesign og støyreduserende teknologi.
Den belyser utfordringene med moderne restaurantmaterialer som bidrar til støy, og bruken av lyddempende teknikker til tross for vedlikehold og estetiske problemer.
Teknologiske fremskritt som retningsmikrofoner, talegjenkjenning i sanntid og selektiv lydfiltrering blir diskutert, sammen med bekymringer rundt personvern og potensielt misbruk.
Helen Toner, tidligere styremedlem i OpenAI, avslørte at Sam Altman i en kort periode ble avsatt som administrerende direktør på grunn av flere tilfeller av uredelighet og tilbakeholdelse av informasjon fra styret.
Eksempler på dette er at styret fikk vite om ChatGPTs lansering via Twitter, at Altman ikke opplyste om sine økonomiske interesser i selskapet, og at to ledere ble beskyldt for å ha gitt uriktig sikkerhetsinformasjon og "psykologisk mishandling".
Altman ble gjeninnsatt som administrerende direktør mindre enn en uke senere, etter at de ansatte truet med å slutte og Microsoft uttrykte interesse for å ansette teamet hans; Toner trakk seg kort tid etter at han kom tilbake.
OpenAIs administrerende direktør Sam Altman ble kortvarig avsatt og deretter ansatt på nytt, noe som avslørte spenninger mellom styrets autoritet og innflytelsen til viktige investorer og grunnleggere.
Styrets feilaktige håndtering av Altmans oppsigelse førte til betydelige reaksjoner fra de ansatte og trusler om masseoppsigelser, noe som understreker den komplekse dynamikken mellom selskapsstyring, ansattes innflytelse og økonomiske interesser.
Hendelsen utløste bredere diskusjoner om lederskap i teknologibransjen, etiske implikasjoner av hensynsløs atferd og rollen kommunikasjon og etikk spiller i eierstyring og selskapsledelse.
HTTP-til-HTTPS-omdirigering kan eksponere sensitive data eller muliggjøre MITM-angrep (Man-In-The-Middle), spesielt for API-er som brukes av programvare som kanskje ikke håndterer sikkerhetsoverskrifter.
Teknikker som HSTS (HTTP Strict Transport Security) og HTTPS-Only-modus forbedrer sikkerheten, men er kanskje ikke tilstrekkelig for API-er, noe som understreker behovet for en feilfri tilnærming for å fange opp feil tidlig.
Beste praksis bør oppdateres for å anbefale at API-er avviser ukrypterte forespørsler fullstendig og tilbakekaller API-legitimasjon som sendes via ukrypterte tilkoblinger, for å forhindre sikkerhetsrisiko.
Diskusjonen legger vekt på å forbedre API-sikkerheten ved å omdirigere HTTP til HTTPS og tilbakekalle API-nøkler som sendes via HTTP for å forhindre MITM-angrep (Man-in-the-Middle).
Den fremhever viktigheten av riktig API-nøkkeladministrasjon, bruk av signerte hasher, nonces og tidsstempler for autentisering, og nødvendigheten av HTTPS for dataintegritet og personvern.
Samtalen kritiserer avhengigheten av sertifikatmyndigheter og foreslår praktiske løsninger som unike URL-er eller API-nøkler for sikker tilgangskontroll i spesifikke sammenhenger.
Llama3-V er en ny multimodal modell basert på Llama3, som er utviklet for å konkurrere med større modeller som GPT-4V, men til en betydelig lavere pris (under 500 dollar).
Den overgår den nåværende toppmodellen, Llava, med 10-20 % i benchmarks for multimodal forståelse, ved hjelp av SigLIP for bildeinnbygging og justering av visuelle og tekstlige symboler gjennom en projeksjonsblokk med selvoppmerksomhetslag.
Viktige optimaliseringer omfatter forhåndsberegning av bildeinnbygging og utnyttelse av MPS/MLX for effektiv opplæring, med en opplæringsprosess som omfatter forhåndstrening på 600 000 eksempler og overvåket finjustering på 1 million eksempler.
Artikkelen sammenligner ulike multimodale AI-modeller, med fokus på Llama 3-V, som har som mål å matche ytelsen til GPT-4V, men som er mindre og billigere.
Den viser at modeller som InternVL-1.5 og CogVLM utkonkurrerer Llava, og at spesifikke modeller utmerker seg i oppgaver som OCR (Optical Character Recognition) og GUI (Graphical User Interface).
Brukerne diskuterer praktiske bruksområder, begrensninger og kostnadseffektiviteten til disse modellene, inkludert bruk av GPT-4V i produksjon for visuelle oppgaver og effektiviteten til moderne OCR-verktøy som PaddleOCR og TrOCR.
mai 2024 lanserte Mistral AI Codestral, en generativ AI-modell med åpen vekt for generering av kode, trent på over 80 programmeringsspråk.
Codestral har en modellstørrelse på 22B og et 32k kontekstvindu, noe som gir bedre resultater enn konkurrentene i benchmarks som RepoBench og HumanEval.
Codestral er tilgjengelig under Mistral AI Non-Production License og kan brukes via et dedikert endepunkt eller integreres i verktøy som VSCode og JetBrains, og utviklere roser hastigheten, nøyaktigheten og produktivitetseffekten.
Mistrals kodemodell, som er utgitt av mistral.ai, har en restriktiv lisens som forbyr kommersiell bruk, live-forhold og bedriftsintern bruk, noe som begrenser de praktiske bruksområdene og vekker kritikk.
Debatten rundt Mistrals lisens belyser bredere spørsmål om opphavsrett og lisensiering av AI-generert innhold og misbruk av begrepet "åpen kildekode" innen AI.
Brukerne uttrykker frustrasjon over AIs inkonsekvente kodegenerering, særlig når det gjelder komplekse oppgaver, og diskuterer begrensningene og mulighetene til ulike AI-modeller, inkludert Metas Llama og OpenAIs GPT-modeller.
Artikkelen "What We Learned from a Year of Building with LLMs (Part I)" av Eugene Yan og kolleger tar for seg den raske utviklingen og de praktiske anvendelsene av store språkmodeller (LLM), samtidig som den tar for seg utfordringene med å utvikle effektive AI-produkter.
De viktigste lærdommene omfatter beste praksis innen prompting, RAG (retrieval-augmented generation), flow engineering og evaluering, med vekt på teknikker som n-shot prompter og chain-of-thought prompting.
Artikkelen gir også operasjonelle råd om håndtering av AI-agenter, finjustering av meldinger, finjustering av modeller og reduksjon av kostnader og ventetid ved hjelp av caching, med vekt på praktiske evalueringer og menneskesentrerte tilnærminger.
Etter ett års arbeid med store språkmodeller (Large Language Models, LLM) har vi fått innsikt i hvor viktig det er å ta flere prøver for å redusere hallusinasjonsfrekvensen og generere begrunnelser før beslutninger for å få mer nøyaktige resultater.
Artikkelen tar for seg utfordringer ved evaluering av LLM-resultater, temperaturens innvirkning på utdataenes tilfeldighet og misoppfatninger om sampling, samt erfaringer med bruk av verktøy som patchbots og strålesøk.
Den tar for seg bekymringer i bransjen, som høye feilprosenter, FOMO-drevne investeringer og det aggressive presset fra selskaper som Google for å integrere AI til tross for potensielle problemer med tjenestekvaliteten.
Professor Kevin Murphy fra University of Limerick hevder at fjernarbeidere er mer produktive og fornøyde sammenlignet med dem som jobber på kontor.
Presset for å innføre RTO-mandater (Return to Office) etter pandemien kan føre til at vi mister de beste talentene, ettersom mange ansatte nå avviser tradisjonelle kontornormer.
Ledere bør gi overbevisende grunner og insentiver for å vende tilbake til kontoret, og erkjenne at maktdynamikken har endret seg til fordel for de ansatte, ellers risikerer de å miste verdifulle talenter til mer fleksible konkurrenter.
Debatten om fjernarbeid og retur til kontoret (RTO) dreier seg om fleksibilitet, komfort og det potensielle tapet av ansatte som foretrekker fjernarbeid.
Pendling gir en mental pause for noen, men byr på utfordringer som forurensning, høye kostnader og uklare grenser for andre, noe som påvirker balansen mellom arbeid og fritid og karriereutvikling.
Fjernarbeid anses som mer effektivt og bærekraftig, og gir fordeler som mer tid til familien og reduserte karbonutslipp, men det kan føre til at yngre medarbeidere blir oversett, og det krever tydelig kommunikasjon om fordelene ved fjernarbeid.
Bill C-26, et føderalt lovforslag om cybersikkerhet i Canada, gir myndighetene fullmakter til å tvinge teleselskaper til å installere bakdører i krypterte nettverk, noe som potensielt kan kompromittere sikkerheten.
Kritikerne, deriblant Citizen Lab ved University of Toronto, hevder at disse tiltakene vil svekke 5G-kryptering og andre sikkerhetsfunksjoner, noe som øker sårbarheten for cybertrusler.
Til tross for ekspertenes advarsler har lovforslaget blitt fremmet uten endringer, noe som strider mot Canadas holdning til kryptering og potensielt kan skape en farlig presedens for andre land.
Den kanadiske regjeringen ønsker å få fullmakt til å opprette hemmelige bakdører i telenettverk for overvåking, utenom tradisjonell juridisk kontroll, noe som reiser betydelige bekymringer for personvernet og potensialet for misbruk fra politiets side.
Kritikerne hevder at dette kan føre til inngripende overvåking på linje med NSAs praksis, noe som innebærer debatter om Canadas grunnlov, "unntaksklausulen" og mulighetene for lovlig avlytting.
Diskusjonen omfatter historiske eksempler på overvåking, som under lastebilprotestene, og bredere temaer som statlig overstyring, personvern og samfunnets reaksjoner på autoriteter.
Artikkelen diskuterer tre grunnleggende lover som bidrar til unødvendig kompleksitet i programvareutvikling, spesielt i infrastruktursystemer.
Første lov: Godt utformede systemer degraderes til dårlig utformede systemer over tid på grunn av kontinuerlige endringer.
Den andre loven: Kompleksiteten øker når vellykkede systemer prioriterer markedsandeler fremfor god abstraksjonsdesign, noe som fører til systemer som er vanskelige å modifisere.
Tredje lov: Det finnes ingen øvre grense for programvarekompleksitet, og dette skyldes utviklernes ulike evner og filosofier, noe som resulterer i intrikate design.
Diskusjonen tar for seg utfordringene med å håndtere programvarekompleksitet, spesielt i eldre systemer, og avveiningene mellom kostnad og kvalitet, som ofte fører til teknisk gjeld.
Den legger vekt på viktigheten av inkrementell refaktorisering, en sterk utviklingskultur og å skille mellom essensiell og utilsiktet kompleksitet for å håndtere programvare på en effektiv måte.
Deltakerne fremhever nødvendigheten av kontinuerlig vedlikehold, konsekvensene av dårlige utviklingsvalg og ledelsens rolle når det gjelder å rettferdiggjøre refaktoriseringsarbeidet.
Michael Lynch skapte TinyPilot i midten av 2020, en enhet for fjernstyring av servere, som raskt ble populær og vokste til en bedrift med en årlig omsetning på 1 million dollar og et team på syv ansatte.
Lynch solgte TinyPilot for 600 000 dollar, med en gevinst på 490 803 dollar etter utgifter, på grunn av stresset ved å drive en maskinvarevirksomhet og et ønske om å gå tilbake til koding og stifte familie.
Salget, som ble gjennomført av Quiet Light Brokerage, innebar utfordringer som å balansere stresset hos grunnleggeren, finne en kjøper og gjennomføre en due diligence; kjøperen var Scott, som jobber innen corporate media.
Michael Lynch solgte virksomheten TinyPilot, og diskuterte de betydelige kostnadene som var forbundet med salget, blant annet meglerprovisjoner og advokatutgifter, som utgjorde rundt 18 % av salgsprisen.
Lynchs gründerreise inkluderte overgangen fra en høytlønnet jobb hos Google til å verdsette autonomi og kreativitet, fremheve den pedagogiske verdien av entreprenørskap og kritisere teknologibransjens fokus på totalkompensasjon.
Lynch planlegger å starte opp fremtidige virksomheter med fokus på utdanningsprodukter og Software as a Service (SaaS), og unngår maskinvare på grunn av kompleksiteten og utfordringene.
I november 2023 sparket OpenAIs styre uventet administrerende direktør Sam Altman med begrunnelsen "direkte løgnaktig" og manipulerende oppførsel, noe som svekket tilliten.
Blant de konkrete forholdene var Altmans hemmeligholdte eierskap i OpenAI Startup Fund, uriktig sikkerhetsinformasjon og et giftig arbeidsmiljø.
Til tross for disse påstandene førte internt og eksternt press, inkludert støtte fra ansatte og Microsoft, til at Altman ble gjeninnsatt i stillingen, og en uavhengig gjennomgang fant ingen problemer med produktsikkerheten eller selskapets drift.
Et tidligere styremedlem i OpenAI avslørte at Sam Altman ble avskjediget på grunn av uredelighet, noe som reiser spørsmål om styrets bevissthet rundt ChatGPTs lansering.
Situasjonen har satt i gang diskusjoner om åpenhet i organisasjonen, styrekontroll og etisk styring, med sammenligninger til selskapskonkurser som Enron.
Det er skepsis til OpenAIs tillits- og sikkerhetspraksis, med avgang av ansatte og kritikk av Altmans lederskap, i tillegg til debatter om teknisk dyktighet og styrets rolle.
En stor lekkasje av interne Google Search-dokumenter har avslørt kritiske aspekter ved Googles rangeringsalgoritme, inkludert bruken av klikk, lenker, innhold, enheter og Chrome-data.
Bransjeekspertene Rand Fishkin og Michael King analyserte dokumentene, og avdekket 2596 rangeringsmoduler, betydningen av lenkemangfold, relevans, vellykkede klikk og merkevaregjenkjennelse.
Dokumentene avslører også Googles bruk av forfatterinformasjon, nettstedautoritet og "twiddlers" for å justere rangeringer, noe som gir verdifull innsikt for SEO-er til tross for den ukjente eksakte vektingen av rangeringsfaktorer.
Et lekket dokument fra Google Søk har satt i gang debatter om rangeringsalgoritmen og innflytelsen Googles annonseprogram har på søkeresultatene.
Brukerne diskuterer alternativer som Kagi og search.marginalia.nu, med blandede meninger om Kagis tilpasning, ikke-kommersielle fokus og problemer med spam og AI-generert innhold.
Samtalen belyser et ønske om søkemotorer som prioriterer brukerpreferanser fremfor annonseinntekter, og berører SEO-manipulasjon, potensialet til store språkmodeller (LLM) og bekymringer om ektheten til anmeldelser på nettet og Googles rangeringskriterier.
ChatTTS er en tekst-til-tale-modell (TTS) som er optimalisert for dialog, som støtter både engelsk og kinesisk, og som er trent på over 100 000 timer med data.
Open source-versjonen på HuggingFace inneholder en 40 000 timer lang forhåndstrenet modell, som utmerker seg med naturlig og uttrykksfull talesyntese med finkornet prosodisk kontroll.
Modellen er kun ment for akademisk bruk, men det er planer om å åpne opp flere funksjoner og forbedre stabiliteten.
Diskusjonen belyser utviklingen og ytelsen til TTS-modeller som ChatTTS og Piper TTS, og peker på problemer som treg prosessering og utfordringer med stemmekvalitet.
Brukerne understreker behovet for TTS av høy kvalitet på flere språk, og diskuterer effektiviteten av menneskelige kontra automatiserte stemmer i lydbøker.
Vi kritiserer misvisende påstander om "åpen kildekode" i TTS-prosjekter og etterlyser en omfattende liste over TTS-modeller og -data med åpen kildekode.
En lekkasje av 2500 sider med interne Google-dokumenter, delt av SEO-eksperten Rand Fishkin, kan avsløre uoverensstemmelser mellom Googles offentlige uttalelser og deres faktiske praksis når det gjelder søkealgoritmer.
Dokumentene antyder bruk av Chrome-data i rangeringer og sporing av forfatterinformasjon, noe som utfordrer Googles tidligere påstander og utløser debatt om selskapets åpenhet.
Google har ikke kommentert dokumentenes legitimitet, og hendelsen belyser den pågående bekymringen for den ugjennomsiktige karakteren til Googles søkeoperasjoner i en tid med antitrustgranskning.
En lekkasje av Googles dokumentasjon av søkealgoritmen har avslørt potensielle avvik mellom Googles offentlige uttalelser og deres faktiske praksis.
Lekkasjen tyder på at Googles representanter kan ha diskreditert nøyaktige funn fra markedsførings-, teknologi- og journalistmiljøer, noe som reiser etiske bekymringer om SEO-manipulasjon.
Juridiske diskusjoner på GitHub diskuterer betydningen og lovligheten av lekkasjen, med ulike meninger om dens innvirkning på status som forretningshemmelighet og opphavsrettslig beskyttelse.