De Universiteit van Washington (UW) heeft een AI-systeem ontwikkeld met de naam "Target Speech Hearing" dat gebruikers in lawaaiige omgevingen helpt zich te concentreren op één spreker door drie tot vijf seconden naar hem of haar te kijken.
Dit systeem, dat werd gepresenteerd op de ACM CHI-conferentie, gebruikt machine learning om de stem van de gewenste spreker in realtime te isoleren en te versterken, zelfs wanneer de gebruiker beweegt.
De technologie, die zich momenteel in de proof-of-conceptfase bevindt, werd getest op 21 proefpersonen die een aanzienlijk verbeterde helderheid meldden, met toekomstige plannen om uit te breiden naar oordopjes en gehoorapparaten.
De tekst verkent strategieën en technologieën om de auditieve ervaring in lawaaiige omgevingen te verbeteren, met de nadruk op AI-hoofdtelefoons, geavanceerd geluidsontwerp en ruisonderdrukkende technologieën.
Het belicht de uitdagingen van moderne restaurantmaterialen die bijdragen aan geluid en het gebruik van geluiddempende technieken ondanks onderhouds- en esthetische problemen.
Technologische ontwikkelingen zoals directionele microfoons, real-time spraakherkenning en selectieve geluidsfiltering worden besproken, samen met zorgen over privacy en mogelijk misbruik.
Voormalig OpenAI bestuurslid Helen Toner onthulde dat Sam Altman korte tijd werd verwijderd als CEO vanwege meerdere gevallen van oneerlijkheid en het achterhouden van informatie voor het bestuur.
Voorbeelden waren onder andere dat het bestuur via Twitter hoorde over de vrijlating van ChatGPT en dat Altman zijn financiële belang in het bedrijf niet bekendmaakte, samen met beschuldigingen van het verstrekken van onjuiste veiligheidsinformatie en "psychologisch misbruik" door twee leidinggevenden.
Altman werd minder dan een week later weer aangesteld als CEO nadat het personeel dreigde met opstappen en Microsoft interesse toonde in het aannemen van zijn team; Toner nam kort na zijn terugkeer ontslag.
OpenAI CEO Sam Altman werd kort weggestuurd en vervolgens weer aangenomen, wat spanningen blootlegde tussen de autoriteit van het bestuur en de invloed van belangrijke investeerders en oprichters.
Het feit dat de raad van bestuur niet goed omging met het ontslag van Altman leidde tot veel verzet onder de werknemers en dreigde met massaal aftreden, wat de complexe dynamiek van corporate governance, invloed van werknemers en financiële belangen onderstreept.
Het incident leidde tot bredere discussies over leiderschap in de technologiesector, ethische implicaties van meedogenloos gedrag en de rol van communicatie en ethiek in corporate governance.
HTTP-naar-THTTPS-omleiding kan gevoelige gegevens blootleggen of Man-In-The-Middle (MITM) aanvallen mogelijk maken, vooral voor API's die worden benaderd door software die mogelijk niet overweg kan met beveiligingsheaders.
Technieken zoals HSTS (HTTP Strict Transport Security) en HTTPS-Only modi verbeteren de beveiliging, maar zijn mogelijk niet voldoende voor API's, wat de noodzaak onderstreept van een 'fail-fast' benadering om fouten in een vroeg stadium op te sporen.
Best practices moeten worden bijgewerkt met de aanbeveling dat API's onversleutelde verzoeken volledig afwijzen en API-referenties die via onversleutelde verbindingen worden verzonden, intrekken om beveiligingsrisico's te voorkomen.
De discussie legt de nadruk op het verbeteren van de beveiliging van API's door HTTP om te leiden naar HTTPS en het intrekken van API-sleutels die via HTTP worden verzonden om MITM-aanvallen (Man-in-the-Middle) te voorkomen.
Het benadrukt het belang van goed beheer van API-sleutels, het gebruik van ondertekende hashes, nonces en tijdstempels voor authenticatie en de noodzaak van HTTPS voor gegevensintegriteit en privacy.
Het gesprek bekritiseert het vertrouwen op certificeringsinstanties en stelt praktische oplossingen voor zoals unieke URL's of API-sleutels voor veilige toegangscontrole in specifieke contexten.
Llama3-V is een nieuw multimodaal model gebaseerd op Llama3, ontworpen om te wedijveren met grotere modellen zoals GPT-4V, maar tegen een aanzienlijk lagere prijs (minder dan $500).
Het overtreft het huidige state-of-the-art model, Llava, met 10-20% in multimodale begripsbenchmarks, door gebruik te maken van SigLIP voor het insluiten van afbeeldingen en het uitlijnen van visuele en tekstuele tokens via een projectieblok met zelfattentielagen.
Tot de belangrijkste optimalisaties behoren het vooraf berekenen van beeldinbeddingen en het gebruik van MPS/MLX voor efficiënte training, met een trainingsproces dat bestaat uit pre-training op 600.000 voorbeelden en finetuning onder toezicht op 1 miljoen voorbeelden.
Het artikel vergelijkt verschillende multimodale AI-modellen en richt zich op Llama 3-V, dat de prestaties van GPT-4V wil evenaren maar kleiner en goedkoper is.
Het laat zien dat modellen als InternVL-1.5 en CogVLM beter presteren dan Llava, waarbij specifieke modellen uitblinken in taken als OCR (Optical Character Recognition) en GUI (Graphical User Interface) begrijpen.
Gebruikers bespreken praktische toepassingen, beperkingen en de kosteneffectiviteit van deze modellen, waaronder het gebruik van GPT-4V in de productie voor visuele taken en de effectiviteit van moderne OCR-tools zoals PaddleOCR en TrOCR.
Op 29 mei 2024 lanceerde Mistral AI Codestral, een open-gewicht generatief AI-model voor het genereren van code, getraind op meer dan 80 programmeertalen.
Codestral heeft een modelgrootte van 22B en een contextvenster van 32k, waardoor het beter presteert dan concurrenten in benchmarks zoals RepoBench en HumanEval.
Codestral is beschikbaar onder de Mistral AI Non-Production License en is toegankelijk via een speciaal eindpunt of geïntegreerd in tools als VSCode en JetBrains. Ontwikkelaars roemen de snelheid, nauwkeurigheid en productiviteitsimpact.
Mistral's Code Model, vrijgegeven door mistral.ai, heeft een beperkende licentie die commercieel gebruik, live-omstandigheden en intern bedrijfsgebruik verbiedt, wat de praktische toepassingen beperkt en kritiek oplevert.
Het debat rond de licentie van Mistral benadrukt bredere kwesties van auteursrecht en licenties in AI-gegenereerde inhoud en het misbruik van de term "open-source" in AI.
Gebruikers uiten hun frustratie over de inconsistente codegeneratie van AI, vooral bij complexe taken, en bespreken de beperkingen en mogelijkheden van verschillende AI-modellen, waaronder Meta's Llama en OpenAI's GPT-modellen.
Het artikel "What We Learned from a Year of Building with LLMs (Part I)" van Eugene Yan en collega's verkent de snelle vooruitgang en praktische toepassingen van grote taalmodellen (LLM's) en gaat in op de uitdagingen bij het ontwikkelen van effectieve AI-producten.
De belangrijkste lessen zijn best practices in prompting, retrieval-augmented generation (RAG), flow engineering en evaluatie, met nadruk op technieken zoals n-shot prompts en chain-of-thought prompting.
Het artikel geeft ook operationeel advies over het beheren van AI-agenten, het verfijnen van prompts, het verfijnen van modellen en het verminderen van kosten en latentie door caching, waarbij de nadruk ligt op praktische evaluaties en mensgerichte benaderingen.
Inzichten uit een jaar werken met grote taalmodellen (LLM's) benadrukken het belang van meervoudige steekproeven om het aantal hallucinaties te verminderen en het genereren van rechtvaardigingen vóór beslissingen voor nauwkeurigere uitkomsten.
Het artikel bespreekt uitdagingen bij het evalueren van LLM-uitvoer, de invloed van temperatuur op randomheid van de uitvoer en misvattingen over steekproeven, samen met ervaringen met hulpmiddelen zoals patchbots en beam search.
Er wordt ingegaan op zorgen in de sector zoals hoge foutpercentages, FOMO-gedreven investeringen en de agressieve push van bedrijven zoals Google om AI te integreren ondanks mogelijke problemen met de kwaliteit van de service.
Professor Kevin Murphy van de Universiteit van Limerick beweert dat mensen die op afstand werken productiever en tevredener zijn dan mensen die op kantoor werken.
De drang naar Return to Office (RTO)-mandaten na de pandemie brengt het risico met zich mee dat toptalent verloren gaat, omdat veel werknemers de traditionele kantoornormen afwijzen.
Leidinggevenden moeten dwingende redenen en prikkels geven om terug te keren naar kantoor, de verschuiving in de machtsdynamiek ten gunste van werknemers erkennen of het risico lopen om waardevol talent te verliezen aan flexibelere concurrenten.
Het debat tussen remote werken en return-to-office (RTO) mandaten draait om flexibiliteit, comfort en het mogelijke verlies van werknemers die de voorkeur geven aan remote werken.
Voor sommigen biedt woon-werkverkeer een mentale pauze, maar voor anderen brengt het uitdagingen met zich mee zoals vervuiling, hoge kosten en vervagende grenzen.
Werken op afstand wordt gezien als efficiënter en duurzamer en biedt voordelen zoals meer tijd voor het gezin en minder CO2-uitstoot, maar kan junior medewerkers verwaarlozen en vereist duidelijke communicatie over de voordelen van RTO.
Bill C-26, een federale wet op cyberbeveiliging in Canada, geeft de overheid bevoegdheden om telecombedrijven te dwingen achterdeurtjes te installeren in versleutelde netwerken, waardoor de beveiliging mogelijk in gevaar komt.
Critici, waaronder het Citizen Lab van de Universiteit van Toronto, beweren dat deze maatregelen 5G-encryptie en andere beveiligingsfuncties zouden verzwakken, waardoor de kwetsbaarheid voor cyberdreigingen zou toenemen.
Ondanks waarschuwingen van experts is het wetsvoorstel zonder amendementen aangenomen, wat in tegenspraak is met Canada's pro-encryptie standpunt en mogelijk een gevaarlijk precedent schept voor andere landen.
De Canadese overheid wil toestemming om geheime achterdeurtjes te maken in telecomnetwerken voor toezicht, waarbij het traditionele wettelijke toezicht wordt omzeild. Dit geeft aanleiding tot grote zorgen over de privacy en de kans op misbruik door wetshandhavers.
Critici beweren dat dit zou kunnen leiden tot een invasieve controle die verwant is aan de NSA-praktijken, wat discussies over de Canadese grondwet, de "notwithstanding clause" en legale onderscheppingsmogelijkheden met zich meebrengt.
De discussie omvat historische voorbeelden van surveillance, zoals tijdens de protesten van vrachtwagenchauffeurs, en bredere thema's van te ver doorgevoerde overheid, privacy en maatschappelijke reacties op autoriteit.
Het artikel bespreekt drie fundamentele wetten die bijdragen aan onnodige complexiteit in software engineering, met name in infrastructurele systemen.
Eerste Wet: Goed ontworpen systemen degraderen in slecht ontworpen systemen na verloop van tijd door voortdurende aanpassingen.
Tweede wet: Complexiteit neemt toe naarmate succesvolle systemen prioriteit geven aan marktaandeel boven een goed abstractieontwerp, wat leidt tot moeilijk te wijzigen systemen.
Derde wet: Er is geen bovengrens aan de complexiteit van software, gedreven door de verschillende vaardigheden en filosofieën van ontwikkelaars, wat resulteert in ingewikkelde ontwerpen.
De discussie gaat over de uitdagingen van het beheren van softwarecomplexiteit, vooral in legacysystemen, en de afwegingen tussen kosten en kwaliteit, die vaak leiden tot een technische schuld.
Het benadrukt het belang van incrementeel refactoring, het onderhouden van een sterke engineering cultuur en het onderscheid maken tussen essentiële en toevallige complexiteit om software effectief te beheren.
Deelnemers benadrukken de noodzaak van continu onderhoud, de impact van slechte ontwikkelkeuzes en de rol van managementondersteuning bij het rechtvaardigen van refactoring-inspanningen.
Michael Lynch creëerde halverwege 2020 TinyPilot, een apparaat voor serverbediening op afstand, dat snel aan populariteit won en uitgroeide tot een bedrijf met een jaaromzet van $1 miljoen en een team van zeven personen.
Lynch verkocht TinyPilot voor $600.000, met een opbrengst van $490.803 na aftrek van kosten, vanwege de stress van het beheren van een hardwarebedrijf en de wens om terug te keren naar het coderen en het stichten van een gezin.
De verkoop, die werd gefaciliteerd door Quiet Light Brokerage, bracht uitdagingen met zich mee zoals het balanceren tussen de stress van de oprichter, het vinden van een koper en het managen van due diligence; de koper was Scott, een mediaprofessional uit het bedrijfsleven.
Michael Lynch verkocht zijn bedrijf, TinyPilot, en besprak de aanzienlijke kosten die de verkoop met zich meebracht, waaronder makelaarscommissies en juridische kosten, die ongeveer 18% van de verkoopprijs bedroegen.
Lynch' ondernemerstraject omvatte de overstap van een goedbetaalde baan bij Google naar het waarderen van autonomie en creativiteit, het benadrukken van de educatieve waarde van ondernemerschap en het bekritiseren van de focus van de technologie-industrie op totale compensatie.
Lynch is van plan om toekomstige ondernemingen op te starten en zich daarbij te richten op educatieve producten en Software as a Service (SaaS), waarbij hardware wordt vermeden vanwege de complexiteit en uitdagingen.
In november 2023 ontsloeg de raad van bestuur van OpenAI onverwacht CEO Sam Altman op grond van "regelrechte leugens" en manipulatief gedrag dat het vertrouwen ondermijnde.
Specifieke problemen waren Altman's geheime eigendom van het OpenAI Startup Fund, het verstrekken van onjuiste veiligheidsinformatie en het creëren van een giftige werkomgeving.
Ondanks deze aantijgingen leidden interne en externe druk, waaronder steun van werknemers en Microsoft, tot de herplaatsing van Altman, waarbij een onafhankelijk onderzoek geen problemen met productveiligheid of bedrijfsactiviteiten aan het licht bracht.
Een voormalig bestuurslid van OpenAI onthulde dat Sam Altman was ontslagen wegens oneerlijkheid, wat vragen opriep over de bekendheid van het bestuur met de lancering van ChatGPT.
De situatie heeft discussies aangewakkerd over organisatorische transparantie, bestuurstoezicht en ethisch bestuur, met vergelijkingen met bedrijfsfaillissementen zoals Enron.
Er is scepsis over de vertrouwens- en veiligheidspraktijken van OpenAI, met vertrekkende werknemers en kritiek op het leiderschap van Altman, naast discussies over technische bekwaamheid en de rol van het bestuur.
Een groot lek van interne Google Search-documenten heeft kritieke aspecten van Google's ranking-algoritme onthuld, waaronder het gebruik van klikken, links, inhoud, entiteiten en Chrome-gegevens.
Branche-experts Rand Fishkin en Michael King analyseerden de documenten en onthulden 2.596 rankingmodules, het belang van linkdiversiteit, relevantie, succesvolle klikken en merkherkenning.
De documenten onthullen ook Google's gebruik van auteursinformatie, site autoriteit en "twiddlers" om rankings aan te passen, wat waardevolle inzichten biedt voor SEO's ondanks de onbekende exacte weging van rankingfactoren.
Een uitgelekt Google Search-document heeft discussies aangewakkerd over het ranking-algoritme en de invloed van Google's advertentieprogramma op de zoekresultaten.
Gebruikers bespreken alternatieven zoals Kagi en search.marginalia.nu, met gemengde meningen over Kagi's aanpassingen, niet-commerciële focus en problemen met spam en AI-gegenereerde inhoud.
Het gesprek belicht een verlangen naar zoekmachines die gebruikersvoorkeuren boven advertentie-inkomsten stellen, raakt aan SEO-manipulatie, het potentieel van Large Language Models (LLM's) en zorgen over de authenticiteit van online recensies en de rangschikkingscriteria van Google.
ChatTTS is een tekst-naar-spraak (TTS) model geoptimaliseerd voor dialogen, ondersteunt zowel Engels als Chinees en is getraind op meer dan 100.000 uur data.
De open-source versie op HuggingFace bevat een 40.000 uur voorgetraind model, dat uitblinkt in natuurlijke en expressieve spraaksynthese met fijnkorrelige prosodische controle.
Het model is alleen bedoeld voor academisch gebruik, met toekomstige plannen om extra functies te open-sourcen en de stabiliteit te verbeteren.
De discussie belicht de ontwikkeling en prestaties van TTS-modellen zoals ChatTTS en Piper TTS, met aandacht voor problemen zoals trage verwerking en problemen met spraakkwaliteit.
Gebruikers benadrukken de behoefte aan TTS van hoge kwaliteit in meerdere talen en discussiëren over de effectiviteit van menselijke versus geautomatiseerde stemmen in luisterboeken.
Er is kritiek op misleidende "open-source" beweringen in TTS-projecten en een oproep voor een uitgebreide lijst van echt open-source TTS-modellen en -gegevens.
Een lek van 2.500 pagina's met interne Google-documenten, gedeeld door SEO-expert Rand Fishkin, kan discrepanties onthullen tussen de publieke verklaringen van Google en de werkelijke praktijken met betrekking tot zoekalgoritmen.
De documenten suggereren het gebruik van Chrome-gegevens in rankings en het bijhouden van auteursinformatie, waardoor eerdere beweringen van Google in twijfel worden getrokken en er een debat op gang komt over de transparantie van het bedrijf.
Google heeft geen commentaar gegeven op de legitimiteit van de documenten en het incident benadrukt de aanhoudende bezorgdheid over de ondoorzichtige aard van Google's zoekactiviteiten te midden van antitrustonderzoek.
Een lek in de documentatie over het zoekalgoritme van Google heeft mogelijke discrepanties aan het licht gebracht tussen de publieke verklaringen van Google en hun werkelijke praktijken.
Het lek suggereert dat de vertegenwoordigers van Google nauwkeurige bevindingen van de marketing-, tech- en journalistieke gemeenschappen in diskrediet hebben gebracht, wat ethische zorgen over SEO-manipulatie oproept.
Juridische discussies op GitHub gaan over het belang en de wettigheid van het lek, met verschillende meningen over de impact op de status van handelsgeheimen en auteursrechtelijke bescherming.