2024-05-29

AI-kuulokkeet eristävät yksittäisen puhujan väkijoukosta katseentunnistuksella

Washingtonin yliopistossa (UW) on kehitetty "Target Speech Hearing" -niminen tekoälyjärjestelmä, joka auttaa käyttäjiä keskittymään yhteen puhujaan meluisissa ympäristöissä katsomalla häntä 3-5 sekunnin ajan.
ACM CHI -konferenssissa esitelty järjestelmä käyttää koneoppimista eristämään ja vahvistamaan halutun puhujan ääntä reaaliaikaisesti, vaikka käyttäjä liikkuisi.
Teknologiaa testattiin tällä hetkellä proof-of-concept -vaiheessa 21 koehenkilöllä, jotka raportoivat merkittävästi parantuneesta selkeydestä, ja tulevaisuuden suunnitelmissa on laajentaa teknologiaa kuulokkeisiin ja kuulolaitteisiin.

Reaktiot

Tekstissä tarkastellaan strategioita ja teknologioita, joilla parannetaan kuulokokemuksia meluisissa ympäristöissä, ja keskitytään tekoälykuulokkeisiin, kehittyneeseen äänisuunnitteluun ja melua vaimentaviin teknologioihin.
Siinä korostetaan haasteita, joita nykyaikaiset ravintolamateriaalit aiheuttavat melulle ja äänenvaimennustekniikoiden käytölle huolto- ja esteettisistä ongelmista huolimatta.
Teknologian edistysaskeleista, kuten suuntaavista mikrofoneista, reaaliaikaisesta puheentunnistuksesta ja valikoivasta äänisuodatuksesta, keskustellaan samoin kuin yksityisyyden suojaan ja mahdolliseen väärinkäyttöön liittyvistä huolenaiheista.

Ex-OpenAI:n hallituksen jäsen paljastaa valheet ja väärinkäytökset Sam Altmanin lyhyen syrjäyttämisen taustalla

OpenAI:n hallituksen entinen jäsen Helen Toner paljasti, että Sam Altman erotettiin lyhyeksi aikaa toimitusjohtajan tehtävästä, koska hän oli useaan otteeseen epärehellinen ja salannut tietoja hallitukselta.
Esimerkkeinä mainittakoon, että hallitus sai tietää ChatGPT:n julkaisusta Twitterin kautta ja että Altman ei paljastanut taloudellista kiinnostustaan yhtiöön, sekä syytökset epätarkkojen turvallisuustietojen antamisesta ja kahden johtajan "psykologisesta hyväksikäytöstä".
Altman palautettiin toimitusjohtajaksi alle viikkoa myöhemmin sen jälkeen, kun henkilöstö uhkasi irtisanoutua ja Microsoft ilmaisi kiinnostuksensa hänen tiiminsä palkkaamiseen; Toner erosi pian hänen paluunsa jälkeen.

Reaktiot

OpenAI:n toimitusjohtaja Sam Altman syrjäytettiin hetkeksi ja palkattiin sitten uudelleen, mikä paljasti jännitteitä hallituksen toimivallan ja keskeisten sijoittajien ja perustajien vaikutusvallan välillä.
Hallituksen huono suhtautuminen Altmanin potkuihin johti työntekijöiden merkittäviin vastareaktioihin ja uhkauksiin irtisanoutua joukolla, mikä korostaa yritysten hallintotavan, työntekijöiden vaikutusvallan ja taloudellisten etujen monimutkaista dynamiikkaa.
Tapaus herätti laajempaa keskustelua teknologia-alan johtamisesta, häikäilemättömän käyttäytymisen eettisistä vaikutuksista sekä viestinnän ja etiikan roolista yritysten hallinnoinnissa.

HTTP-HTTPS-uudelleenohjauksen harkitseminen uudelleen API-rajapintoja varten turvallisuuden parantamiseksi

HTTP-HTTPS-uudelleenohjaus voi paljastaa arkaluonteisia tietoja tai mahdollistaa MITM-hyökkäykset (Man-In-The-Middle), erityisesti API-rajapinnoissa, joita käyttävät ohjelmistot, jotka eivät ehkä käsittele suojausotsikoita.
HSTS:n (HTTP Strict Transport Security) ja HTTPS-Only-tilojen kaltaiset tekniikat parantavat tietoturvaa, mutta ne eivät välttämättä riitä sovellusrajapinnoissa, mikä korostaa tarvetta vikasietoiseen lähestymistapaan, jolla virheet voidaan havaita ajoissa.
Parhaat käytännöt olisi päivitettävä siten, että tietoturvariskien välttämiseksi sovellusrajapinnat hylkäävät salaamattomat pyynnöt kokonaan ja peruuttavat salaamattomien yhteyksien kautta lähetetyt sovellusrajapinnan tunnistetiedot.

Reaktiot

Keskustelussa korostetaan API-turvallisuuden parantamista ohjaamalla HTTP HTTPS:ään ja peruuttamalla HTTP:n kautta lähetetyt API-avaimet MITM-hyökkäysten (Man-in-the-Middle) estämiseksi.
Siinä korostetaan API-avainten asianmukaisen hallinnan merkitystä, allekirjoitettujen hashien, nonces-tietojen ja aikaleimojen käyttöä todennuksessa sekä HTTPS:n välttämättömyyttä tietojen eheyden ja yksityisyyden suojaamiseksi.
Keskustelussa kritisoidaan riippuvuutta varmennepalveluista ja ehdotetaan käytännön ratkaisuja, kuten yksilöllisiä URL-osoitteita tai API-avaimia, joiden avulla voidaan turvallisesti valvoa pääsyä tietyissä yhteyksissä.

Llama3-V: GPT-4V:n suorituskyvyssä kilpaileva 500 dollarin multimodaalinen malli.

Llama3-V on uusi Llama3:een perustuva multimodaalinen malli, joka on suunniteltu kilpailemaan GPT-4V:n kaltaisten isompien mallien kanssa, mutta huomattavasti halvemmalla (alle 500 dollaria).
Se ylittää nykyisen huippumallin, Llavan, 10-20 %:lla multimodaalisen ymmärtämisen vertailuarvoissa, kun se käyttää SigLIP:tä kuvan upottamiseen ja visuaalisten ja tekstimerkkien kohdistamiseen projektiolohkon avulla, jossa on itsetarkkailukerroksia.
Keskeisiä optimointeja ovat muun muassa kuvien upotusten esilaskenta ja MPS/MLX:n hyödyntäminen tehokkaaseen harjoitteluun. Harjoitteluprosessiin kuuluu 600 000 esimerkin esiharjoittelu ja 1 miljoonan esimerkin valvottu hienosäätö.

Reaktiot

Artikkelissa verrataan erilaisia multimodaalisia tekoälymalleja ja keskitytään Llama 3-V:hen, joka pyrkii vastaamaan GPT-4V:n suorituskykyä mutta on pienempi ja halvempi.
Siinä korostetaan, että InternVL-1.5:n ja CogVLM:n kaltaiset mallit ovat Llavaa parempia, ja tietyt mallit ovat erinomaisia esimerkiksi OCR (Optical Character Recognition) ja GUI (Graphical User Interface) -ymmärryksen kaltaisissa tehtävissä.
Käyttäjät keskustelevat näiden mallien käytännön sovelluksista, rajoituksista ja kustannustehokkuudesta, mukaan lukien GPT-4V:n käyttö tuotannossa visuaalisiin tehtäviin ja nykyaikaisten OCR-työkalujen, kuten PaddleOCR:n ja TrOCR:n, tehokkuus.

Mistral AI esittelee Codestralin: Generative AI for Code Generation: A Powerful Generative AI for Code Generation

Mistral AI julkaisi 29. toukokuuta 2024 Codestralin, joka on yli 80 ohjelmointikielellä koulutettu avoimen painon generatiivinen tekoälymalli koodin tuottamiseen.
Codestralissa on 22B:n mallikoko ja 32k:n konteksti-ikkuna, ja se päihittää kilpailijat RepoBenchin ja HumanEvalin kaltaisissa vertailuarvoissa.
Mistral AI Non-Production License -lisenssillä saatavilla olevaa Codestralia voi käyttää erillisen päätepisteen kautta tai integroituna työkaluihin, kuten VSCode ja JetBrains, ja kehittäjät kehuvat sen nopeutta, tarkkuutta ja tuottavuusvaikutuksia.

Reaktiot

Mistral.ai-sivuston julkaisemassa Mistralin koodimallissa on rajoittava lisenssi, joka kieltää kaupallisen käytön, live-olosuhteet ja yrityksen sisäisen käytön, mikä rajoittaa sen käytännön sovelluksia ja herättää kritiikkiä.
Mistralin lisenssistä käyty keskustelu korostaa laajempia kysymyksiä tekoälyn tuottaman sisällön tekijänoikeuksista ja lisensoinnista sekä termin "avoin lähdekoodi" väärinkäytöstä tekoälyn alalla.
Käyttäjät ilmaisevat turhautuneisuutensa tekoälyn epäjohdonmukaiseen koodin tuottamiseen erityisesti monimutkaisissa tehtävissä ja keskustelevat eri tekoälymallien, kuten Metan Llaman ja OpenAI:n GPT-mallien, rajoituksista ja mahdollisuuksista.

Keskeiset opetukset vuoden rakentamisesta suurten kielimallien kanssa (osa I)

Eugene Yanin ja kollegoiden artikkelissa "What We Learned from a Year of Building with LLMs (Part I)" tarkastellaan suurten kielimallien (LLM) nopeaa kehitystä ja käytännön sovelluksia sekä käsitellään tehokkaiden tekoälytuotteiden kehittämisen haasteita.
Keskeisiä oppeja ovat parhaat käytännöt kehotuksissa, RAG-menetelmässä (retrieval-augmented generation), virtaussuunnittelussa ja arvioinnissa, ja korostetaan tekniikoita, kuten n-shot-kehotuksia ja ajatusketjun kehotuksia.
Artikkelissa annetaan myös operatiivisia neuvoja tekoälyagenttien hallintaan, kehotusten hiomiseen, mallien hienosäätöön sekä kustannusten ja viiveen vähentämiseen välimuistitallennuksen avulla, ja siinä korostetaan käytännön arviointeja ja ihmiskeskeisiä lähestymistapoja.

Reaktiot

Suurten kielimallien (LLM) kanssa työskennellessä saadut tulokset korostavat moninkertaisen näytteenoton tärkeyttä hallusinaatioiden vähentämiseksi ja perustelujen tuottamiseksi ennen päätösten tekemistä tarkempien tulosten saavuttamiseksi.
Artikkelissa käsitellään LLM-tulosten arviointiin liittyviä haasteita, lämpötilan vaikutusta tuloksen satunnaisuuteen ja näytteenottoon liittyviä väärinkäsityksiä sekä kokemuksia sellaisten työkalujen kuin patchbottien ja säteenhaun käytöstä.
Siinä käsitellään alan huolenaiheita, kuten korkeaa virhemäärää, FOMO-vetoisia investointeja ja Googlen kaltaisten yritysten aggressiivista pyrkimystä integroida tekoälyä mahdollisista palvelun laatuun liittyvistä ongelmista huolimatta.

Asiantuntija varoittaa, että paluuvelvoitteet voivat johtaa huippuosaajien menettämiseen.

Limerickin yliopiston professori Kevin Murphy väittää, että etätyöntekijät ovat tuottavampia ja tyytyväisempiä kuin toimistotyöntekijät.
Pandemian jälkeinen toimistopalautus (Return to Office, RTO) uhkaa menettää huippulahjakkuuksia, sillä monet työntekijät hylkäävät nyt perinteiset toimistokäytännöt.
Johtajien olisi tarjottava vakuuttavia syitä ja kannustimia toimistoon paluuseen ja tunnustettava, että vallan dynamiikka on muuttunut työntekijöiden eduksi, tai he ovat vaarassa menettää arvokkaita kykyjä joustavammille kilpailijoille.

Reaktiot

Etätyön ja toimistoon paluuta koskevien määräysten välillä käytävässä keskustelussa keskitytään joustavuuteen, mukavuuteen ja etätyötä suosivien työntekijöiden mahdolliseen menetykseen.
Joillekin työmatkat tarjoavat henkisen tauon, mutta toisille ne aiheuttavat haasteita, kuten saasteet, korkeat kustannukset ja rajojen hämärtyminen, mikä vaikuttaa työ- ja yksityiselämän tasapainoon ja urakehitykseen.
Etätyötä pidetään tehokkaampana ja kestävämpänä, ja se tarjoaa etuja, kuten enemmän aikaa perheelle ja vähemmän hiilidioksidipäästöjä, mutta se saattaa jättää nuoremman henkilöstön huomiotta ja edellyttää selkeää viestintää etätyön eduista.

Kanadan lakiehdotus C-26: C-26: Kiistanalaiset valtuudet asentaa verkon takaovia valvontaa varten.

Kanadan liittovaltion tietoverkkoturvallisuuslakiesitys C-26 antaa hallitukselle valtuudet pakottaa teleyritykset asentamaan salattuihin verkkoihin takaovia, mikä saattaa vaarantaa turvallisuuden.
Kriitikot, kuten Toronton yliopiston Citizen Lab, väittävät, että nämä toimenpiteet heikentäisivät 5G-salausta ja muita tietoturvaominaisuuksia, mikä lisäisi haavoittuvuutta kyberuhkille.
Asiantuntijoiden varoituksista huolimatta lakiehdotus on edennyt ilman tarkistuksia, mikä on ristiriidassa Kanadan salausmyönteisen kannan kanssa ja saattaa luoda vaarallisen ennakkotapauksen muille maille.

Reaktiot

Kanadan hallitus hakee valtuuksia luoda televerkkoihin salaisia takaovia valvontaa varten ohittaen perinteisen oikeudellisen valvonnan, mikä herättää merkittäviä yksityisyyden suojaan liittyviä huolenaiheita ja lainvalvontaviranomaisten väärinkäytön mahdollisuuksia.
Kriitikot väittävät, että tämä voisi johtaa NSA:n käytäntöjä muistuttavaan invasiiviseen valvontaan, mikä aiheuttaisi keskustelua Kanadan perustuslaista, "notwithstanding clause" -lausekkeesta ja laillisista sieppausmahdollisuuksista.
Keskustelussa käsitellään historiallisia esimerkkejä valvonnasta, kuten rekkakuskien mielenosoitusten aikana, sekä laajempia teemoja, jotka liittyvät hallituksen liialliseen toimintaan, yksityisyyteen ja yhteiskunnan reaktioihin auktoriteetteja kohtaan.

Ohjelmistojärjestelmien väistämättömän monimutkaisuuden kolme peruslakia

Artikkelissa käsitellään kolmea peruslakia, jotka aiheuttavat tarpeetonta monimutkaisuutta ohjelmistotekniikassa, erityisesti infrastruktuurijärjestelmissä.
Ensimmäinen laki: Hyvin suunnitellut järjestelmät muuttuvat ajan myötä huonosti suunnitelluiksi jatkuvien muutosten vuoksi.
Toinen laki: Monimutkaisuus lisääntyy, kun menestyvät järjestelmät asettavat markkinaosuuden hyvän abstraktiosuunnittelun edelle, mikä johtaa vaikeasti muokattaviin järjestelmiin.
Kolmas laki: Se johtuu kehittäjien erilaisista kyvyistä ja filosofioista, jotka johtavat monimutkaisiin suunnitelmiin.

Reaktiot

Keskustelussa käsitellään ohjelmistojen monimutkaisuuden hallinnan haasteita, erityisesti vanhojen järjestelmien osalta, sekä kustannusten ja laadun välistä kompromissia, joka johtaa usein tekniseen velkaan.
Siinä korostetaan inkrementaalisen refaktoroinnin merkitystä, vahvan suunnittelukulttuurin ylläpitämistä ja olennaisen ja satunnaisen monimutkaisuuden erottamista toisistaan, jotta ohjelmistoja voidaan hallita tehokkaasti.
Osallistujat korostavat jatkuvan ylläpidon välttämättömyyttä, huonojen kehitysvalintojen vaikutusta ja johdon tuen merkitystä refaktorointipyrkimysten perustelemisessa.

Aloituksesta myyntiin: Michael Lynchin matka TinyPilotin kanssa...

Michael Lynch loi vuoden 2020 puolivälissä TinyPilotin, palvelimen etäohjaukseen tarkoitetun laitteen, joka saavutti nopeasti suosiota ja kasvoi yritykseksi, jonka vuositulot ovat miljoona dollaria ja jossa on seitsemän hengen tiimi.
Lynch myi TinyPilotin 600 000 dollarilla, josta hän sai 490 803 dollaria kulujen jälkeen, koska hän oli stressaantunut laitteistoliiketoiminnan johtamisesta ja halusi palata koodaamisen pariin ja perustaa perheen.
Quiet Light Brokeragen välittämään myyntiin liittyi haasteita, kuten perustajien stressin tasapainottaminen, ostajan löytäminen ja due diligence -tarkastuksen suorittaminen; ostajaksi valittiin Scott, joka on yrityksen media-alan ammattilainen.

Reaktiot

Michael Lynch myi yrityksensä TinyPilotin ja keskusteli myyntiin liittyvistä merkittävistä kustannuksista, kuten välittäjäpalkkioista ja lakimieskuluista, jotka olivat noin 18 prosenttia myyntihinnasta.
Lynchin yrittäjyysmatka sisälsi siirtymisen hyvin palkatusta Googlen työpaikasta itsenäisyyden ja luovuuden arvostamiseen, yrittäjyyden kasvatuksellisen arvon korostamisen ja teknologiateollisuuden kokonaiskorvauksiin keskittymisen kritisoinnin.
Lynch aikoo perustaa tulevia yrityksiä keskittyen koulutustuotteisiin ja SaaS-ohjelmistoihin (Software as a Service) ja välttäen laitteistoja niiden monimutkaisuuden ja haasteiden vuoksi.

OpenAI:n hallituksen entinen jäsen paljastaa syyt Sam Altmanin erottamiseen ja uudelleen asettamiseen takaisin virkaan

Marraskuussa 2023 OpenAI:n hallitus erotti yllättäen toimitusjohtaja Sam Altmanin vedoten "suoranaiseen valehteluun" ja manipuloivaan käytökseen, jotka heikensivät luottamusta.
Erityiskysymyksiin kuuluivat Altmanin julkistamaton omistus OpenAI Startup Fund -rahastossa, epätarkkojen turvallisuustietojen antaminen ja myrkyllisen työympäristön luominen.
Näistä syytöksistä huolimatta sisäiset ja ulkoiset paineet, mukaan lukien työntekijöiden ja Microsoftin tuki, johtivat Altmanin palauttamiseen virkaansa, ja riippumattomassa arvioinnissa todettiin, ettei tuoteturvallisuuteen tai yrityksen toimintaan liittynyt ongelmia.

Reaktiot

OpenAI:n hallituksen entinen jäsen paljasti, että Sam Altman erotettiin epärehellisyyden vuoksi, mikä herättää kysymyksiä hallituksen tietoisuudesta ChatGPT:n käynnistämisestä.
Tilanne on herättänyt keskustelua organisaatioiden avoimuudesta, hallituksen valvonnasta ja eettisestä hallintotavasta, ja sitä on verrattu Enronin kaltaisiin yritystappioihin.
OpenAI:n luottamus- ja turvallisuuskäytäntöihin suhtaudutaan epäilevästi, sillä työntekijöitä on lähtenyt ja Altmanin johtamista on arvosteltu, minkä lisäksi on keskusteltu teknisestä pätevyydestä ja hallituksen roolista.

Google Search Leak paljastaa sijoittamisalgoritmin ja 2596 moduulin salaisuudet

Merkittävä vuoto Googlen sisäisistä hakuasiakirjoista on paljastanut kriittisiä seikkoja Googlen ranking-algoritmista, mukaan lukien klikkausten, linkkien, sisällön, kokonaisuuksien ja Chrome-tietojen käyttö.
Alan asiantuntijat Rand Fishkin ja Michael King analysoivat asiakirjat ja paljastivat 2596 sijoitusmoduulia, linkkien monimuotoisuuden, merkityksellisyyden, onnistuneiden klikkausten ja brändin tunnettuuden merkityksen.
Asiakirjat paljastavat myös Googlen käyttävän kirjailijatietoja, sivuston auktoriteettia ja "twiddlereitä" sijoitusten säätämiseen, mikä tarjoaa arvokasta tietoa hakukoneoptimoijille, vaikka sijoitustekijöiden tarkkaa painotusta ei tunneta.

Reaktiot

Vuodettu Google Search -dokumentti on herättänyt keskustelua sijoitusalgoritmista ja Googlen mainosohjelman vaikutuksesta hakutuloksiin.
Käyttäjät keskustelevat Kagin ja search.marginalia.nu:n kaltaisista vaihtoehdoista, ja heidän mielipiteensä Kagin räätälöinnistä, ei-kaupallisesta painotuksesta sekä roskapostiin ja tekoälyn tuottamaan sisältöön liittyvistä ongelmista vaihtelevat.
Keskustelussa korostuu toive hakukoneista, jotka asettavat käyttäjien mieltymykset mainostulojen edelle, ja siinä käsitellään hakukoneiden hakukoneiden manipulointia, suurten kielimallien (LLM) potentiaalia sekä huolenaiheita verkkoarvostelujen aitoudesta ja Googlen ranking-kriteereistä.

ChatTTS: kehittynyt avoimen lähdekoodin TTS-malli luonnolliseen dialogiin englanniksi ja kiinaksi

ChatTTS on tekstistä puheeksi (TTS) -malli, joka on optimoitu dialogiin, tukee sekä englantia että kiinaa ja on koulutettu yli 100 000 tunnin datan perusteella.
Avoimen lähdekoodin HuggingFace-versio sisältää 40 000 tuntia esivalmennetun mallin, joka on erinomainen luonnollisessa ja ilmeikkäässä puhesynteesissä ja hienojakoisessa prosodian hallinnassa.
Malli on tarkoitettu vain akateemiseen käyttöön, ja tulevaisuudessa on tarkoitus avata uusia ominaisuuksia ja parantaa vakautta.

Reaktiot

Keskustelussa korostetaan ChatTTS:n ja Piper TTS:n kaltaisten TTS-mallien kehittämistä ja suorituskykyä, ja huomioidaan muun muassa hitaan käsittelyn ja äänenlaadun haasteet.
Käyttäjät korostavat laadukkaan TTS:n tarvetta useilla kielillä ja keskustelevat äänikirjojen ihmisäänten ja automaattisten äänten tehokkuudesta.
Lisäksi arvostellaan TTS-hankkeiden harhaanjohtavia "avoimen lähdekoodin" väitteitä ja kehotetaan laatimaan kattava luettelo aidosti avoimen lähdekoodin TTS-malleista ja -tiedoista.

Google vaikenee hakualgoritmia käsittelevien 2 500 sivun väitetystä vuodosta.

SEO-asiantuntija Rand Fishkinin jakama 2 500 sivua Googlen sisäisiä asiakirjoja sisältävä vuoto saattaa paljastaa ristiriitaisuuksia Googlen julkisten lausuntojen ja sen hakualgoritmeja koskevien todellisten käytäntöjen välillä.
Asiakirjat viittaavat Chromen tietojen käyttöön rankingissa ja kirjoittajatietojen seurannassa, mikä kyseenalaistaa Googlen aiemmat väitteet ja herättää keskustelua yhtiön avoimuudesta.
Google ei ole kommentoinut asiakirjojen laillisuutta, ja tapaus korostaa jatkuvaa huolta Googlen hakutoimintojen läpinäkymättömyydestä kilpailunrajoitusten valvonnan keskellä.

Reaktiot

Vuoto Googlen hakualgoritmin dokumentaatiosta on paljastanut mahdollisia ristiriitaisuuksia Googlen julkisten lausuntojen ja todellisten käytäntöjen välillä.
Vuoto viittaa siihen, että Googlen edustajat ovat saattaneet tehdä tyhjäksi markkinointi-, teknologia- ja journalistiyhteisöjen tarkat havainnot, mikä on herättänyt eettisiä huolenaiheita hakukoneiden manipuloinnista.
GitHubissa käydään oikeudellisia keskusteluja vuodon merkityksestä ja laillisuudesta, ja mielipiteet sen vaikutuksesta liikesalaisuuteen ja tekijänoikeussuojaan vaihtelevat.