L'université de Washington (UW) a mis au point un système d'IA appelé "Target Speech Hearing" qui aide les utilisateurs à se concentrer sur un seul locuteur dans des environnements bruyants en le regardant pendant trois à cinq secondes.
Présenté lors de la conférence ACM CHI, ce système utilise l'apprentissage automatique pour isoler et amplifier la voix du locuteur souhaité en temps réel, même lorsque l'utilisateur se déplace.
Actuellement au stade de la validation du concept, la technologie a été testée sur 21 sujets qui ont fait état d'une amélioration significative de la clarté, et il est prévu de l'étendre aux oreillettes et aux appareils auditifs.
Le texte explore les stratégies et les technologies permettant d'améliorer l'expérience auditive dans les environnements bruyants, en mettant l'accent sur les casques d'écoute intelligents, la conception sonore avancée et les technologies de réduction du bruit.
Il met en évidence les défis posés par les matériaux utilisés dans les restaurants modernes qui contribuent au bruit et l'utilisation de techniques d'insonorisation malgré les problèmes d'entretien et d'esthétique.
Les avancées technologiques telles que les microphones directionnels, la reconnaissance vocale en temps réel et le filtrage sélectif des sons sont abordées, ainsi que les préoccupations relatives à la protection de la vie privée et aux utilisations abusives potentielles.
Helen Toner, ancien membre du conseil d'administration de l'OpenAI, a révélé que Sam Altman avait été brièvement démis de ses fonctions de PDG en raison de multiples cas de malhonnêteté et de dissimulation d'informations au conseil d'administration.
Par exemple, le conseil d'administration a appris la publication de ChatGPT via Twitter et M. Altman n'a pas divulgué ses intérêts financiers dans l'entreprise. Il a également été accusé d'avoir fourni des informations inexactes sur la sécurité et d'avoir été victime de "violences psychologiques" de la part de deux cadres.
Moins d'une semaine plus tard, M. Altman a été rétabli dans ses fonctions de PDG après que le personnel a menacé de démissionner et que Microsoft a manifesté son intérêt pour l'embauche de son équipe ; M. Toner a démissionné peu après son retour.
Le PDG d'OpenAI, Sam Altman, a été brièvement évincé puis réembauché, ce qui a mis en évidence les tensions entre l'autorité du conseil d'administration et l'influence des principaux investisseurs et fondateurs.
La mauvaise gestion du licenciement de M. Altman par le conseil d'administration a suscité une vive réaction de la part des salariés et des menaces de démission collective, soulignant la dynamique complexe de la gouvernance d'entreprise, de l'influence des salariés et des intérêts financiers.
L'incident a suscité des discussions plus larges sur le leadership dans la technologie, les implications éthiques d'un comportement impitoyable et le rôle de la communication et de l'éthique dans la gouvernance d'entreprise.
La redirection HTTP-to-HTTPS peut exposer des données sensibles ou permettre des attaques de type Man-In-The-Middle (MITM), en particulier pour les API auxquelles accèdent des logiciels qui peuvent ne pas gérer les en-têtes de sécurité.
Des techniques telles que HSTS (HTTP Strict Transport Security) et les modes HTTPS-Only améliorent la sécurité mais peuvent ne pas être suffisantes pour les API, ce qui souligne la nécessité d'une approche "fail-fast" pour détecter les erreurs à un stade précoce.
Les meilleures pratiques devraient être mises à jour pour recommander aux API de rejeter entièrement les demandes non cryptées et de révoquer les identifiants API envoyés par des connexions non cryptées afin de prévenir les risques de sécurité.
La discussion met l'accent sur le renforcement de la sécurité des API en redirigeant HTTP vers HTTPS et en révoquant les clés API envoyées par HTTP pour empêcher les attaques de type "Man-in-the-Middle" (MITM).
Il souligne l'importance d'une bonne gestion des clés d'API, de l'utilisation de hachages signés, de nonces et d'horodatages pour l'authentification, et de la nécessité du protocole HTTPS pour l'intégrité et la confidentialité des données.
La conversation critique la dépendance à l'égard des autorités de certification et propose des solutions pratiques telles que des URL uniques ou des clés API pour un contrôle d'accès sécurisé dans des contextes spécifiques.
Le Llama3-V est un nouveau modèle multimodal basé sur le Llama3, conçu pour rivaliser avec des modèles plus grands comme le GPT-4V, mais à un prix nettement inférieur (moins de 500 dollars).
Il surpasse le modèle de pointe actuel, Llava, de 10 à 20 % dans les benchmarks de compréhension multimodale, en utilisant SigLIP pour l'intégration d'images et en alignant les jetons visuels et textuels par le biais d'un bloc de projection avec des couches d'auto-attention.
Les principales optimisations comprennent le calcul préalable des images intégrées et l'utilisation de MPS/MLX pour une formation efficace, avec un processus de formation comprenant une formation préalable sur 600 000 exemples et une mise au point supervisée sur 1 million d'exemples.
L'article compare différents modèles d'IA multimodale, en se concentrant sur Llama 3-V, qui vise à égaler les performances de GPT-4V, tout en étant plus petit et moins cher.
Elle souligne que des modèles tels que InternVL-1.5 et CogVLM sont plus performants que Llava, et que des modèles spécifiques excellent dans des tâches telles que la reconnaissance optique de caractères (OCR) et la compréhension d'interfaces utilisateur graphiques (GUI).
Les utilisateurs discutent des applications pratiques, des limites et de la rentabilité de ces modèles, y compris l'utilisation du GPT-4V dans la production pour les tâches visuelles et l'efficacité des outils OCR modernes tels que PaddleOCR et TrOCR.
Le 29 mai 2024, Mistral AI a lancé Codestral, un modèle d'IA générative à poids ouvert pour la génération de code, entraîné sur plus de 80 langages de programmation.
Codestral dispose d'un modèle d'une taille de 22 milliards et d'une fenêtre de contexte de 32 000, ce qui lui permet de surpasser ses concurrents dans des tests de référence tels que RepoBench et HumanEval.
Disponible sous la licence Mistral AI Non-Production License, Codestral est accessible via un point d'accès dédié ou intégré dans des outils tels que VSCode et JetBrains, les développeurs louant sa vitesse, sa précision et son impact sur la productivité.
Le modèle de code de Mistral, publié par mistral.ai, est assorti d'une licence restrictive interdisant l'utilisation commerciale, les conditions réelles et l'utilisation interne à l'entreprise, ce qui limite ses applications pratiques et suscite des critiques.
Le débat autour de la licence de Mistral met en lumière des questions plus générales concernant les droits d'auteur et les licences pour les contenus générés par l'IA, ainsi que l'utilisation abusive du terme "open-source" dans le domaine de l'IA.
Les utilisateurs expriment leur frustration face à la génération incohérente de codes d'IA, en particulier pour les tâches complexes, et discutent des limites et des capacités de divers modèles d'IA, notamment le Llama de Meta et les modèles GPT d'OpenAI.
L'article "What We Learned from a Year of Building with LLMs (Part I)" d'Eugene Yan et de ses collègues explore les progrès rapides et les applications pratiques des grands modèles de langage (LLM), tout en abordant les défis posés par le développement de produits d'IA efficaces.
Les principales leçons comprennent les meilleures pratiques en matière d'incitation, de génération augmentée par récupération (RAG), d'ingénierie de flux et d'évaluation, avec des techniques telles que les incitations de type "n-shot" et les incitations de type "chain-of-thought" (chaîne de pensée).
L'article fournit également des conseils opérationnels sur la gestion des agents d'intelligence artificielle, l'affinement des messages-guides, la mise au point des modèles et la réduction des coûts et de la latence grâce à la mise en cache, en mettant l'accent sur les évaluations pratiques et les approches centrées sur l'être humain.
Les enseignements tirés d'une année de travail avec les grands modèles linguistiques (LLM) soulignent l'importance de l'échantillonnage multiple pour réduire les taux d'hallucination et de la production de justifications avant les décisions pour des résultats plus précis.
L'article aborde les défis liés à l'évaluation des résultats du LLM, l'impact de la température sur le caractère aléatoire des résultats et les idées fausses sur l'échantillonnage, ainsi que les expériences d'utilisation d'outils tels que les patchbots et la recherche par faisceau.
Il aborde les préoccupations du secteur telles que les taux d'erreur élevés, les investissements motivés par le FOMO et la pression agressive exercée par des entreprises telles que Google pour intégrer l'IA en dépit des problèmes potentiels de qualité de service.
Le professeur Kevin Murphy, de l'université de Limerick, affirme que les travailleurs à distance sont plus productifs et plus satisfaits que ceux qui travaillent dans des bureaux.
La pression exercée par les mandats de retour au bureau (RTO) après la pandémie risque d'entraîner la perte des meilleurs talents, car de nombreux employés rejettent désormais les normes traditionnelles du bureau.
Les dirigeants doivent fournir des raisons et des incitations convaincantes pour le retour au bureau, en reconnaissant le changement dans la dynamique du pouvoir en faveur des employés, sous peine de perdre des talents précieux au profit de concurrents plus flexibles.
Le débat entre le travail à distance et les mandats de retour au bureau (RTO) est centré sur la flexibilité, le confort et la perte potentielle d'employés qui préfèrent le travail à distance.
Les trajets domicile-travail offrent une pause mentale à certains, mais posent des problèmes tels que la pollution, les coûts élevés et les frontières floues pour d'autres, ce qui a un impact sur l'équilibre entre vie professionnelle et vie privée et sur l'évolution de la carrière.
Le travail à distance est considéré comme plus efficace et plus durable, offrant des avantages tels que l'augmentation du temps passé en famille et la réduction des émissions de carbone, mais il peut négliger le personnel subalterne et nécessite une communication claire sur les avantages de la RTO.
Le projet de loi C-26 sur la cybersécurité au Canada donne au gouvernement le pouvoir d'obliger les entreprises de télécommunications à installer des portes dérobées dans les réseaux cryptés, ce qui pourrait compromettre la sécurité.
Les détracteurs, dont le Citizen Lab de l'université de Toronto, affirment que ces mesures affaibliraient le cryptage de la 5G et d'autres dispositifs de sécurité, ce qui accroîtrait la vulnérabilité aux cybermenaces.
Malgré les avertissements des experts, le projet de loi a été adopté sans amendements, ce qui contredit la position du Canada en faveur du chiffrement et risque de créer un dangereux précédent pour d'autres pays.
Le gouvernement canadien cherche à obtenir l'autorisation de créer des portes dérobées secrètes dans les réseaux de télécommunications à des fins de surveillance, en contournant le contrôle juridique traditionnel, ce qui soulève d'importantes questions en matière de protection de la vie privée et risque de donner lieu à des abus de la part des forces de l'ordre.
Les critiques soutiennent que cela pourrait conduire à une surveillance invasive semblable aux pratiques de la NSA, ce qui implique des débats sur la constitution du Canada, la "clause dérogatoire" et les capacités d'interception légale.
La discussion porte sur des exemples historiques de surveillance, comme lors des manifestations de camionneurs, et sur des thèmes plus généraux tels que les excès du gouvernement, la protection de la vie privée et les réactions de la société face à l'autorité.
L'article examine trois lois fondamentales qui contribuent à une complexité inutile dans l'ingénierie logicielle, en particulier dans les systèmes d'infrastructure.
Première loi : Les systèmes bien conçus se dégradent en systèmes mal conçus au fil du temps en raison de modifications continues.
Deuxième loi : La complexité augmente au fur et à mesure que les systèmes performants privilégient la part de marché à une bonne conception de l'abstraction, ce qui conduit à des systèmes difficiles à modifier.
Troisième loi : Il n'y a pas de limite supérieure à la complexité des logiciels, qui résulte des diverses capacités et philosophies des développeurs, ce qui donne lieu à des conceptions complexes.
La discussion porte sur les défis liés à la gestion de la complexité des logiciels, en particulier dans les systèmes existants, et sur les compromis entre le coût et la qualité, qui conduisent souvent à une dette technique.
Il souligne l'importance du remaniement incrémental, du maintien d'une culture d'ingénierie forte et de la distinction entre complexité essentielle et accidentelle pour gérer efficacement les logiciels.
Les participants soulignent la nécessité d'une maintenance continue, l'impact de mauvais choix de développement et le rôle du soutien de la direction dans la justification des efforts de remaniement.
Michael Lynch a créé TinyPilot à la mi-2020, un dispositif de contrôle à distance des serveurs, qui a rapidement gagné en popularité et s'est transformé en une entreprise avec un chiffre d'affaires annuel de 1 million de dollars et une équipe de sept personnes.
Lynch a vendu TinyPilot pour 600 000 dollars, soit 490 803 dollars après déduction des frais, en raison du stress lié à la gestion d'une entreprise de matériel informatique et de son désir de retourner au codage et de fonder une famille.
La vente, facilitée par Quiet Light Brokerage, a impliqué des défis tels que l'équilibre entre le stress du fondateur, la recherche d'un acheteur et la gestion de la diligence raisonnable ; l'acheteur était Scott, un professionnel des médias d'entreprise.
Michael Lynch a vendu son entreprise, TinyPilot, et a évoqué les coûts importants liés à la vente, notamment les commissions des courtiers et les frais juridiques, qui se sont élevés à environ 18 % du prix de vente.
Le parcours entrepreneurial de M. Lynch comprend la transition d'un emploi bien rémunéré chez Google à la valorisation de l'autonomie et de la créativité, la mise en évidence de la valeur éducative de l'esprit d'entreprise et la critique de l'accent mis par l'industrie technologique sur la rémunération totale.
M. Lynch prévoit d'amorcer de futures entreprises en se concentrant sur les produits éducatifs et les logiciels en tant que service (SaaS), en évitant le matériel informatique en raison de sa complexité et des défis qu'il pose.
En novembre 2023, le conseil d'administration d'OpenAI a licencié de manière inattendue le PDG Sam Altman, invoquant des "mensonges purs et simples" et un comportement manipulateur, qui ont érodé la confiance.
Les problèmes spécifiques comprenaient la propriété non divulguée par Altman de l'OpenAI Startup Fund, la fourniture d'informations inexactes sur la sécurité et la création d'un environnement de travail toxique.
Malgré ces allégations, des pressions internes et externes, y compris le soutien des employés et de Microsoft, ont conduit à la réintégration de M. Altman, un examen indépendant n'ayant révélé aucun problème lié à la sécurité des produits ou aux activités de l'entreprise.
Un ancien membre du conseil d'administration d'OpenAI a révélé que Sam Altman avait été démis de ses fonctions pour cause de malhonnêteté, ce qui soulève des questions quant à la connaissance qu'avait le conseil d'administration du lancement de ChatGPT.
Cette situation a suscité des discussions sur la transparence organisationnelle, le contrôle du conseil d'administration et la gouvernance éthique, avec des comparaisons à des faillites d'entreprises telles qu'Enron.
Les pratiques d'OpenAI en matière de confiance et de sécurité suscitent le scepticisme, avec des départs d'employés et des critiques sur la direction d'Altman, ainsi que des débats sur les compétences techniques et le rôle du conseil d'administration.
Une fuite importante de documents internes de Google Search a dévoilé des aspects essentiels de l'algorithme de classement de Google, notamment l'utilisation des clics, des liens, du contenu, des entités et des données de Chrome.
Les experts Rand Fishkin et Michael King ont analysé les documents, révélant 2 596 modules de classement, l'importance de la diversité des liens, la pertinence, les clics réussis et la reconnaissance de la marque.
Les documents révèlent également l'utilisation par Google des informations sur l'auteur, de l'autorité du site et des "twiddlers" pour ajuster les classements, ce qui offre des informations précieuses pour les référenceurs, même si la pondération exacte des facteurs de classement reste inconnue.
Une fuite d'un document de Google Search a déclenché des débats sur l'algorithme de classement et l'influence du programme publicitaire de Google sur les résultats de recherche.
Les utilisateurs discutent d'alternatives telles que Kagi et search.marginalia.nu, avec des avis mitigés sur la personnalisation de Kagi, son orientation non commerciale et les problèmes liés au spam et au contenu généré par l'IA.
La conversation met en évidence le souhait de voir les moteurs de recherche donner la priorité aux préférences des utilisateurs plutôt qu'aux recettes publicitaires. Elle aborde également la manipulation du référencement, le potentiel des grands modèles de langage (LLM) et les préoccupations relatives à l'authenticité des avis en ligne et aux critères de classement de Google.
ChatTTS est un modèle de synthèse vocale optimisé pour le dialogue, prenant en charge l'anglais et le chinois, et entraîné sur plus de 100 000 heures de données.
La version open-source sur HuggingFace comprend un modèle pré-entraîné de 40 000 heures, excellant dans la synthèse vocale naturelle et expressive avec un contrôle prosodique fin.
Le modèle est destiné à un usage académique uniquement, et il est prévu d'en ouvrir les fonctionnalités et d'en améliorer la stabilité.
La discussion porte sur le développement et les performances de modèles TTS tels que ChatTTS et Piper TTS, en soulignant des problèmes tels que la lenteur du traitement et les difficultés liées à la qualité de la voix.
Les utilisateurs soulignent la nécessité d'un TTS de haute qualité dans plusieurs langues et débattent de l'efficacité des voix humaines par rapport aux voix automatisées dans les livres audio.
Il y a une critique des allégations trompeuses de "source ouverte" dans les projets TTS et un appel à une liste complète de modèles et de données TTS véritablement à source ouverte.
Une fuite de 2 500 pages de documents internes de Google, partagée par l'expert en référencement Rand Fishkin, pourrait révéler des divergences entre les déclarations publiques de Google et ses pratiques réelles en matière d'algorithmes de recherche.
Les documents suggèrent l'utilisation des données de Chrome dans les classements et le suivi des informations sur les auteurs, ce qui remet en question les affirmations précédentes de Google et suscite un débat sur la transparence de l'entreprise.
Google n'a pas commenté la légitimité des documents, et l'incident met en lumière les préoccupations actuelles concernant la nature opaque des opérations de recherche de Google dans le cadre de l'examen antitrust.
Une fuite de la documentation relative à l'algorithme de recherche de Google a révélé des divergences potentielles entre les déclarations publiques de Google et ses pratiques réelles.
La fuite suggère que les représentants de Google pourraient avoir discrédité les conclusions exactes des communautés du marketing, de la technologie et du journalisme, ce qui soulève des questions éthiques sur la manipulation du référencement.
Les discussions juridiques sur GitHub débattent de l'importance et de la légalité de la fuite, avec des opinions variées sur son impact sur le statut de secret commercial et la protection des droits d'auteur.