L'université de Washington (UW) a mis au point un système d'IA appelé "Target Speech Hearing" qui aide les utilisateurs à se concentrer sur un seul locuteur dans des environnements bruyants en le regardant pendant trois à cinq secondes.
Présenté lors de la conférence ACM CHI, ce système utilise l'apprentissage automatique pour isoler et amplifier la voix du locuteur souhaité en temps réel, même lorsque l'utilisateur se déplace.
Actuellement au stade de la validation du concept, la technologie a été test ée sur 21 sujets qui ont fait état d'une amélioration significative de la clarté, et il est prévu de l'étendre aux oreillettes et aux appareils auditifs.
Le texte explore les stratégies et les technologies permettant d'améliorer l'expérience auditive dans les environnements bruyants, en mettant l'accent sur les casques d'écoute intelligents, la conception sonore avancée et les technologies de réduction du bruit.
Il met en évidence les défis posés par les matériaux utilisés dans les restaurants modernes qui contribuent au bruit et l'utilisation de techniques d'insonorisation malgré les problèmes d'entretien et d'esthétique.
Les avancées technologiques telles que les microphones directionnels, la reconnaissance vocale en temps réel et le filtrage sélectif des sons sont abordées, ainsi que les préoccupations relatives à la protection de la vie privée et aux utilisations abusives potentielles.
Helen Toner, ancien membre du conseil d'administration de l'OpenAI, a révélé que Sam Altman avait été brièvement démis de ses fonctions de PDG en raison de multiples cas de malhonnêteté et de dissimulation d'informations au conseil d'administration.
Par exemple, le conseil d'administration a appris la publication de ChatGPT via Twitter et M. Altman n'a pas divulgué ses intérêts financiers dans l'entreprise. Il a également été accusé d'avoir fourni des informations inexactes sur la sécurité et d'avoir été victime de "violences psychologiques" de la part de deux cadres.
Moins d'une semaine plus tard, M. Altman a été rétabli dans ses fonctions de PDG après que le personnel a menacé de démissionner et que Microsoft a manifesté son intérêt pour l'embauche de son équipe ; M. Toner a démissionné peu après son retour.
Le PDG d'OpenAI, Sam Altman, a été brièvement évincé puis réembauché, ce qui a mis en évidence les tensions entre l'autorité du conseil d'administration et l'influence des principaux investisseurs et fondateurs.
La mauvaise gestion du licenciement de M. Altman par le conseil d'administration a suscité une vive réaction de la part des salariés et des menaces de démission collective, soulignant la dynamique complexe de la gouvernance d'entreprise, de l'influence des salariés et des intérêts financiers.
L'incident a suscité des discussions plus larges sur le leadership dans la technologie, les implications éthiques d'un comportement impitoyable et le rôle de la communication et de l'éthique dans la gouvernance d'entreprise.
La redirection HTTP-to-HTTPS peut exposer des données sensibles ou permettre des attaques de type Man-In-The-Middle (MITM), en particulier pour les API auxquelles accèdent des logiciels qui peuvent ne pas gérer les en-têtes de sécurité.
Des techniques telles que HSTS (HTTP Strict Transport Security) et les modes HTTPS-Only améliorent la sécurité mais peuvent ne pas être suffisantes pour les API, ce qui souligne la nécessité d'une approche "fail-fast" pour détecter les erreurs à un stade précoce.
Les meilleures pratiques devraient être mises à jour pour recommander aux API de rejeter entièrement les demandes non cryptées et de révoquer les identifiants API envoyés par des connexions non cryptées afin de prévenir les risques de sécurité.
La discussion met l'accent sur le renforcement de la sécurité des API en redirigeant HTTP vers HTTPS et en révoquant les clés API envoyées par HTTP pour empêcher les attaques de type "Man-in-the-Middle" (MITM).
Il souligne l'importance d'une bonne gestion des clés d'API, de l'utilisation de hachages signés, de nonces et d'horodatages pour l'authentification, et de la nécessité du protocole HTTPS pour l'intégrité et la confidentialité des données.
La conversation critique la dépendance à l'égard des autorités de certification et propose des solutions pratiques telles que des URL uniques ou des clés API pour un contrôle d'accès sécurisé dans des contextes spécifiques.
Le Llama3-V est un nouveau modèle multimodal basé sur le Llama3, conçu pour rivaliser avec des modèles plus grands comme le GPT-4V, mais à un prix nettement inférieur (moins de 500 dollars).
Il surpasse le modèle de pointe actuel, Llava, de 10 à 20 % dans les benchmarks de compréhension multimodale, en utilisant SigLIP pour l'intégration d'images et en alignant les jetons visuels et textuels par le biais d'un bloc de projection avec des couches d'auto-attention.
Les principales optimisations comprennent le calcul préalable des images intégrées et l'utilisation de MPS/MLX pour une formation efficace, avec un processus de formation comprenant une formation préalable sur 600 000 exemples et une mise au point supervisée sur 1 million d'exemples.
L'article compare différents modèles d'IA multimodale, en se concentrant sur Llama 3-V, qui vise à égaler les performances de GPT-4V, tout en étant plus petit et moins cher.
Elle souligne que des modèles tels que InternVL-1.5 et CogVLM sont plus performants que Llava, et que des modèles spécifiques excellent dans des tâches telles que la reconnaissance optique de caractères (OCR) et la compréhension d'interfaces utilisateur graphiques (GUI).
Les utilisateurs discutent des applications pratiques, des limites et de la rentabilité de ces modèles, y compris l'utilisation du GPT-4V dans la production pour les tâches visuelles et l'efficacité des outils OCR modernes tels que PaddleOCR et TrOCR.
Le 29 mai 2024, Mistral AI a lancé Codestral, un modèle d'IA générative à poids ouvert pour la génération de code, entraîné sur plus de 80 langages de programmation.
Codestral dispose d'un modèle d'une taille de 22 milliards et d'une fenêtre de contexte de 32 000, ce qui lui permet de surpasser ses concurrents dans des tests de référence tels que RepoBench et HumanEval.
Disponible sous la licence Mistral AI Non-Production License, Codestral est accessible via un point d'accès dédié ou intégré dans des outils tels que VSCode et JetBrains, les développeurs louant sa vitesse, sa précision et son impact sur la productivité.
Le modèle de code de Mistral, publié par mistral.ai, est assorti d'une licence restrictive interdisant l'utilisation commerciale, les conditions réelles et l'utilisation interne à l'entreprise, ce qui limite ses applications pratiques et suscite des critiques.
Le débat autour de la licence de Mistral met en lumière des questions plus générales concernant les droits d'auteur et les licences pour les contenus générés par l'IA, ainsi que l'utilisation abusive du terme "open-source" dans le domaine de l'IA.
Les utilisateurs expriment leur frustration face à la génération incohérente de codes d'IA, en particulier pour les tâches complexes, et discutent des limites et des capacités de divers modèles d'IA, notamment le Llama de Meta et les modèles GPT d'OpenAI.
L'article "What We Learned from a Year of Building with LLMs (Part I)" d'Eugene Yan et de ses collègues explore les progrès rapides et les applications pratiques des grands modèles de langage (LLM), tout en abordant les défis posés par le développement de produits d'IA efficaces.
Les principales leçons comprennent les meilleures pratiques en matière d'incitation, de génération augmentée par récupération (RAG), d'ingénierie de flux et d'évaluation, avec des techniques telles que les incitations de type "n-shot" et les incitations de type "chain-of-thought" (chaîne de pensée).
L'article fournit également des conseils opérationnels sur la gestion des agents d'intelligence artificielle, l'affinement des messages-guides, la mise au point des modèles et la réduction des coûts et de la latence grâce à la mise en cache, en mettant l'accent sur les évaluations pratiques et les approches centrées sur l'être humain.
Les enseignements tirés d'une année de travail avec les grands modèles linguistiques (LLM) soulignent l'importance de l'échantillonnage multiple pour réduire les taux d'hallucination et de la production de justifications avant les décisions pour des résultats plus précis.
L'article aborde les défis liés à l'évaluation des résultats du LLM, l'impact de la température sur le caractère aléatoire des résultats et les idées fausses sur l'échantillonnage, ainsi que les expériences d'utilisation d'outils tels que les patchbots et la recherche par faisceau.
Il aborde les préoccupations du secteur telles que les taux d'erreur élevés, les investissements motivés par le FOMO et la pression agressive exercée par des entreprises telles que Google pour intégrer l'IA en dépit des problèmes potentiels de qualité de service.