La Universidad de Washington (UW) ha desarrollado un sistema de inteligencia artificial llamado "Target Speech Hearing" que ayuda a los usuarios a centrarse en un solo orador en entornos ruidosos mirándolo durante tres a cinco segundos.
Presentado en la Conferencia ACM CHI, este sistema utiliza el aprendizaje automático para aislar y amplificar la voz del interlocutor deseado en tiempo real, incluso mientras el usuario se mueve.
Esta tecnología, actualmente en fase de prueba de concepto, se ha probado en 21 sujetos que informaron de una mejora significativa de la claridad, con planes futuros de ampliarla a auriculares y audífonos.
El texto explora estrategias y tecnologías para mejorar las experiencias auditivas en entornos ruidosos, centrándose en los auriculares con IA, el diseño de sonido avanzado y las tecnologías de cancelación de ruido.
Destaca los retos que plantean los materiales de los restaurantes modernos que contribuyen al ruido y el uso de técnicas de amortiguación acústica a pesar de los problemas estéticos y de mantenimiento.
Se debaten avances tecnológicos como los micrófonos direccionales, el reconocimiento del habla en tiempo real y el filtrado selectivo del sonido, junto con la preocupación por la privacidad y los posibles usos indebidos.
Helen Toner, ex miembro del consejo de OpenAI, reveló que Sam Altman fue destituido brevemente como consejero delegado debido a múltiples casos de deshonestidad y ocultación de información al consejo.
Por ejemplo, la junta se enteró de la publicación de ChatGPT a través de Twitter y Altman no reveló sus intereses financieros en la empresa, junto con acusaciones de proporcionar información inexacta sobre seguridad y "maltrato psicológico" por parte de dos ejecutivos.
Altman fue restituido como Consejero Delegado menos de una semana después de que el personal amenazara con dimitir y Microsoft manifestara interés en contratar a su equipo; Toner dimitió poco después de su regreso.
El consejero delegado de OpenAI, Sam Altman, fue destituido brevemente y luego contratado de nuevo, lo que puso de manifiesto las tensiones entre la autoridad del consejo y la influencia de los principales inversores y fundadores.
La mala gestión del despido de Altman por parte del consejo provocó una importante reacción de los empleados y amenazas de dimisión masiva, lo que puso de relieve la compleja dinámica de la gobernanza corporativa, la influencia de los empleados y los intereses financieros.
El incidente suscitó debates más amplios sobre el liderazgo en la tecnología, las implicaciones éticas de un comportamiento despiadado y el papel de la comunicación y la ética en la gobernanza empresarial.
La redirección de HTTP a HTTPS puede exponer datos confidenciales o permitir ataques de intermediario (Man-In-The-Middle, MITM), especialmente en el caso de las API a las que se accede mediante software que no gestiona las cabeceras de seguridad.
Técnicas como HSTS (HTTP Strict Transport Security) y los modos HTTPS-Only mejoran la seguridad, pero pueden no ser suficientes para las API, lo que subraya la necesidad de un enfoque a prueba de fallos para detectar los errores a tiempo.
Las mejores prácticas deben actualizarse para recomendar que las API rechacen por completo las solicitudes no cifradas y revoquen las credenciales de API enviadas a través de conexiones no cifradas para evitar riesgos de seguridad.
El debate hace hincapié en la mejora de la seguridad de las API mediante la redirección de HTTP a HTTPS y la revocación de las claves de API enviadas a través de HTTP para evitar ataques del tipo Man-in-the-Middle (MITM).
Destaca la importancia de una gestión adecuada de las claves API, el uso de hashes firmados, nonces y marcas de tiempo para la autenticación, y la necesidad de HTTPS para la integridad y privacidad de los datos.
La conversación critica la dependencia de las autoridades de certificación y sugiere soluciones prácticas como URL únicas o claves API para el control de acceso seguro en contextos específicos.
Llama3-V es un nuevo modelo multimodal basado en Llama3, diseñado para rivalizar con modelos más grandes como GPT-4V pero a un coste significativamente inferior (menos de 500 dólares).
Supera al actual modelo de vanguardia, Llava, en un 10-20% en pruebas de comprensión multimodal, utilizando SigLIP para la incrustación de imágenes y alineando tokens visuales y textuales mediante un bloque de proyección con capas de autoatención.
Las principales optimizaciones incluyen el cálculo previo de la incrustación de imágenes y el aprovechamiento de MPS/MLX para un entrenamiento eficaz, con un proceso de entrenamiento que incluye el preentrenamiento en 600.000 ejemplos y el ajuste supervisado en 1 millón de ejemplos.
El artículo compara varios modelos de IA multimodal, centrándose en Llama 3-V, que pretende igualar las prestaciones de GPT-4V pero es más pequeño y barato.
Destaca que modelos como InternVL-1.5 y CogVLM superan a Llava, con modelos específicos que sobresalen en tareas como el reconocimiento óptico de caracteres (OCR) y la comprensión de interfaces gráficas de usuario (GUI).
Los usuarios discuten las aplicaciones prácticas, las limitaciones y la rentabilidad de estos modelos, incluido el uso de GPT-4V en producción para tareas visuales y la eficacia de herramientas modernas de OCR como PaddleOCR y TrOCR.
El 29 de mayo de 2024, Mistral AI lanzó Codestral, un modelo de IA generativa de peso abierto para la generación de código, entrenado en más de 80 lenguajes de programación.
Codestral cuenta con un modelo de 22B de tamaño y una ventana de contexto de 32k, superando a sus competidores en pruebas comparativas como RepoBench y HumanEval.
Disponible bajo la licencia Mistral AI Non-Production License, se puede acceder a Codestral a través de un punto final dedicado o integrado en herramientas como VSCode y JetBrains, y los desarrolladores elogian su velocidad, precisión e impacto en la productividad.
El modelo de código de Mistral, publicado por mistral.ai, tiene una licencia restrictiva que prohíbe el uso comercial, las condiciones de vida y el uso interno de la empresa, lo que limita sus aplicaciones prácticas y suscita críticas.
El debate en torno a la licencia de Mistral pone de relieve cuestiones más amplias como los derechos de autor y las licencias de los contenidos generados por IA y el mal uso del término "código abierto" en la IA.
Los usuarios expresan su frustración por la inconsistencia de la IA a la hora de generar código, sobre todo en tareas complejas, y discuten las limitaciones y capacidades de varios modelos de IA, como Llama de Meta y los modelos GPT de OpenAI.
El artículo "What We Learned from a Year of Building with LLMs (Part I)", de Eugene Yan y sus colegas, explora los rápidos avances y las aplicaciones prácticas de los grandes modelos lingüísticos (LLM), al tiempo que aborda los retos que plantea el desarrollo de productos de IA eficaces.
Las lecciones clave incluyen las mejores prácticas en la generación de estímulos, la generación aumentada por recuperación (RAG), la ingeniería de flujo y la evaluación, haciendo hincapié en técnicas como los estímulos n-shot y los estímulos de cadena de pensamiento.
El artículo también ofrece consejos operativos sobre la gestión de los agentes de IA, el perfeccionamiento de las instrucciones, el ajuste de los modelos y la reducción de los costes y la latencia mediante el almacenamiento en caché, haciendo hincapié en las evaluaciones prácticas y los enfoques centrados en el ser humano.
Las conclusiones de un año de trabajo con grandes modelos lingüísticos (LLM) ponen de relieve la importancia del muestreo múltiple para reducir los índices de alucinación y generar justificaciones antes de las decisiones para obtener resultados más precisos.
El artículo aborda los retos que plantea la evaluación de los resultados de los LLM, el impacto de la temperatura en la aleatoriedad de los resultados y los conceptos erróneos sobre el muestreo, junto con experiencias en el uso de herramientas como los patchbots y la búsqueda de haces.
Aborda preocupaciones del sector como las elevadas tasas de error, las inversiones impulsadas por el FOMO y el agresivo empuje de empresas como Google para integrar la IA a pesar de los posibles problemas de calidad del servicio.
El profesor Kevin Murphy, de la Universidad de Limerick, afirma que los trabajadores a distancia son más productivos y están más satisfechos que los que trabajan en oficinas.
La presión ejercida por los mandatos de vuelta a la oficina (RTO) tras la pandemia entraña el riesgo de perder a los mejores talentos, ya que muchos empleados rechazan ahora las normas tradicionales de oficina.
Los ejecutivos deben ofrecer razones convincentes e incentivos para volver a la oficina, reconociendo el cambio en la dinámica de poder que favorece a los empleados, o arriesgarse a perder valiosos talentos en favor de competidores más flexibles.
El debate entre el trabajo a distancia y los mandatos de regreso a la oficina (RTO) se centra en la flexibilidad, la comodidad y la posible pérdida de empleados que prefieren el trabajo a distancia.
Para algunos, los desplazamientos ofrecen un descanso mental, pero para otros plantean retos como la contaminación, los elevados costes y la difuminación de los límites, lo que afecta al equilibrio entre la vida laboral y personal y al crecimiento profesional.
El trabajo a distancia se considera más eficiente y sostenible, ya que ofrece ventajas como más tiempo para la familia y menos emisiones de carbono, pero puede descuidar al personal subalterno y exigir una comunicación clara de las ventajas del RTO.
El proyecto de ley C-26 sobre ciberseguridad en Canadá otorga al Gobierno poderes para obligar a las empresas de telecomunicaciones a instalar puertas traseras en las redes cifradas, lo que podría comprometer la seguridad.
Los críticos, entre ellos el Citizen Lab de la Universidad de Toronto, sostienen que estas medidas debilitarían el cifrado 5G y otras características de seguridad, aumentando la vulnerabilidad a las ciberamenazas.
A pesar de las advertencias de los expertos, el proyecto de ley ha avanzado sin enmiendas, contradiciendo la postura canadiense a favor de la encriptación y sentando potencialmente un peligroso precedente para otros países.
El gobierno canadiense busca autorización para crear puertas traseras secretas en las redes de telecomunicaciones con fines de vigilancia, eludiendo la supervisión legal tradicional, lo que plantea importantes problemas de privacidad y posibilidades de abuso por parte de las fuerzas del orden.
Los críticos sostienen que esto podría conducir a una vigilancia invasiva similar a las prácticas de la NSA, lo que implicaría debates sobre la Constitución canadiense, la "cláusula de no aplicación" y la capacidad de interceptación legal.
El debate incluye ejemplos históricos de vigilancia, como durante las protestas de los camioneros, y temas más amplios sobre la extralimitación del gobierno, la privacidad y las respuestas de la sociedad a la autoridad.
El artículo analiza tres leyes fundamentales que contribuyen a la complejidad innecesaria en la ingeniería de software, especialmente en los sistemas infraestructurales.
Primera Ley: Los sistemas bien diseñados se degradan en sistemas mal diseñados con el tiempo debido a las continuas modificaciones.
Segunda ley: La complejidad aumenta a medida que los sistemas de éxito priorizan la cuota de mercado sobre un buen diseño de abstracción, lo que conduce a sistemas difíciles de modificar.
Tercera ley: No existe un límite superior a la complejidad del software, impulsada por las diversas capacidades y filosofías de los desarrolladores, lo que da lugar a diseños intrincados.
El debate aborda los retos de la gestión de la complejidad del software, especialmente en los sistemas heredados, y las compensaciones entre coste y calidad, que a menudo conducen a la deuda técnica.
Destaca la importancia de la refactorización incremental, el mantenimiento de una sólida cultura de ingeniería y la distinción entre complejidad esencial y accidental para gestionar el software con eficacia.
Los participantes destacan la necesidad del mantenimiento continuo, el impacto de las malas decisiones de desarrollo y el papel del apoyo de la dirección a la hora de justificar los esfuerzos de refactorización.
Michael Lynch creó TinyPilot a mediados de 2020, un dispositivo para el control remoto de servidores, que rápidamente ganó popularidad y se convirtió en una empresa con ingresos anuales de un millón de dólares y un equipo de siete personas.
Lynch vendió TinyPilot por 600.000 dólares, con un beneficio neto de 490.803 dólares después de gastos, debido al estrés de gestionar un negocio de hardware y al deseo de volver a la codificación y formar una familia.
La venta, facilitada por Quiet Light Brokerage, supuso retos como equilibrar el estrés de los fundadores, encontrar un comprador y gestionar la diligencia debida; el comprador fue Scott, un profesional de los medios de comunicación corporativos.
Michael Lynch vendió su empresa, TinyPilot, y habló de los importantes costes que conllevó la venta, incluidas las comisiones de los agentes y los honorarios legales, que ascendieron a alrededor del 18% del precio de venta.
El viaje empresarial de Lynch incluyó la transición de un trabajo bien pagado en Google a la valoración de la autonomía y la creatividad, destacando el valor educativo del espíritu empresarial y criticando el enfoque de la industria tecnológica en la compensación total.
Lynch planea poner en marcha futuras empresas, centrándose en productos educativos y software como servicio (SaaS), evitando el hardware debido a sus complejidades y retos.
En noviembre de 2023, la junta directiva de OpenAI despidió inesperadamente al consejero delegado, Sam Altman, alegando "mentiras descaradas" y un comportamiento manipulador que erosionaba la confianza.
Entre los problemas concretos figuraban la propiedad no revelada de Altman del OpenAI Startup Fund, el suministro de información inexacta sobre seguridad y la creación de un entorno de trabajo tóxico.
A pesar de estas acusaciones, las presiones internas y externas, incluido el apoyo de los empleados y de Microsoft, condujeron a la reincorporación de Altman, y una revisión independiente no encontró problemas con la seguridad de los productos ni con las operaciones de la empresa.
Un antiguo miembro de la junta de OpenAI reveló que Sam Altman fue despedido por falta de honradez, lo que plantea dudas sobre el conocimiento que tenía la junta del lanzamiento de ChatGPT.
La situación ha suscitado debates sobre la transparencia organizativa, la supervisión de los consejos de administración y la gobernanza ética, con comparaciones con quiebras empresariales como la de Enron.
Hay escepticismo sobre las prácticas de confianza y seguridad de OpenAI, con salidas de empleados y críticas al liderazgo de Altman, junto con debates sobre la competencia técnica y el papel del consejo.
Una importante filtración de documentos internos de Google Search ha desvelado aspectos críticos del algoritmo de clasificación de Google, incluido el uso de clics, enlaces, contenido, entidades y datos de Chrome.
Los expertos del sector Rand Fishkin y Michael King analizaron los documentos, revelando 2.596 módulos de clasificación, la importancia de la diversidad de enlaces, la relevancia, el éxito de los clics y el reconocimiento de marca.
Los documentos también revelan el uso que hace Google de la información sobre el autor, la autoridad del sitio y los "twiddlers" para ajustar las clasificaciones, lo que ofrece información valiosa para los SEO a pesar de que se desconoce la ponderación exacta de los factores de clasificación.
Un documento filtrado de Google Search ha encendido los debates sobre el algoritmo de clasificación y la influencia del programa de anuncios de Google en los resultados de búsqueda.
Los usuarios están debatiendo alternativas como Kagi y search.marginalia.nu, con opiniones encontradas sobre la personalización de Kagi, su enfoque no comercial y los problemas con el spam y el contenido generado por IA.
En la conversación se destaca el deseo de que los motores de búsqueda den prioridad a las preferencias de los usuarios frente a los ingresos publicitarios, se habla de la manipulación del SEO, del potencial de los modelos de lenguaje de gran tamaño (LLM) y de la preocupación por la autenticidad de las reseñas en línea y los criterios de clasificación de Google.
ChatTTS es un modelo de conversión de texto a voz (TTS) optimizado para el diálogo, compatible con inglés y chino, y entrenado con más de 100.000 horas de datos.
La versión de código abierto de HuggingFace incluye un modelo preentrenado de 40.000 horas, que destaca en la síntesis natural y expresiva del habla con un control prosódico muy preciso.
El modelo está pensado únicamente para uso académico, pero en el futuro se planea ampliarlo y mejorar su estabilidad.
El debate pone de relieve el desarrollo y el rendimiento de modelos TTS como ChatTTS y Piper TTS, y señala problemas como la lentitud del procesamiento y los problemas de calidad de voz.
Los usuarios insisten en la necesidad de contar con un TTS de alta calidad en varios idiomas y debaten sobre la eficacia de las voces humanas frente a las automatizadas en los audiolibros.
Se critica la engañosa afirmación de "código abierto" en los proyectos de TTS y se pide una lista exhaustiva de modelos y datos de TTS realmente de código abierto.
Una filtración de 2.500 páginas de documentos internos de Google, compartida por el experto en SEO Rand Fishkin, podría revelar discrepancias entre las declaraciones públicas de Google y sus prácticas reales en relación con los algoritmos de búsqueda.
Los documentos sugieren el uso de datos de Chrome en las clasificaciones y el seguimiento de la información de los autores, lo que pone en entredicho las afirmaciones anteriores de Google y desata el debate sobre la transparencia de la empresa.
Google no ha hecho ningún comentario sobre la legitimidad de los documentos, y el incidente pone de relieve la preocupación existente sobre la naturaleza opaca de las operaciones de búsqueda de Google en medio del escrutinio antimonopolio.
Una filtración de la documentación del algoritmo de búsqueda de Google ha revelado posibles discrepancias entre las declaraciones públicas de Google y sus prácticas reales.
La filtración sugiere que los representantes de Google pueden haber desacreditado conclusiones precisas de las comunidades de marketing, tecnología y periodismo, lo que plantea problemas éticos sobre la manipulación del SEO.
Las discusiones legales en GitHub están debatiendo la importancia y la legalidad de la filtración, con diversas opiniones sobre su impacto en el estatus de secreto comercial y la protección de los derechos de autor.