University of Washington (UW) telah mengembangkan sistem AI bernama "Target Speech Hearing" yang membantu pengguna fokus pada satu pembicara di lingkungan yang bising dengan melihatnya selama tiga hingga lima detik.
Dipresentasikan pada Konferensi ACM CHI, sistem ini menggunakan pembelajaran mesin untuk mengisolasi dan memperkuat suara pembicara yang diinginkan secara real-time, bahkan saat pengguna bergerak.
Saat ini dalam tahap pembuktian konsep, teknologi ini telah diuji pada 21 subjek yang melaporkan peningkatan kejernihan secara signifikan, dengan rencana di masa depan untuk memperluas ke earbud dan alat bantu dengar.
Teks ini mengeksplorasi strategi dan teknologi untuk meningkatkan pengalaman pendengaran di lingkungan yang bising, dengan fokus pada headphone AI, desain suara yang canggih, dan teknologi peredam bising.
Ini menyoroti tantangan material restoran modern yang berkontribusi terhadap kebisingan dan penggunaan teknik peredam suara di samping masalah pemeliharaan dan estetika.
Kemajuan teknologi seperti mikrofon terarah, pengenalan suara real-time, dan penyaringan suara selektif juga dibahas, bersama dengan kekhawatiran tentang privasi dan potensi penyalahgunaan.
Mantan anggota dewan OpenAI, Helen Toner, mengungkapkan bahwa Sam Altman sempat diberhentikan sebagai CEO karena beberapa kali melakukan ketidakjujuran dan menyembunyikan informasi dari dewan.
Contohnya adalah dewan direksi mengetahui tentang perilisan ChatGPT melalui Twitter dan Altman tidak mengungkapkan kepentingan finansialnya di perusahaan tersebut, serta tuduhan memberikan informasi keselamatan yang tidak akurat dan "pelecehan psikologis" oleh dua orang eksekutif.
Altman dipekerjakan kembali sebagai CEO kurang dari seminggu kemudian setelah staf mengancam untuk berhenti dan Microsoft menyatakan minatnya untuk mempekerjakan timnya; Toner mengundurkan diri tidak lama setelah kembali.
CEO OpenAI, Sam Altman, sempat digulingkan dan kemudian dipekerjakan kembali, yang memperlihatkan adanya ketegangan antara otoritas dewan direksi dengan pengaruh para investor dan pendiri utama.
Kesalahan penanganan oleh dewan atas pemecatan Altman menyebabkan reaksi keras dari para karyawan dan ancaman pengunduran diri massal, menggarisbawahi dinamika yang kompleks dalam tata kelola perusahaan, pengaruh karyawan, dan kepentingan finansial.
Insiden ini memicu diskusi yang lebih luas tentang kepemimpinan di bidang teknologi, implikasi etis dari perilaku yang kejam, dan peran komunikasi dan etika dalam tata kelola perusahaan.
Pengalihan HTTP ke HTTPS dapat mengekspos data sensitif atau memungkinkan serangan Man-In-The-Middle (MITM), terutama untuk API yang diakses oleh perangkat lunak yang mungkin tidak menangani header keamanan.
Teknik seperti HSTS (HTTP Strict Transport Security) dan mode HTTPS-Only meningkatkan keamanan tetapi mungkin tidak cukup untuk API, menyoroti perlunya pendekatan gagal-cepat untuk menangkap kesalahan lebih awal.
Praktik terbaik harus diperbarui untuk merekomendasikan agar API menolak permintaan yang tidak terenkripsi sepenuhnya dan mencabut kredensial API yang dikirim melalui koneksi yang tidak terenkripsi untuk mencegah risiko keamanan.
Diskusi ini menekankan pada peningkatan keamanan API dengan mengalihkan HTTP ke HTTPS dan mencabut kunci API yang dikirim melalui HTTP untuk mencegah serangan Man-in-the-Middle (MITM).
Ini menyoroti pentingnya manajemen kunci API yang tepat, menggunakan hash yang ditandatangani, nonce, dan stempel waktu untuk otentikasi, dan pentingnya HTTPS untuk integritas dan privasi data.
Percakapan tersebut mengkritik ketergantungan pada Otoritas Sertifikat dan menyarankan solusi praktis seperti URL unik atau kunci API untuk kontrol akses yang aman dalam konteks tertentu.
Llama3-V adalah model multimodal baru berdasarkan Llama3, yang dirancang untuk menyaingi model yang lebih besar seperti GPT-4V tetapi dengan biaya yang jauh lebih rendah (di bawah $500).
Model ini melampaui model mutakhir saat ini, Llava, sebesar 10-20% dalam tolok ukur pemahaman multimodal, menggunakan SigLIP untuk penyematan gambar dan menyelaraskan token visual dan tekstual melalui blok proyeksi dengan lapisan perhatian mandiri.
Pengoptimalan utama meliputi penyematan gambar prakomputasi dan memanfaatkan MPS/MLX untuk pelatihan yang efisien, dengan proses pelatihan yang melibatkan prapelatihan pada 600.000 contoh dan penyesuaian yang diawasi pada 1 juta contoh.
Artikel ini membandingkan berbagai model AI multimodal, dengan fokus pada Llama 3-V, yang bertujuan untuk menyamai kinerja GPT-4V tetapi lebih kecil dan lebih murah.
Ini menyoroti bahwa model seperti InternVL-1.5 dan CogVLM mengungguli Llava, dengan model tertentu yang unggul dalam tugas-tugas seperti OCR (Pengenalan Karakter Optik) dan pemahaman GUI (Antarmuka Pengguna Grafis).
Pengguna mendiskusikan aplikasi praktis, keterbatasan, dan efektivitas biaya dari model-model ini, termasuk penggunaan GPT-4V dalam produksi untuk tugas-tugas visual dan efektivitas alat bantu OCR modern seperti PaddleOCR dan TrOCR.
Pada tanggal 29 Mei 2024, Mistral AI meluncurkan Codestral, sebuah model AI generatif berbobot terbuka untuk pembuatan kode, yang dilatih pada lebih dari 80 bahasa pemrograman.
Codestral memiliki ukuran model 22B dan jendela konteks 32k, mengungguli para pesaing dalam tolok ukur seperti RepoBench dan HumanEval.
Tersedia di bawah Lisensi Non-Produksi Mistral AI, Codestral dapat diakses melalui titik akhir khusus atau diintegrasikan ke dalam alat seperti VSCode dan JetBrains, dengan para pengembang yang memuji kecepatan, keakuratan, dan dampak produktivitasnya.
Model Kode Mistral, yang dirilis oleh mistral.ai, memiliki lisensi terbatas yang melarang penggunaan komersial, kondisi langsung, dan penggunaan internal perusahaan, sehingga membatasi aplikasi praktis dan menuai kritik.
Perdebatan seputar lisensi Mistral menyoroti masalah yang lebih luas tentang hak cipta dan lisensi dalam konten yang dihasilkan oleh AI dan penyalahgunaan istilah "sumber terbuka" dalam AI.
Pengguna mengungkapkan rasa frustasi mereka terhadap pembuatan kode AI yang tidak konsisten, terutama dalam tugas-tugas yang rumit, dan mendiskusikan keterbatasan dan kemampuan berbagai model AI, termasuk model Llama dari Meta dan model GPT dari OpenAI.
Artikel "Apa yang Kami Pelajari dari Setahun Membangun dengan LLM (Bagian I)" oleh Eugene Yan dan rekan-rekannya mengeksplorasi kemajuan pesat dan aplikasi praktis model bahasa besar (LLM), sambil membahas tantangan dalam mengembangkan produk AI yang efektif.
Pelajaran utama mencakup berbagai praktik terbaik dalam pemberian petunjuk, retrieval-augmented generation (RAG), rekayasa aliran, dan evaluasi, dengan penekanan pada teknik seperti n-shot prompts (petunjuk n-bidikan) dan chain-of-thought prompting (petunjuk rantai pemikiran).
Artikel ini juga memberikan saran operasional dalam mengelola agen AI, menyempurnakan permintaan, menyempurnakan model, dan mengurangi biaya dan latensi melalui caching, menekankan evaluasi praktis dan pendekatan yang berpusat pada manusia.
Wawasan dari satu tahun bekerja dengan Large Language Models (LLM) menyoroti pentingnya pengambilan sampel berganda untuk mengurangi tingkat halusinasi dan menghasilkan pembenaran sebelum mengambil keputusan untuk hasil yang lebih akurat.
Artikel ini membahas tantangan dalam mengevaluasi output LLM, dampak suhu pada keacakan output, dan kesalahpahaman tentang pengambilan sampel, bersama dengan pengalaman menggunakan alat seperti patchbots dan beam search.
Hal ini menjawab kekhawatiran industri seperti tingkat kesalahan yang tinggi, investasi yang digerakkan oleh FOMO, dan dorongan agresif oleh perusahaan seperti Google untuk mengintegrasikan AI meskipun ada potensi masalah kualitas layanan.
Profesor Kevin Murphy dari University of Limerick mengklaim bahwa pekerja jarak jauh lebih produktif dan puas dibandingkan mereka yang bekerja di kantor.
Dorongan untuk Return to Office (RTO) mengamanatkan risiko pasca-pandemi kehilangan talenta terbaik, karena banyak karyawan yang kini menolak norma-norma kantor tradisional.
Para eksekutif harus memberikan alasan dan insentif yang menarik untuk kembali ke kantor, mengakui pergeseran dinamika kekuasaan yang menguntungkan karyawan, atau mengambil risiko kehilangan talenta yang berharga kepada pesaing yang lebih fleksibel.
Perdebatan antara kerja jarak jauh dan mandat kembali ke kantor (RTO) berpusat pada fleksibilitas, kenyamanan, dan potensi kehilangan karyawan yang lebih memilih kerja jarak jauh.
Bepergian menawarkan istirahat mental bagi sebagian orang, namun menghadirkan tantangan seperti polusi, biaya tinggi, dan batas-batas yang kabur bagi sebagian lainnya, yang berdampak pada keseimbangan kehidupan kerja dan pertumbuhan karier.
Kerja jarak jauh dianggap lebih efisien dan berkelanjutan, menawarkan manfaat seperti peningkatan waktu untuk keluarga dan pengurangan emisi karbon, namun dapat mengabaikan staf junior dan membutuhkan komunikasi yang jelas tentang manfaat RTO.
Bill C-26, sebuah RUU keamanan siber federal di Kanada, memberikan kekuasaan kepada pemerintah untuk memaksa perusahaan telekomunikasi memasang pintu belakang di jaringan terenkripsi, yang berpotensi membahayakan keamanan.
Para kritikus, termasuk Citizen Lab dari University of Toronto, berpendapat bahwa langkah-langkah ini akan melemahkan enkripsi 5G dan fitur keamanan lainnya, sehingga meningkatkan kerentanan terhadap ancaman siber.
Terlepas dari peringatan para ahli, RUU ini terus maju tanpa amandemen, bertentangan dengan sikap pro-enkripsi Kanada dan berpotensi menjadi preseden berbahaya bagi negara lain.
Pemerintah Kanada sedang mencari wewenang untuk membuat pintu belakang rahasia di jaringan telekomunikasi untuk pengawasan, melewati pengawasan hukum tradisional, yang menimbulkan masalah privasi yang signifikan dan potensi penyalahgunaan oleh penegak hukum.
Para kritikus berpendapat bahwa hal ini dapat mengarah pada pemantauan invasif yang mirip dengan praktik NSA, yang melibatkan perdebatan tentang konstitusi Kanada, "klausul pengecualian", dan kemampuan penyadapan yang sah.
Diskusi ini mencakup contoh-contoh historis pengawasan, seperti saat protes pengemudi truk, dan tema-tema yang lebih luas tentang jangkauan pemerintah yang berlebihan, privasi, dan tanggapan masyarakat terhadap otoritas.
Artikel ini membahas tiga hukum dasar yang berkontribusi pada kompleksitas yang tidak perlu dalam rekayasa perangkat lunak, khususnya dalam sistem infrastruktur.
Hukum Pertama: Sistem yang dirancang dengan baik akan menurun menjadi sistem yang dirancang dengan buruk seiring berjalannya waktu karena modifikasi yang terus menerus.
Hukum Kedua: Kompleksitas meningkat ketika sistem yang sukses memprioritaskan pangsa pasar di atas desain abstraksi yang baik, yang mengarah ke sistem yang sulit dimodifikasi.
Hukum Ketiga: Tidak ada batas atas untuk kompleksitas perangkat lunak, didorong oleh kemampuan dan filosofi pengembang yang beragam, sehingga menghasilkan desain yang rumit.
Diskusi ini membahas tantangan dalam mengelola kompleksitas perangkat lunak, terutama dalam sistem lama, dan tarik-ulur antara biaya dan kualitas, yang sering kali mengarah pada utang teknis.
Hal ini menekankan pentingnya refactoring tambahan, mempertahankan budaya rekayasa yang kuat, dan membedakan antara kompleksitas yang esensial dan yang tidak disengaja untuk mengelola perangkat lunak secara efektif.
Para peserta menyoroti perlunya pemeliharaan yang berkelanjutan, dampak dari pilihan pengembangan yang buruk, dan peran dukungan manajemen dalam menjustifikasi upaya refactoring.
Michael Lynch menciptakan TinyPilot pada pertengahan tahun 2020, sebuah perangkat untuk kontrol server jarak jauh, yang dengan cepat mendapatkan popularitas dan berkembang menjadi bisnis dengan pendapatan tahunan sebesar $1 juta dan tim beranggotakan tujuh orang.
Lynch menjual TinyPilot seharga $600 ribu, dengan keuntungan $490.803 setelah dipotong biaya-biaya, karena stres mengelola bisnis perangkat keras dan keinginan untuk kembali ke dunia koding dan berkeluarga.
Penjualan yang difasilitasi oleh Quiet Light Brokerage ini melibatkan berbagai tantangan seperti menyeimbangkan stres pendiri, menemukan pembeli, dan mengelola uji tuntas; pembelinya adalah Scott, seorang profesional media korporat.
Michael Lynch menjual bisnisnya, TinyPilot, dan membahas biaya-biaya signifikan yang terlibat dalam penjualan tersebut, termasuk komisi broker dan biaya hukum, yang berjumlah sekitar 18% dari harga jual.
Perjalanan kewirausahaan Lynch termasuk transisi dari pekerjaan bergaji tinggi di Google untuk menghargai otonomi dan kreativitas, menyoroti nilai pendidikan kewirausahaan, dan mengkritik fokus industri teknologi yang berfokus pada kompensasi total.
Lynch berencana untuk melakukan bootstrap pada usaha-usaha di masa depan, dengan fokus pada produk pendidikan dan Software as a Service (SaaS), menghindari perangkat keras karena kerumitan dan tantangannya.
Pada November 2023, dewan direksi OpenAI secara tak terduga memecat CEO Sam Altman, dengan alasan "kebohongan yang terang-terangan" dan perilaku manipulatif, yang mengikis kepercayaan.
Isu-isu spesifik termasuk kepemilikan Altman yang dirahasiakan atas OpenAI Startup Fund, memberikan informasi keselamatan yang tidak akurat, dan menciptakan lingkungan kerja yang beracun.
Terlepas dari tuduhan ini, tekanan internal dan eksternal, termasuk dukungan dari karyawan dan Microsoft, menyebabkan Altman dipulihkan kembali, dengan tinjauan independen yang tidak menemukan masalah dengan keamanan produk atau operasi perusahaan.
Seorang mantan anggota dewan OpenAI mengungkapkan bahwa Sam Altman diberhentikan karena ketidakjujuran, sehingga menimbulkan pertanyaan tentang kesadaran dewan tentang peluncuran ChatGPT.
Situasi ini telah memicu diskusi tentang transparansi organisasi, pengawasan dewan, dan tata kelola yang beretika, dengan perbandingan dengan kegagalan perusahaan seperti Enron.
Ada keraguan tentang kepercayaan dan praktik keamanan OpenAI, dengan keluarnya karyawan dan kritik terhadap kepemimpinan Altman, di samping perdebatan tentang kecakapan teknis dan peran dewan.
Kebocoran besar dokumen internal Google Penelusuran telah mengungkap aspek-aspek penting dari algoritme peringkat Google, termasuk penggunaan klik, tautan, konten, entitas, dan data Chrome.
Pakar industri Rand Fishkin dan Michael King menganalisis dokumen-dokumen tersebut, mengungkap 2.596 modul peringkat, pentingnya keragaman tautan, relevansi, klik yang berhasil, dan pengenalan merek.
Dokumen-dokumen tersebut juga mengungkapkan penggunaan informasi penulis, otoritas situs, dan "twiddlers" oleh Google untuk menyesuaikan peringkat, yang menawarkan wawasan berharga bagi SEO meskipun bobot faktor peringkat tidak diketahui secara pasti.
Sebuah dokumen Google Search yang bocor telah memicu perdebatan tentang algoritma peringkat dan pengaruh program iklan Google pada hasil pencarian.
Para pengguna mendiskusikan alternatif seperti Kagi dan search.marginalia.nu, dengan ulasan yang beragam tentang kustomisasi Kagi, fokus non-komersial, dan masalah dengan spam dan konten yang dibuat oleh AI.
Percakapan tersebut menyoroti keinginan mesin pencari yang memprioritaskan preferensi pengguna daripada pendapatan iklan, menyentuh manipulasi SEO, potensi Model Bahasa Besar (LLM), dan kekhawatiran tentang keaslian ulasan online dan kriteria peringkat Google.
ChatTTS adalah model text-to-speech (TTS) yang dioptimalkan untuk dialog, mendukung bahasa Inggris dan Mandarin, dan dilatih dengan lebih dari 100.000 jam data.
Versi sumber terbuka pada HuggingFace mencakup model yang telah dilatih selama 40.000 jam, unggul dalam sintesis ucapan yang alami dan ekspresif dengan kontrol prosodi yang halus.
Model ini hanya ditujukan untuk penggunaan akademis, dengan rencana di masa depan untuk membuka sumber fitur tambahan dan meningkatkan stabilitas.
Diskusi ini menyoroti pengembangan dan kinerja model TTS seperti ChatTTS dan Piper TTS, dengan memperhatikan masalah seperti pemrosesan yang lambat dan tantangan kualitas suara.
Pengguna menekankan perlunya TTS berkualitas tinggi dalam berbagai bahasa dan memperdebatkan keefektifan suara manusia versus suara otomatis dalam buku audio.
Ada kritik terhadap klaim "open-source" yang menyesatkan dalam proyek-proyek TTS dan seruan untuk daftar komprehensif model dan data TTS yang benar-benar open-source.
Bocoran 2.500 halaman dokumen internal Google, yang dibagikan oleh pakar SEO Rand Fishkin, dapat mengungkap ketidaksesuaian antara pernyataan publik Google dengan praktik aktualnya terkait algoritme pencarian.
Dokumen-dokumen tersebut menunjukkan penggunaan data Chrome dalam pemeringkatan dan pelacakan informasi penulis, menantang pernyataan Google sebelumnya dan memicu perdebatan mengenai transparansi perusahaan.
Google belum mengomentari keabsahan dokumen-dokumen tersebut, dan insiden ini menyoroti kekhawatiran yang sedang berlangsung tentang sifat buram dari operasi pencarian Google di tengah pengawasan antimonopoli.
Bocoran dokumentasi algoritme pencarian Google telah mengungkapkan potensi ketidaksesuaian antara pernyataan publik Google dan praktik mereka yang sebenarnya.
Bocoran tersebut menunjukkan bahwa perwakilan Google mungkin telah mendiskreditkan temuan akurat dari komunitas pemasaran, teknologi, dan jurnalisme, sehingga menimbulkan kekhawatiran etis tentang manipulasi SEO.
Diskusi hukum di GitHub memperdebatkan signifikansi dan legalitas kebocoran tersebut, dengan berbagai pendapat mengenai dampaknya terhadap status rahasia dagang dan perlindungan hak cipta.