Skip to main content

2024-06-18

การควบคุมการแชทต้องหยุด – เดี๋ยวนี้

  • ข้อเสนอ "การควบคุมการแชท" ของคณะกรรมาธิการสหภาพยุโรปมีเป้าหมายที่จะดำเนินการเฝ้าระวังในวงกว้าง ซึ่งอาจเป็นการประนีประนอมกับความเป็นส่วนตัวและความปลอดภัยของข้อมูลของพลเมือง
  • หากผ่านการอนุมัติ จะกำหนดให้ผู้ให้บริการต้องสแกนข้อความเพื่อหาสื่อการล่วงละเมิดทางเพศเด็ก (CSAM) แต่ผู้วิจารณ์โต้แย้งว่ามาตรการนี้ไม่มีประสิทธิภาพต่ออาชญากรและเป็นอันตรายต่อประชาธิปไตย
  • Threema, บริการสื่อสารที่มีความปลอดภัย, คัดค้านข้อเสนอนี้และอาจออกจากสหภาพยุโรปเพื่อหลีกเลี่ยงการปฏิบัติตาม, โดยเน้นถึงการใช้งานในทางที่ผิดและการคัดค้านจากผู้สนับสนุนความเป็นส่วนตัว.

ปฏิกิริยา

  • การดำเนินการระบบระดับโลกเพื่อควบคุมความเป็นส่วนตัวทางอินเทอร์เน็ตจะเผชิญกับการต่อต้านอย่างมากจากผู้สนับสนุนความเป็นส่วนตัวและบริษัทเทคโนโลยี
  • การบังคับใช้ระบบเช่นนี้ทั่วโลกแทบจะเป็นไปไม่ได้เนื่องจากระดับความมุ่งมั่นต่อความเป็นส่วนตัวและเสรีภาพทางอินเทอร์เน็ตที่แตกต่างกันในแต่ละประเทศ

การควบคุมการแชท: ไม่สอดคล้องกับสิทธิมนุษยชนพื้นฐาน (2022)

  • ร่างกฎระเบียบการควบคุมการแชทของคณะกรรมาธิการสหภาพยุโรปมีเป้าหมายเพื่อต่อสู้กับความรุนแรงทางเพศต่อเด็ก แต่ก่อให้เกิดความกังวลอย่างมากเกี่ยวกับสิทธิมนุษยชนขั้นพื้นฐาน
  • ประเด็นสำคัญที่ถูกเน้นย้ำรวมถึงการละเมิดความเป็นส่วนตัว ผลกระทบที่ทำให้การแสดงออกอย่างเสรีลดลง ข้อบังคับการกรองที่มีแนวโน้มเกิดข้อผิดพลาด การบล็อกเว็บไซต์ และการยืนยันอายุที่บังคับใช้
  • มูลนิธิเพื่อเสรีภาพดิจิทัล (GFF) โต้แย้งว่ามาตรการเหล่านี้ละเมิดกฎบัตรสิทธิขั้นพื้นฐานของสหภาพยุโรป และเรียกร้องให้มีการพิจารณาร่างข้อบังคับใหม่อีกครั้ง

ปฏิกิริยา

  • รัฐสภายุโรปกำลังอภิปรายกฎหมาย "การควบคุมการแชท" ที่อาจละเมิดสิทธิมนุษยชนขั้นพื้นฐาน โดยกำหนดให้ผู้ใช้ต้องเลือกเข้าร่วมเพื่อส่งภาพและวิดีโอ
  • นักวิจารณ์โต้แย้งว่าข้อเสนอนี้ขัดแย้งกับหลักการของ GDPR ของสหภาพยุโรปและอาจนำไปสู่การยินยอมที่ถูกบังคับ ซึ่งก่อให้เกิดความกังวลเกี่ยวกับความเป็นส่วนตัวและการแทรกแซงของรัฐบาล
  • กฎหมายอาจจะผ่านโดยสภายุโรปในไม่ช้า ทำให้เกิดความกังวลเกี่ยวกับการเฝ้าระวังมวลชนและตั้งคำถามถึงความมุ่งมั่นของสหภาพยุโรปในการปกป้องสิทธิส่วนบุคคล

สหภาพยุโรปเตรียมอนุมัติการควบคุมแชทในวันพรุ่งนี้

  • สภาสหภาพยุโรปเตรียมลงคะแนนเสียงเกี่ยวกับการควบคุมการแชท ซึ่งเกี่ยวข้องกับการค้นหาข้อมูลส่วนตัวในปริมาณมาก ในวันที่ 20 มิถุนายน 2024
  • การกำหนดเวลาของการลงคะแนนเสียงไม่นานหลังจากการเลือกตั้งยุโรป ถูกมองว่าเป็นความพยายามที่จะหลีกเลี่ยงการตรวจสอบจากสาธารณะ
  • ภาคประชาสังคมถูกกระตุ้นให้ดำเนินการทันทีโดยการติดต่อกับรัฐบาลของตน, สร้างความตระหนักรู้ทางออนไลน์, และจัดการประท้วง เนื่องจากร่างปัจจุบันถือว่าไม่เป็นที่ยอมรับ

ปฏิกิริยา

  • สหภาพยุโรปกำลังเตรียมอนุมัติ "Chat Control" ซึ่งเป็นกฎระเบียบที่กำหนดให้มีการสแกนข้อความโดยตรงทั้งหมดบนแพลตฟอร์มเช่น Reddit, Twitter, Discord, และ Steam เพื่อค้นหาเนื้อหาการล่วงละเมิดทางเพศเด็ก (CSAM)
  • นักวิจารณ์โต้แย้งว่ามาตรการนี้ไม่เคยมีมาก่อนและอาจไม่มีประสิทธิภาพ เนื่องจากผู้กระทำผิดอาจย้ายไปใช้บริการส่วนตัว และยังเป็นการละเมิดความเป็นส่วนตัวและการใช้อำนาจเกินขอบเขตอย่างมีนัยสำคัญ
  • มูลนิธิ Signal ได้ประกาศว่าจะออกจากสหภาพยุโรปหากมีการบังคับใช้กฎระเบียบนี้ โดยเน้นถึงความขัดแย้งของข้อเสนอนี้

Htmx 2.0.0 ได้ถูกปล่อยออกมาแล้ว

  • htmx 2.0.0 ได้ถูกปล่อยออกมาแล้ว โดยยุติการสนับสนุน Internet Explorer และปรับค่าเริ่มต้นบางอย่างให้เข้มงวดขึ้นโดยไม่เปลี่ยนแปลงฟังก์ชันหลักหรือ API
  • การเปลี่ยนแปลงที่สำคัญรวมถึงการย้ายส่วนขยายไปยังที่เก็บใหม่ การลบแอตทริบิวต์ที่เลิกใช้แล้ว และการปรับเปลี่ยนการจัดการคำขอ HTTP DELETE
  • การปล่อยเวอร์ชันนี้จะไม่ถูกระบุเป็นเวอร์ชันล่าสุดใน NPM จนถึงวันที่ 1 มกราคม 2025 เพื่อหลีกเลี่ยงการบังคับให้อัปเกรด; เวอร์ชัน 1.x จะยังคงเป็นเวอร์ชันล่าสุดจนกว่าจะถึงเวลานั้น

ปฏิกิริยา

  • Htmx 2.0.0 ได้ถูกปล่อยออกมาแล้ว โดยมีการทำความสะอาดและยกเลิกการสนับสนุนสำหรับ Internet Explorer (IE) แทนที่จะมีฟีเจอร์ใหม่ๆ ที่สำคัญ
  • นักพัฒนาต่างชื่นชม htmx ที่ทำให้การพัฒนาเว็บง่ายขึ้น โดยมีผู้ใช้คนหนึ่งแทนที่โค้ด JavaScript (JS) จำนวน 500 บรรทัดด้วยแอตทริบิวต์ htmx เพียงไม่กี่ตัว ซึ่งช่วยเพิ่มประสิทธิภาพและความสนุกสนานในการทำงาน
  • การเปิดตัวนี้ได้จุดประกายการสนทนาเกี่ยวกับการปรับปรุงที่เป็นไปได้และการเปรียบเทียบกับเครื่องมืออื่น ๆ โดยเน้นบทบาทของ htmx ในการลดการพึ่งพาเฟรมเวิร์ก JS ที่ซับซ้อน

หุ่นไล่กากลไซเบอร์

  • Scarecrow เป็นเครื่องมือด้านความปลอดภัยทางไซเบอร์ที่อยู่ในระยะอัลฟา ออกแบบมาเพื่อทำงานในพื้นหลังของคอมพิวเตอร์ของคุณเพื่อป้องกันไวรัสและมัลแวร์
  • สามารถดาวน์โหลดได้บน Windows 10 และ 11

ปฏิกิริยา

  • Cyber Scarecrow เป็นเครื่องมือที่สร้างกระบวนการปลอมและรายการรีจิสทรีปลอมเพื่อหลอกลวงมัลแวร์ให้คิดว่ามันกำลังถูกวิเคราะห์อยู่ ทำให้มัลแวร์หยุดการทำงาน
  • ผู้ใช้ได้แสดงความกังวลเกี่ยวกับความโปร่งใสของเครื่องมือ รวมถึงการขาดหน้า "เกี่ยวกับเรา" ลิงก์ GitHub และใบรับรองการลงนามโค้ด
  • ผู้เขียนได้ยอมรับปัญหาเหล่านี้ โดยอ้างถึงค่าใช้จ่ายสูงของใบรับรอง และมีข้อเสนอให้ทำเครื่องมือนี้เป็นโอเพนซอร์สเพื่อสร้างความไว้วางใจและยืนยันประสิทธิภาพผ่านการทดสอบในโลกจริง

"การโจมตีความสนใจ" บน Fandom

  • Fandom, เว็บไซต์วิกิยอดนิยม, ถูกวิจารณ์เรื่องโฆษณาที่รบกวนผู้ใช้ เช่น วิดีโอที่เล่นอัตโนมัติและการขัดจังหวะอย่างต่อเนื่อง โดยให้ความสำคัญกับผลกำไรมากกว่าประสบการณ์ของผู้ใช้
  • ในปี 2023 Fandom ได้เปลี่ยนเนื้อหาที่ผู้ใช้สร้างขึ้นเป็นโฆษณา Grimace Shake ของ McDonald's อย่างเป็นที่ถกเถียง ส่งผลให้มีการย้ายวิกิเป็นจำนวนมากไปยังโดเมนอิสระเช่น Runescape, Minecraft, และ Hollow Knight
  • ผู้ใช้ได้รับการสนับสนุนให้สนับสนุนวิกิอิสระโดยใช้เครื่องมือเช่น Indie Wiki Buddy, ใช้ตัวบล็อกโฆษณา และย้ายวิกิของพวกเขาออกจาก Fandom.

ปฏิกิริยา

  • ชุมชนต่าง ๆ กำลังย้ายวิกิของพวกเขาจาก Fandom ไปยังแพลตฟอร์มที่โฮสต์เองหรือแพลตฟอร์มทางเลือกเนื่องจากโฆษณาที่รบกวนและเนื้อหาที่ล้าสมัย
  • ตัวอย่างที่น่าสังเกตได้แก่วิกิของ Runescape และ Minecraft ซึ่งได้เปลี่ยนแปลงจาก Fandom อย่างประสบความสำเร็จ
  • เครื่องมืออย่าง Indie Wiki Buddy และ LibRedirect ช่วยผู้ใช้ในการหลีกเลี่ยง Fandom โดยการเปลี่ยนเส้นทางไปยังแหล่งข้อมูลที่เป็นมิตรกับผู้ใช้มากขึ้น ซึ่งเน้นให้เห็นถึงผลกระทบเชิงลบของการลงทุนจากบริษัทร่วมทุนต่อแพลตฟอร์มเนื้อหาที่ขับเคลื่อนโดยผู้ใช้

การได้คะแนน 50% (SoTA) บน Arc-AGI ด้วย GPT-4o

ปฏิกิริยา

  • งานของไรอันเกี่ยวกับ GPT-4o ที่สามารถทำคะแนนได้ 50% ในชุดการประเมินสาธารณะ Arc-AGI ถือว่าเป็นสิ่งใหม่และน่าสนใจในสาขาการวิจัย "การให้เหตุผลของ LLM"
  • วิธีการนี้เกี่ยวข้องกับการสร้างโปรแกรม Python ประมาณ 8,000 โปรแกรมเพื่อดำเนินการแปลง เลือกโปรแกรมที่ถูกต้อง และนำไปใช้กับข้อมูลทดสอบ แสดงให้เห็นถึงการผสมผสานระหว่างการเรียนรู้เชิงลึก (DL) และการสังเคราะห์โปรแกรม
  • แม้ว่าผลลัพธ์จะมีความน่าพอใจ แต่เป็นผลลัพธ์ที่ได้จากชุดการประเมินสาธารณะ และผลลัพธ์ที่คล้ายกันในชุดส่วนตัวยังไม่ได้รับการตรวจสอบ ซึ่งบ่งชี้ถึงความจำเป็นในการตรวจสอบและยืนยันเพิ่มเติม

เมนบอร์ด RISC-V ใหม่จาก DeepComputing

  • DeepComputing ได้เปิดตัวเมนบอร์ด RISC-V ใหม่สำหรับ Framework Laptop 13 ซึ่งมีโปรเซสเซอร์ JH7110 จาก StarFive ที่มาพร้อมกับแกนประมวลผล U74 RISC-V สี่แกนจาก SiFive
  • การพัฒนานี้เสริมสร้างระบบนิเวศของ Framework โดยอนุญาตให้ผู้ใช้เลือกสถาปัตยกรรมโปรเซสเซอร์ต่างๆ ส่งเสริมความยืดหยุ่นและการปรับแต่งตามความต้องการ
  • เมนบอร์ดที่มุ่งเป้าไปที่นักพัฒนาและผู้ที่มีงานอดิเรก จะถูกสาธิตที่งาน RISC-V Summit Europe และได้รับการสนับสนุนจากการร่วมมือกับ Canonical และ Red Hat เพื่อความเข้ากันได้กับ Linux อย่างแข็งแกร่ง

ปฏิกิริยา

  • DeepComputing ได้เปิดตัวเมนบอร์ด RISC-V ใหม่สำหรับแล็ปท็อป Framework โดยมีโปรเซสเซอร์ JH7110 และการจัดเก็บข้อมูลแบบ microSD ซึ่งมีลักษณะคล้ายกับคอมพิวเตอร์บอร์ดเดี่ยว RISC-V (SBC) ในรูปแบบของ Framework
  • เมนบอร์ดนี้มุ่งเป้าไปที่นักพัฒนาและผู้ที่ชอบทดลอง โดยมีความสามารถในการปรับเปลี่ยนและสลับระหว่างบอร์ด x86 และ RISC-V แม้ว่าจะมีการลดลงของประสิทธิภาพเมื่อเทียบกับ x86 อย่างเห็นได้ชัด
  • ความร่วมมือนี้ระหว่าง Framework และ DeepComputing ถูกมองว่าเป็นการเคลื่อนไหวเพื่อกระจายและขยายระบบนิเวศของ Framework เพิ่มการมองเห็นสำหรับเทคโนโลยี RISC-V

แซม อัลท์แมนไม่ได้อยู่ในคณะกรรมการของ YC แล้วทำไมถึงอ้างว่าเป็นประธาน?

  • แซม อัลท์แมน อดีตประธานและซีอีโอของ Y Combinator อ้างว่าเขาเป็นประธานคณะกรรมการในเอกสารการยื่น SPAC (บริษัทจัดหากิจการเพื่อวัตถุประสงค์พิเศษ)
  • Y Combinator ปฏิเสธคำกล่าวอ้างของ Altman โดยระบุว่าเขาไม่เคยอยู่ในคณะกรรมการของบริษัทแม้ว่าเขาจะมีบทบาทสำคัญในบริษัทก็ตาม

ปฏิกิริยา

  • แซม อัลท์แมน อดีตซีอีโอและประธานของ Y Combinator (YC) ถูกระบุอย่างไม่ถูกต้องว่าเป็นประธานของ YC ในเอกสารทางการหลายฉบับ รวมถึงการยื่นเอกสารต่อ SEC และเว็บไซต์ของ SPAC
  • การกล่าวผิดพลาดได้จุดประกายการถกเถียง โดยบางคนโต้แย้งว่าเป็นเพียงข้อผิดพลาดทางธุรการเล็กน้อย ในขณะที่คนอื่นๆ เน้นย้ำถึงผลกระทบทางกฎหมายของความไม่ถูกต้องในเอกสารที่ยื่นต่อ SEC
  • นักวิจารณ์ชี้ให้เห็นว่าข้อผิดพลาดดังกล่าว หากมีเจตนา อาจถูกมองว่าเป็นการหลอกลวงและบั่นทอนความไว้วางใจ แม้ว่าการพิสูจน์เจตนาและความเสียหายที่เกิดขึ้นจริงจะเป็นเรื่องซับซ้อน

มนุษย์เริ่มสะสมความรู้ทางเทคโนโลยีอย่างรวดเร็วเมื่อ 600,000 ปีก่อน

  • นักวิจัยจากมหาวิทยาลัยรัฐแอริโซนาเสนอว่ามนุษย์เริ่มสะสมความรู้ทางเทคโนโลยีอย่างรวดเร็วผ่านการเรียนรู้ทางสังคมเมื่อประมาณ 600,000 ปีก่อน ซึ่งเป็นจุดเริ่มต้นของวัฒนธรรมสะสม
  • การศึกษา ซึ่งตีพิมพ์ในวารสาร Proceedings of the National Academy of Sciences ได้วิเคราะห์เทคนิคการผลิตเครื่องมือหินตลอดระยะเวลา 3.3 ล้านปี โดยสังเกตเห็นความซับซ้อนที่เพิ่มขึ้นอย่างมีนัยสำคัญประมาณ 600,000 ปีก่อน
  • ช่วงเวลานี้ ซึ่งน่าจะอยู่ในยุคไพลสโตซีนกลาง ยังเห็นความก้าวหน้าเช่นการใช้ไฟอย่างควบคุมและการก่อสร้างโครงสร้างไม้ ซึ่งบ่งบอกว่าวัฒนธรรมสะสมมีมาก่อนการแยกสายพันธุ์ของมนุษย์นีแอนเดอร์ทัลและมนุษย์สมัยใหม่

ปฏิกิริยา

  • มนุษย์เริ่มสะสมความรู้ทางเทคโนโลยีประมาณ 600,000 ปีก่อน โดยมีความเป็นไปได้ที่หลายสายพันธุ์ของ Homo จะมีการแบ่งปันและแลกเปลี่ยนเทคโนโลยีกัน
  • คำว่า "มนุษย์" สามารถหมายถึงทั้งมนุษย์สมัยใหม่และสกุล Homo ทั้งหมด แต่ "โฮมินิน" มีความแม่นยำมากกว่า; มีการถกเถียงกันว่าเนอันเดอร์ทัลและเดนิโซแวนถือเป็นมนุษย์หรือไม่
  • การสะสมความรู้ที่รวดเร็วเชื่อมโยงกับความก้าวหน้าในการสื่อสาร ซึ่งอาจรวมถึงรูปแบบแรกเริ่มของภาษา โดยเน้นบทบาทของภาษาในการถ่ายทอดเทคโนโลยี

เครื่องคำนวณราคาของโทเค็นสำหรับ LLMs กว่า 400 รายการ

  • Tokencost เป็นไลบรารีที่ใช้ในการประเมินค่าใช้จ่ายที่เกี่ยวข้องกับโมเดลภาษาขนาดใหญ่ (LLMs) โดยการนับโทเค็นในคำสั่งและการตอบกลับ และใช้การกำหนดราคาที่เฉพาะเจาะจงกับโมเดลนั้น ๆ
  • มันแก้ไขปัญหาการติดตามค่าใช้จ่ายในโมเดลและแผนการกำหนดราคาต่างๆ ช่วยให้ผู้ใช้หลีกเลี่ยงบิลที่ไม่คาดคิดโดยการให้ประมาณการค่าใช้จ่ายแบบเรียลไทม์
  • พัฒนาโดย AgentOps, Tokencost ตอนนี้เป็นโอเพ่นซอร์สแล้ว ทำให้นักพัฒนาสามารถนำไปผนวกเข้ากับโครงการของพวกเขาเพื่อการจัดการต้นทุนที่ดียิ่งขึ้น

ปฏิกิริยา

  • Tokencost เป็นไลบรารีที่ใช้ในการคำนวณค่าใช้จ่ายสำหรับโมเดลภาษาขนาดใหญ่ (LLMs) กว่า 400 โมเดล โดยการนับโทเค็นในคำสั่งและการตอบกลับแล้วคูณด้วยค่าใช้จ่ายของโมเดล
  • พัฒนาโดย AgentOps และเปิดเผยซอร์สโค้ด มันช่วยให้นักพัฒนาติดตามการใช้จ่ายและหลีกเลี่ยงบิลที่ไม่คาดคิด โดยใช้พจนานุกรมค่าใช้จ่ายที่เรียบง่ายและฟังก์ชันอรรถประโยชน์
  • ผู้ใช้ได้เสนอการปรับปรุง เช่น การเพิ่มการสนับสนุนสำหรับ Rust, การทำให้ต้นทุนเป็นมาตรฐาน, และการรวมต้นทุนของภาพและการเรียกฟังก์ชัน แม้ว่าจะมีความกังวลเกี่ยวกับความแม่นยำสำหรับโมเดลที่ไม่มีตัวแยกโทเค็นสาธารณะ

Sei จ่ายเงินรางวัลบั๊ก 2 ล้านดอลลาร์

  • ในเดือนเมษายน 2024 มีการรายงานบั๊กสำคัญสองตัวในบล็อกเชนเลเยอร์-1 ของ Sei Network ซึ่งส่งผลกระทบต่อความพร้อมใช้งานและความสมบูรณ์ของเชน
  • มูลนิธิ Sei มอบเงินรางวัล $75,000 และ $2,000,000 สำหรับรายงานข้อบกพร่องที่ได้รับการระบุและแก้ไขก่อนการปล่อยผลิตภัณฑ์ ทำให้มั่นใจได้ว่าไม่มีเงินทุนใดตกอยู่ในความเสี่ยง
  • มาตรการเชิงรุกและการตอบสนองอย่างรวดเร็วของมูลนิธิ Sei ป้องกันความเสี่ยงที่อาจเกิดขึ้นต่อมูลค่าตลาดของโทเค็น Sei แสดงให้เห็นถึงความมุ่งมั่นอย่างแรงกล้าในการปกป้องผู้ใช้

ปฏิกิริยา

  • Sei Network ได้จ่ายเงินรางวัลบั๊กจำนวน 2 ล้านดอลลาร์สหรัฐ ซึ่งเน้นย้ำถึงแรงจูงใจทางการเงินที่สำคัญในภาคสกุลเงินดิจิทัลสำหรับการระบุช่องโหว่ด้านความปลอดภัย
  • การให้รางวัลบั๊กถูกดำเนินการผ่าน Immunefi ซึ่งเป็นแพลตฟอร์มที่เชี่ยวชาญในการให้รางวัลบั๊กในคริปโต ซึ่งมักจะมีการจ่ายเงินรางวัลเกินกว่า 1 ล้านดอลลาร์
  • การจ่ายเงินครั้งนี้เน้นย้ำถึงความสำคัญอย่างยิ่งของความปลอดภัยในอุตสาหกรรมคริปโต ซึ่งค่าใช้จ่ายจากการละเมิดที่อาจเกิดขึ้นสามารถสูงมากเมื่อเทียบกับการเงินแบบดั้งเดิม

Google DeepMind เปลี่ยนจากห้องปฏิบัติการวิจัยเป็นโรงงานผลิต AI

ปฏิกิริยา

  • Google DeepMind กำลังเปลี่ยนจากห้องปฏิบัติการวิจัยไปเป็นโรงงานผลิตผลิตภัณฑ์ AI ซึ่งก่อให้เกิดการถกเถียงเกี่ยวกับความท้าทายและข้อผิดพลาดที่อาจเกิดขึ้นจากการเปลี่ยนแปลงนี้
  • นักวิจารณ์แนะนำว่าการรวมทีมผลิตภัณฑ์ที่มีประสบการณ์จาก Google เข้ากับการวิจัยของ DeepMind อาจมีประสิทธิภาพมากกว่าการเปลี่ยนองค์กรวิจัยให้เป็นหน่วยงานที่มุ่งเน้นผลิตภัณฑ์
  • ความกังวลรวมถึงผลกระทบต่อการวิจัยพื้นฐานและความเสี่ยงในการผลิตผลิตภัณฑ์ที่เร่งรีบและพัฒนาไม่เต็มที่ แม้ว่าบางคนเชื่อว่าการเปลี่ยนแปลงนี้อาจนำไปสู่ความก้าวหน้าที่สำคัญในผลิตภัณฑ์ AI

ทุกวิธีในการรับผลลัพธ์ที่มีโครงสร้างจาก LLMs

  • โพสต์นี้กล่าวถึงความท้าทายในการได้รับผลลัพธ์ที่มีโครงสร้าง เช่น JSON จากโมเดลภาษาขนาดใหญ่ (LLMs) ซึ่งโดยทั่วไปจะให้คำตอบในรูปแบบภาษาธรรมชาติ
  • มันให้การเปรียบเทียบอย่างละเอียดของเฟรมเวิร์กต่างๆ ที่ออกแบบมาเพื่อแปลงผลลัพธ์ของ LLM ให้เป็นรูปแบบที่มีโครงสร้าง โดยประเมินตามเกณฑ์เช่น การสนับสนุนภาษา การจัดการ JSON การควบคุมพรอมต์ และผู้ให้บริการโมเดลที่รองรับ
  • กรอบการทำงานที่เปรียบเทียบกันได้แก่ BAML, Instructor, TypeChat, Marvin, Outlines, Guidance, LMQL, JSONformer, Firebase Genkit, SGLang, และ lm-format-enforcer ซึ่งแต่ละกรอบมีคุณสมบัติและความสามารถเฉพาะตัวในการจัดการการสกัดข้อมูลที่มีโครงสร้าง

ปฏิกิริยา

  • บทความของ BAML สำรวจวิธีการในการรับผลลัพธ์ที่มีโครงสร้างจากโมเดลภาษาขนาดใหญ่ (LLMs) โดยเน้นวิธีการแยกวิเคราะห์ที่เป็นเอกลักษณ์ของ BAML สำหรับการจัดการ JSON ที่มีรูปแบบผิดพลาด
  • ธนาคารแห่งอเมริกา (BAML) มีทั้งฟีเจอร์โอเพ่นซอร์สและฟีเจอร์ที่ต้องชำระเงิน โดยฟีเจอร์ที่ต้องชำระเงินจะเน้นที่การตรวจสอบและปรับปรุงกระบวนการทำงานของ AI
  • บทความนี้เปรียบเทียบกรอบงานต่างๆ และอภิปรายถึงความท้าทายและการแลกเปลี่ยนในการบังคับใช้ผลลัพธ์ที่มีโครงสร้าง โดยสังเกตว่าผู้ใช้บางคนชอบวิธีที่ง่ายกว่าเช่น Pydantic สำหรับการตรวจสอบความถูกต้องของ JSON

หมายเหตุเกี่ยวกับความซับซ้อนที่จำเป็น

  • วิศวกรซอฟต์แวร์มีเป้าหมายหลายอย่างที่ทับซ้อนกันและบางครั้งก็ขัดแย้งกัน เช่น การเขียนโค้ด การจัดการความซับซ้อน และการตอบสนองความต้องการของลูกค้า
  • ความซับซ้อนที่จำเป็นเป็นสิ่งที่มีอยู่ในปัญหาเอง ในขณะที่ความซับซ้อนที่เกิดขึ้นโดยบังเอิญเกิดจากปัญหาด้านประสิทธิภาพหรือเครื่องมือที่ไม่เหมาะสม การลดทั้งสองอย่างเป็นสิ่งสำคัญ
  • วิศวกรอาวุโสสามารถนิยามปัญหาใหม่ได้โดยการท้าทายสมมติฐานและเจรจากับผู้มีส่วนได้ส่วนเสีย ซึ่งอาจทำให้ข้อกำหนดง่ายขึ้นและลดความซับซ้อนลงได้

ปฏิกิริยา

  • วิศวกรซอฟต์แวร์บางครั้งยอมรับความซับซ้อนเพื่อให้เหตุผลกับบทบาทของตนเอง ดังที่เห็นในชุมชนเช่น Enterprise Java, .NET, และ JavaScript (JS)
  • บทความนี้อ้างอิงถึงการเสียดสี Stroustrup C++ อย่างขบขันเพื่อเน้นความซับซ้อนที่ตั้งใจในภาษาการเขียนโปรแกรม
  • มันโต้แย้งว่าการลดความซับซ้อนเป็นสิ่งสำคัญสำหรับวิศวกรรมที่ดี การสร้างสมดุลระหว่างการตัดสินใจระยะสั้นและระยะยาว และการรักษาความสม่ำเสมอเพื่อหลีกเลี่ยงความยุ่งยากที่ไม่จำเป็น