10
2023 年 4 月 10 日
LLama 效应:泄密事件引发了一系列开源的 ChatGPT 替代品
原文。 LLM 模型 "Llama "的意外泄露,引发了一场开源的替代运动,以取代 GPT-4 和 Cohere 等只能通过 API 获得的模型。自从泄漏后,Alpaca、Vicuna、Koala、ColossalChat 和 ChatLLama 等模型已经发布,它们都建立在 Llama 之上。在 Llama 发布之前,这些模型的开源替代品都没有显示出相同的性能水平。Llama 的泄露已经变成了开源 LLM 领域中最大的创新火花之一,在这个领域中,开源和基于 API 的发行之间的战争迫在眉睫。LLama 效应证明了开源是一种可行的基础模型的分发机制,在 LLM 领域有一些有趣的创新来源。
Discussion Service. LLama 效应 "的泄露引发了 ChatGPT 的开源替代品,获得了技术专家的关注。GPT-4 展示了更显著的智能,在其前身 GPT-3 的基础上提供推理和概括能力。纯人工智能文本模型掌握空间推理,可以理解谜题,但人工微调是必要的。围绕语言模型的实际学习水平发生了争论,希望有一个可访问的和民主化的人工智能的未来。LLaMA 的泄漏导致了所有平台的开源优化;然而,专家们批评了软件盗版和 AI 公司的监管。OpenAI 可能会因为使用模型来训练商业结果而面临法律挑战。ChatGPT 的准确性众说纷纭,有人认为它毫无用处,而其他人则声称 GPT-4 在某些方面有所改进。Bing/Sydney 和 ChatGPT 有不同的个性。该帖子没有提供新的技术事实,但讨论了文本压缩的性质。
从深度学习到长期学习?
原文。 来自 Hazy Research 实验室的斯坦福大学研究人员正在改进机器学习基础模型中的序列长度,重点是在序列长度中创建近乎线性的时间模型,可以导致上下文长度达到数百万甚至数十亿。Hyena 模型在序列长度上具有可扩展性,它使用一个小型神经网络,通过另一个小型神经网络隐含地对卷积过滤器进行参数化,实现时间为 O(NlogN)。研究人员正在探索学习矩阵及其与语言应用的联系。不适用。
Discussion Service。 斯坦福大学的研究人员探索在长序列中减少自我注意的成本。优化 GPU 和协处理器的计算可以优化 LLM。围绕较长上下文模型的怀疑,将 LLM 与其他系统耦合可能会产生新的解决方案。GPT-4 的发布导致了对下一个标记预测的新研究,联想长期记忆的潜在突破。了解 K,Q,V 表示法是至关重要的,而 RNN 和转化器对人工智能的民主化有影响。较长的上下文长度可能被认为是一种新的搜索形式。
安永在德国被禁止开展新的审计业务
原文。 由于德国会计监督机构 APAS 发出了 50 万欧元的罚款以及有史以来最严厉的处罚,安永公司被禁止在两年内为德国的新上市客户进行审计。在对安永在 Wirecard 丑闻中的作用进行了三年的调查之后,这一决定给这家陷入困境的会计巨头带来了巨大的财务和声誉上的打击。安永曾给 wirecard 开了一张健康证明,直到该公司在 2020 年因大规模财务欺诈的指控而倒闭。在 Wirecard 丑闻发生后,安永公司据称在三年内投入了 20 亿美元,以改善有关技术和欺诈检测的审计工作,但没有一个审计师可能每次都能把事情做对。
Discussion Service。 由于错误的审计决定和卷入 Wirecard 丑闻,安永(EY)已被禁止在德国进行新的审计工作。咨询公司将工资较低的员工分包出去以减少风险,但这可能适得其反。审计师只提供合理的保证,不保证欺诈不会发生。使用自动化和人工智能可以帮助发现欺诈活动。审计工作应与咨询工作分开,以防止利益冲突。人们对咨询公司的价值和 "游戏中的皮肤 "的需求存在争议。