Claude 会悄悄变笨,但 Anthropic 不告诉你
Anthropic 在 Fable 5 模型卡中披露,他们实施了新的干预措施,会在用户触及“前沿 AI 开发”时暗中限制 Claude 的回复质量,且不告知用户。问题在于,如今普通软件公司也在训练嵌入模型、微调 LLM,边界日益模糊。如果 Claude 在帮你调试 AI 组件时给出错误建议,你无法判断是模型本身问题,还是被悄悄降级了。
一旦开发工具可以在不通知你的情况下停止优化你的成功,你就无法完全信任你的基础设施。
Anthropic 在 Fable 5 模型卡中披露,他们实施了新的干预措施,会在用户触及“前沿 AI 开发”时暗中限制 Claude 的回复质量,且不告知用户。问题在于,如今普通软件公司也在训练嵌入模型、微调 LLM,边界日益模糊。如果 Claude 在帮你调试 AI 组件时给出错误建议,你无法判断是模型本身问题,还是被悄悄降级了。
一旦开发工具可以在不通知你的情况下停止优化你的成功,你就无法完全信任你的基础设施。
2019 年,OpenAI 认为 GPT-2 可能被恶意滥用,只发布了小模型,大模型(1.5B 参数)延迟 9 个月才公开。GPT-2 与 GPT-1 架构相同,只是参数多了 10 倍、训练数据达 40GB,在多项基准上达到 SOTA。OpenAI 在延迟期间发现:人类很难分辨 GPT-2 生成的文本,检测模型准确率约 95%,但未发现明显滥用案例。
由于担心技术被恶意应用,我们不发布完整模型,而是发布一个更小的模型供研究人员实验。
Anthropic 推出 Claude Fable 5,性能超越此前所有公开发布模型,在软件工程、知识工作、视觉、科研等领域达到 SOTA。Stripe 用它一天完成原本需要团队两个月的代码迁移。模型带有安全限制,约 5% 的会话可能被误拦。同时发布无限制版 Claude Mythos 5,专供网络防御和基础设施提供商,通过 Project Glasswing 部署。价格降至输入每百万 token 10 美元、输出 50 美元,不到 Mythos Preview 的一半。
任务越复杂、越长,Fable 5 相对于其他模型的领先优势就越大。
美国FCC提出新规,要求电信运营商收集所有新用户及续约用户的政府签发身份证号和物理地址,旨在打击诈骗,但将实质消灭“一次性手机”。此举影响隐私敏感人群、家暴幸存者、记者等。ACLU批评这是“威权国家才有的做法”,警告将伤害低收入群体和隐私权。
我们曾以为这种事不会发生在这里,但现在政府正考虑剥夺人们获取一次性手机的能力。
阿尔巴尼亚反腐机构SPAK冻结了贾里德·库什纳关联度假村项目的土地公司账户,涉及约1.95亿美元。该项目在受保护湿地开发,引发连续7天全国抗议,被称为“火烈鸟革命”。总理拉马两面下注,既支持调查又力挺投资者,称“如果不是贾里德,没人会关心阿尔巴尼亚”。欧盟已发出警告。
拉马说:“如果不是贾里德,他们根本不会在乎阿尔巴尼亚发生了什么。”
开发者Marko Stanic用一年业余时间打造了一款复古FPS游戏Catlantean 3D,严格遵循90年代初的技术限制:320x240分辨率、256色、手写渲染和音频混合、无AI辅助。他详细介绍了在如此苛刻条件下如何创建资产——从精心挑选768字节调色板到预渲染、手绘和程序化生成精灵与纹理。文章强调,正是这些限制迫使做出深思熟虑的选择,反而带来了独特的视觉清晰度和风格。
限制迫使你做出深思熟虑的选择,而深思熟虑的选择往往看起来很好。
一个仅需i386 CPU、4MB内存和VGA显示器的极简操作系统,提供复古GUI界面,支持鼠标、键盘和PC扬声器。完全单体设计,编译时配置,未来只做bug修复和优化。GitHub上已获201颗星。
它的目标是为折腾复古硬件和运行图形交互应用提供一个简单的平台。
文章指出,AI 代码生成工具就像一群“摇滚明星开发者”,它们快速产出大量复杂代码,却不顾可维护性和团队协作。作者分享清理这类代码的经验,并建议开发者应主导工程、引导 AI 生成小块代码,必要时亲自编写,避免系统复杂度失控。
工艺永远掌握在我们手中,这是永远无法外包给机器的事情。
微软数十个GitHub开源项目被黑客入侵,注入密码窃取恶意软件,影响Azure及AI开发工具如Claude Code、Gemini CLI和VS Code。安全公司Cloudsmith和OpenSourceMalware率先发现,用户打开被篡改工具时凭证即被盗。这是微软数周内第二次开源项目被黑,此前Durable Task项目已遭入侵,此次可能是同一黑客的再次攻击。
大型科技巨头如微软拥有防御资源却仍被攻破,这极为罕见。
晨星对SpaceX IPO给出每股63美元估值,较135美元发行价折价53%。其模型基于三种情景概率加权:最乐观的“登月”情景下公司价值1.97万亿美元(每股154美元),但发生概率仅7%;而核心太空与星链业务仅贡献约40美元/股。晨星认为,可重复使用星舰和轨道数据中心两大工程难题至少要到2028年才能解决。
我们的估值更多是数学计算的结果,而非怀疑论。
Cognition 发布 FrontierCode 基准,衡量 AI 生成代码的合并质量,而非仅正确性。由 20+ 开源维护者设计 150 个任务,每个耗时超 40 小时。结果:最佳模型 Claude Opus 4.8 在钻石级仅得 13.4%,GPT-5.5 得 6.3% 但 token 消耗少 4 倍。开源模型差距大,Kimi K2.6 仅 3.8%。
正确性只是入场券,问题是模型能否写出真正的好代码。
苹果宣布与 Google 深度合作,基于 Gemini 技术共同开发 Apple Foundation Models,并重构 Apple Intelligence 架构。新模型支持设备端和云端运行,带来图像理解与生成、高级照片编辑、语音生成等能力。苹果强调隐私保护不变,用户数据仅用于处理当前请求,且可被外部专家随时验证。
苹果称这次合作为‘深度合作’,将为 Apple Intelligence 带来‘巨大升级’