RSS 每日摘要

2026-04-08 · 8 篇文章 归档

甲骨文 ARM 实例部署 Gemma 4 模型

Dejavu's Blog 2026/04/07
在甲骨文免费 ARM 实例(4核 Neoverse-N1 / 24GB RAM)上成功部署 Gemma 4 模型的实战教程。关键在于模型选型:gemma-4-26B-A4B-it-UD-Q4_K_M 采用 MoE 架构,每次推理仅激活 4B(Active 4B)参数,配合 Q4_K_M 4-bit 量化,使 4 核 CPU 在承受 4B 模型计算压力的同时输出 26B 级别效果。部署方案通过手动编译 llama.cpp 并开启 OpenBLAS 加速,充分挖掘 ARM aarch64 原生指令集性能。

GLM-5.1: Towards Long-Horizon Tasks

Simon Willison's Weblog 2026/04/07
Z.ai 发布 754B 参数、1.51TB 的 GLM-5.1,采用 MIT 协议开源,可通过 OpenRouter 调用。Simon Willison 用「鹈鹕骑自行车」SVG 测试发现,该模型不仅生成了高质量 SVG,还主动添加了 CSS 动画,并在提示动画偏位后,能准确诊断出 CSS transform 与 SVG transform 属性冲突的根因并自动修复。模型还为 SVG 代码添加了详细注释,展示出较强的代码理解与调试能力,是目前开源权重模型中 SVG 生成的佼佼者。

Anthropic's Project Glasswing - restricting Claude Mythos to security researchers - sounds necessary to me

Simon Willison's Weblog 2026/04/07
Anthropic 未公开发布 Claude Mythos,而是通过 Project Glasswing 限制性地向安全研究机构开放预览。该模型已自主发现主流操作系统和浏览器中数千个高危漏洞——包括链式利用四个漏洞的浏览器 0day、Linux 本地提权及 FreeBSD 远程代码执行。基准测试显示,Opus 4.6 对 Firefox 147 JS 引擎漏洞的利用成功率接近 0%,而 Mythos 成功 181 次。这是 Anthropic 首次以「能力过于危险」为由主动推迟公开发布。

S3 Files and the changing face of S3

All Things Distributed 2026/04/07
AWS 工程师 Andy Warfield 通过这篇长文(6000 字)记录了 S3 Files 的设计历程。S3 Files 旨在解决大规模数据移动的痛点——这一需求源于他在 UBC 与基因组学研究者合作时的亲身经历:研究者大量时间消耗在数据搬运和多份不一致副本的维护上。文章涵盖 S3 架构演进的技术细节、命名数据类型的失败尝试,以及将基因组「突发并行计算」迁移到云端的实践思考,是理解 S3 能力边界扩展的第一手资料。

Deep Agents v0.5

LangChain Blog 2026/04/07
LangChain 发布 Deep Agents v0.5,核心新特性是异步子代理(Async Subagents):主代理可并行启动多个后台远程子代理,立即获得任务 ID 后继续处理其他工作,无需阻塞等待。相比原有的同步子代理,异步模式支持跨任务并发、中途追加指令、异构部署(不同硬件、不同模型),并提供 start/check/update/cancel/list 五个任务管理工具。此外还扩展了多模态文件系统支持,适配深度研究、大规模代码分析等耗时任务场景。

Arcade.dev tools now in LangSmith Fleet

LangChain Blog 2026/04/07
LangSmith Fleet 与 Arcade.dev 达成合作,将后者 7500+ 个面向 Agent 优化的工具集成至 Fleet,通过单一 MCP 网关统一管理 Salesforce、Asana、Zendesk 等服务的授权与连接。Arcade 的差异化在于工具并非简单封装 REST API,而是针对 Agent 调用模式重新设计——处理自然语言输入、简化端点选择、改善错误反馈,避免参数幻觉。用户可为组织或团队创建定制化网关,各自使用独立凭证,降低工程团队的集成维护负担。

LongCat-Flash-Prover:AI 攻克数学定理证明,不仅要“算得对”,更要“证得严”

美团技术团队 2026/04/07
美团开源数学定理证明模型 LongCat-Flash-Prover,在 MiniF2F-Test 基准上以 72 次推理预算达到 97.1% 通过率,刷新开源模型 SOTA。模型将证明过程拆解为自动形式化、草稿生成、证明生成三项原子能力,结合工具集成推理(TIR)策略,输出可通过 Lean4 编译器逐行校验的严格形式化证明。竞赛级难题上,MathOlympiad-Bench 达 46.7%,PutnamBench 达 41.5%,均超越现有开源模型。训练框架采用混合专家迭代,结合课程学习和 SFT+RL 多轮迭代。已发布至 GitHub 和 HuggingFace。

美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语

美团技术团队 2026/04/02
美团 LongCat 团队开源原生多模态模型 LongCat-Next,核心思路是将图像、语音、文本统一编码为同源离散 Token,通过纯粹的下一 Token 预测(NTP)范式完成多模态统一建模,彻底抛弃「语言基座+外挂视觉模块」的拼凑式架构。三项核心技术:DiNA 离散原生自回归架构实现模态内化;dNaViT 视觉分词器支持原生任意分辨率并以 8 层 RVQ 实现 28 倍像素空间压缩;语义对齐完备编码器解决离散化信息损失问题。基座为 68.5B 参数 MoE 模型(3B 激活参数),模型和离散分词器已全部开源。
未读 2 → 抓取 8 → 摘要 8 · 提取: readability 8