2026-04-28 · 21 篇文章 归档
微软于2026年1月发布的 VibeVoice 是一款 MIT 授权的 Whisper 风格语音识别模型,内置说话人分离功能。在128GB M5 Max MacBook Pro 上使用4bit量化版本(5.71GB),转录1小时音频耗时约8分45秒,峰值内存使用61.5GB。输出 JSON 包含文本、时间戳和 speaker_id,可直接在 Datasette Lite 中浏览。模型最长支持1小时音频,超出需手动切割并对齐说话人ID。
Simon Willison's Weblog 2026/04/27
微软与 OpenAI 合作协议中长期存在一项条款:一旦 AGI 实现,微软对 OpenAI 技术的商业IP权利即告失效。2024年该条款将 AGI 定义为「能产生约1000亿美元利润的系统」,2025年改为由独立专家小组认定。2026年4月27日,这一条款正式宣告终止。文章梳理了从2019年至今 AGI 定义在 openai.com 上的措辞变迁。
Simon Willison's Weblog 2026/04/27
Google Meet 的实时语音翻译功能已向移动设备推送,支持双方用各自语言交谈,系统实时翻译并以模仿原说话人声音的方式播出译文。目前支持英语、西班牙语、法语、德语、葡萄牙语和意大利语六种语言,仍处于早期测试阶段——网页端双浏览器测试可用,iPhone 与 iPad 之间尚存在兼容问题。
Simon Willison's Weblog 2026/04/27
ChatGPT Enterprise 和 OpenAI API 已获得 FedRAMP Moderate 安全授权,允许美国联邦政府机构在符合合规要求的前提下采用 OpenAI 的 AI 服务。FedRAMP Moderate 是美国联邦云服务采购的重要安全认证级别,此举标志着 OpenAI 正式打入政府市场。
OpenAI News 2026/04/27
OpenAI 工程团队开源了 Symphony,一个将 Linear 等项目管理看板转化为编码 Agent 控制平面的编排系统。每个开放任务分配一个 Codex Agent 持续运行,人工只需审阅结果,解决了单个工程师同时管理多个 Agent 会话时的上下文切换瓶颈。该系统在部分团队中使 PR 合并量提升了500%,其代码库本身也完全由 Codex 生成,无人工编写代码。
OpenAI News 2026/04/27
Ollama 的全部推理能力来自 llama.cpp,却在 README 和营销材料中长期不予注明,违反 MIT 许可证的唯一要求。GitHub issue #3185 提出许可证合规问题后超过 400 天无人响应,最终只在 README 末尾加了一行致谢。作者认为 Ollama 凭借先发优势占据市场后,持续淡化技术来源、接受风险投资、偏离本地优先初衷,并推荐 llama.cpp 原生工具、LM Studio、jan.ai 等替代方案。
Sleeping Robots 2026/04/15
在 AMD Ryzen AI MAX+ 395(Strix Halo)平台上,使用 Gemma 4 E2B 作为草稿模型对 Gemma 4 31B 进行推测解码测试,实测 token 生成速度提升约 2 倍。与 RTX 5090 不同,Strix Halo 的统一内存带宽仅约 218 GB/s,草稿模型与主模型共享同一内存总线,因此最优草稿序列长度(--draft-max)明显短于独立显卡配置。推测解码在该架构下为无损加速,输出质量与原始模型完全一致。
Sleeping Robots 2026/04/12
OpenAI 与 Microsoft 宣布修订合作协议,简化双方合作框架,明确长期条款,旨在支持大规模 AI 创新的持续推进。公告未披露具体财务条款或技术细节。
OpenAI News 2026/04/27
作者为 Pi 编程 Agent 构建了全栈 Web 界面,解决终端 TUI 无法手机访问、无法共享会话的痛点。Pi SDK 完全运行在服务端(Node.js + Express),通过 WebSocket 与浏览器通信,保留 bash、文件读写、扩展等全部系统工具权限。会话持久化改用 SessionManager.create() 写入磁盘,模型列表从 Pi ModelRegistry 与本地 LiteLLM 实例合并,支持 30+ 模型快速筛选切换。
Sleeping Robots 2026/04/11
作者在 AMD Strix Halo 机器上管理 30+ 本地模型,GPU 侧由 llama-swap(端口 8080)调度,NPU 侧由 Lemonade Server(端口 8002)处理,两者均通过 LiteLLM Proxy(端口 4000)对外暴露为单一 OpenAI 兼容端点。Caddy 负责 TLS 终止与反向代理,Tailscale 实现跨设备加密访问,所有应用只需对接 localhost:4000,无需感知底层加速器差异。
Sleeping Robots 2026/04/10
食品配送平台 Choco 通过集成 OpenAI API 构建 AI 智能体,实现了配送流程的自动化调度与管理。该案例展示了 AI 在真实供应链场景中的落地效果:提升员工生产力、优化订单处理效率并拓展业务规模。这是 OpenAI 发布的客户实践故事,着重呈现 API 驱动的 AI 代理在食品流通行业的具体应用价值。
OpenAI News 2026/04/27
将包管理器的 install 命令拆解为五个职责清晰的阶段:元数据获取(访问注册表获取版本与依赖约束)、依赖解析(纯内存计算,无需网络,产出锁文件)、制品下载(按元数据中的 URL 和校验和拉取 tarball/wheel 等)、归档解包(按语言运行时要求布局到磁盘),以及安装后脚本执行(唯一运行不可信代码的阶段)。每个阶段的输入输出明确,便于独立替换不同的解析器、索引格式或注册表实现。
Andrew Nesbitt 2026/04/27
针对 Roaring Bitmap 中 16 位整数有序数组的查找场景,Daniel Lemire 提出 SIMD Quad 算法,结合两项优化:用四分查找(quaternary search)替代二分查找以利用处理器内存级并行,同时在最终块内用 SIMD 指令一次并行比较 16 个元素。算法将数组划分为 16 元素固定块,先用插值搜索定位目标块,再用单条 SIMD 指令完成块内匹配。在 x64 和 ARM 平台上均有显著加速,实测性能超越标准二分查找。
Daniel Lemire's blog 2026/04/27
Swift 5.5 引入新并发模型近五年后,社区对它的态度在 2025 年初出现明显转折:焦虑与吐槽减少,成功迁移分享增多。推动这一变化的因素包括:生态中第一方与第三方框架完成适配、AI 训练语料中 Swift 并发代码质量提升,以及 Swift 6.3 并发演进趋于稳定。本期推荐文章涵盖 nonisolated async 函数的执行器跳跃行为、结构化并发的真正含义、.refreshable 自我取消陷阱,以及 experimentalCGen 和 300 个界面迁移 SwiftUI 的实战经验。
肘子的 Swift 记事本 | Fatbobman's Blog 2026/04/27
腾讯开源的 HY-World 2.0(WorldMirror 2.0,约 1.2B 参数)可从图片或视频一次前向推理生成网格、Gaussian splat、点云等可导入 Blender/Unity 的 3D 资产,但整个技术栈依赖 CUDA 12.4。作者在 AMD Strix Halo(gfx1151)上克服三大障碍:用 ROCm PyTorch 替换 CUDA wheel;从源码编译 flash-attention(耗时 2 小时 15 分,利用已合并的 RDNA 3.5 CK 后端支持);修复 gsplat 中三处 AMD 兼容性 bug 后完成构建,最终成功在 AMD iGPU 上运行 3D 重建推理。
Sleeping Robots 2026/04/17
作者在 Strix Halo 机器上成功将 AMD XDNA 2 NPU 投入实际使用,运行 OpenAI 兼容的推理服务 Lemonade Server,实现 NPU 与 GPU 并行推理。过程颇为曲折:需将 GRUB 的 IOMMU 模式改为 passthrough,从源码编译 XDNA DKMS 驱动(v2.23.0)以支持固件协议 7.2,再编译 FastFlowLM 运行时,最后安装 Lemonade SDK 与 RPM 包。成功后 NPU 可独立承载小模型,释放 GPU 处理更大负载。
Sleeping Robots 2026/04/09
OmniVoice 是 k2-fsa 发布的零样本 TTS 模型,支持 600+ 语言与声音克隆,基于扩散语言模型架构。作者在无 NVIDIA GPU 的 Strix Halo 上测试:CPU 模式下 8 步语音设计 RTF 达 0.56,基本可用;ROCm 方面则屡遭碰壁——ROCm 6.3/6.4 稳定版不含 gfx1151 编译目标,ROCm 7.0 nightly 虽加入支持但首次张量分配即崩溃,根因疑为 HIP 运行时深层 bug,GPU 加速最终未能跑通。
Sleeping Robots 2026/04/09
VoxCPM2 是 OpenBMB 基于 MiniCPM-4 的 2B 参数无 tokenizer TTS 模型,支持 30 种语言、48kHz 输出。作者同时测试 Python 版与 C++ 版(VoxCPM.cpp/ggml):C++ 路径需修复 CMakeLists.txt 中 nlohmann/json 依赖 bug;Python 路径需将 attention mask 从 1D reshape 为 4D 修复 PyTorch 2.11 的兼容问题。CPU 基准中,VoxCPM1.5 Q8_0 以 RTF 1.23 表现最佳,VoxCPM2 Q4_K 量化后性能接近,RTF 1.55。
Sleeping Robots 2026/04/09
Fish Audio S2-Pro 是 4B 参数 TTS 模型,作者将其跑在 AMD Strix Halo 集成显卡 Radeon 8060S 上。ROCm 标准 Docker 镜像在 Fedora 内核 6.18 上直接崩溃,改用 Fedora 43 基础镜像配合 ROCm 7.2 backport 包解决。启用 torch.compile + AOTriton 实验性 SDPA 后 LLM 吞吐提升 8.5 倍(0.9 → 7.4 tokens/sec),内存带宽从 4.2 GB/s 跃升至 34 GB/s,整体 RTF 从 52.6x 降至约 30x。瓶颈在 VQ decoder,占约 90% 耗时,属模型架构层面限制。
Sleeping Robots 2026/03/15
Medium-Claw 是 mini-claw 的深度扩展 fork,将 Telegram bot 与 Pi coding agent 结合,实现跨会话持久记忆与自主调度。核心功能包括:agent 自主维护 MEMORY.md/USER.md 作为工作记忆并注入 system prompt;支持一次性与周期性任务调度,任务持久化到 JSON;所有消息写入 SQLite FTS5 数据库供跨会话全文检索。扩展方面集成 Brave Search、Playwright、Bluesky 等工具,并提供带 SSE 实时流的本地 Dashboard 用于观测 agent 行为。
Sleeping Robots 2026/03/15
Nick Levine、David Duvenaud 和 GPT/Whisper 作者 Alec Radford 联合发布 talkie,一个在2600亿tokens历史英文文本(1931年前)上训练的13B语言模型。基础版(53.1GB)采用完全公版数据,指令微调版(26.6GB)则借助 Claude Sonnet/Opus 4.6 进行合成数据生成与偏好优化。两款模型均采用 Apache 2.0 许可。研究团队探索了多个有趣问题:模型能否预测其知识截止日期之后的历史事件?能否独立推导出广义相对论?能否通过少样本示例学习编写 Python 程序?训练中最大挑战是避免1931年后内容的数据污染。
Simon Willison's Weblog 2026/04/28
未读 1 → 抓取 21 → 摘要 21 → 跳过 12 · 提取: readability 17 / rss 3 / browser-rendering 1