AI 资讯日报 | 2026-05-31

🤖 自动生成 · 数据采集时间：2026-05-31 08:35 UTC

来源：T1 官方一手 / T1.5 媒体社区 / T2 KOL观点 & 学术论文

🔴 T1 官方一手源

OpenAI for Developers in 2025 — 年终回顾：模型、API 和平台级变化，聚焦生产级 Agent 构建 🔗 developers.openai.com
How Codex ran OpenAI DevDay 2025 — Codex 如何支撑 DevDay 大会：预览截图审查、IDE 扩展编辑、404 页面重新设计 🔗 developers.openai.com

Anthropic Economic Index: Uneven Geographic and Enterprise AI Adoption — 追踪 2024.12-2025.08 八个月间 AI 使用的地理和企业级变化 🔗 anthropic.com
How AI Is Transforming Work at Anthropic — 调查 132 名 Anthropic 员工，研究 AI 如何在公司内部改变工作方式 🔗 anthropic.com
Coding Agents in the Social Sciences — 经济学研究将编码 Agent 应用于社会科学（2026.05.27 发布） 🔗 anthropic.com

State of Open Source on Hugging Face: Spring 2026 — HF 用户突破 1300 万，200 万+ 公开模型，50 万+ 公开数据集 🔗 huggingface.co
HF × Microsoft 深化合作 — Azure Model Catalog 推出 Hugging Face Collection，数百 Azure AI 客户可直接使用 🔗 huggingface.co
Welcome Gemma 3 — Google 最新开源多模态、多语言、长上下文 LLM，提供 1B/4B/12B/27B 四种尺寸 🔗 huggingface.co

Agentic AI, MCP, and Spec-Driven Development — 2025 年度热门博文：Agentic AI、MCP 和规范驱动开发成为最大软件开发趋势 🔗 github.blog
TypeScript 超越 Python 和 JavaScript — 2025 年 8 月，TypeScript 首次成为 GitHub 上使用最多的语言 🔗 github.blog

NVIDIA Research Shapes Physical AI — 神经渲染、3D 生成和世界模拟的突破，驱动机器人、自动驾驶和内容创作 🔗 blogs.nvidia.com

2025: The Year in LLMs — 年度总结：20-32B 参数规模持续产出高质量模型，中国实验室在开源领域占据主导地位 🔗 simonwillison.net
AI 使开发者变慢 19% — RCT 实验发现：使用 AI 工具的开发者比不用的慢 19%，反直觉的生产力结论 🔗 simonwillison.net

Why Far Looks Up: 探测视觉语言模型的空间表示 — VLM 在空间推理基准上表现强劲，但是否反映真正的 3D 理解仍有疑问（⬆️34） 🔗 huggingface.co
REPOT: 可恢复的思维程序 — 通过检查点修复解决 Program-of-Thought 中单个无效动作导致整个轨迹失效的问题（⬆️4） 🔗 huggingface.co
VideoMLA: 分钟级自回归视频扩散的低秩潜在 KV 缓存 — 首次将 MLA 应用于视频扩散，KV 内存减少 92.7% 🔗 huggingface.co

Microsoft AI 负责人警告：AI 意识幻觉可能引发精神病 — Mustafa Suleyman 警告"看似有意识的 AI"（SCAI）是下一个风险 🔗 the-decoder.com
六大 AI 巨头评 hype vs reality — Queen Elizabeth Prize 2025 颁奖典礼上，六位 AI 领军人物讨论突破、挑战和模型真实能力 🔗 the-decoder.com
AI 扩展辩论延续至 2025 — 社区对什么真正驱动 AI 进展仍有分歧 🔗 the-decoder.com

宝玉 (dotey): Codex 已接入 ChatGPT 手机 App，可在手机上启动、监控和审批电脑上的 Codex 任务 🔗 x.com/dotey
Ethan Mollick: 写了新指南——什么该留给人类，什么交给 AI。Google AI 生态令人困惑：好模型 + 不同 App 中完全不同的 harness 🔗 x.com/emollick
Nathan Lambert: "American DeepSeek Project" — 在美国构建完全开源模型，平衡中国开源 AI 的崛起 🔗 x.com/natolambert
Berryxia.AI: Creao 搭建了电商设计专家 Agent，一站式出图，后台跑 Claude 和 Gemini 🔗 x.com/berryxia

Physics Is All You Need? — 物理学家监督 Claude Code 12 天 57 个会话构建科学软件，发现监督设计比模型能力更决定可信度 🔗 arxiv.org
LLMSurgeon: 诊断大模型数据混合 — 仅从生成文本反推目标 LLM 预训练语料的领域分布 🔗 arxiv.org
RiM: 解锁大语言模型的工作记忆 — 用固定记忆块替代自回归推理步骤，单次前向传播实现高效潜在推理 🔗 arxiv.org
GPIC: 巨型许可图像语料库 — 约 28 万亿像素，许可友好，可用于研究和商业 🔗 arxiv.org
HullFT: 高效测试时微调 — 基于凸重建和梯度缓存的几何方法，优化质量-效率权衡 🔗 arxiv.org

Agent 化加速 — OpenAI Codex 进手机、Anthropic 研究编码 Agent 在社科领域的应用、GitHub 年度主题 Agentic AI + MCP，Agent 正从概念走向生产
开源格局重塑 — HF 用户破 1300 万、Gemma 3 开源、Nathan Lambert 呼吁"American DeepSeek Project"、中国实验室在 20-32B 参数段持续发力
安全与信任 — 国内首次大模型众测发现 281 个漏洞、Microsoft 警告 AI 意识幻觉风险、Simon Willison 的 RCT 显示 AI 让开发者变慢 19%
算力竞赛 — 参数规模向 10 万亿级迈进、OpenRouter 融资 1.13 亿美元做模型路由、VideoMLA 将 KV 内存减少 92.7%
产业整合 — Anthropic 估值超 OpenAI、HF × Microsoft 深化合作、TypeScript 成 GitHub 最流行语言

⚠️ 注：小红书数据源因 Cookie 未认证未能采集。如需补充，请先运行 xhs login 完成登录。

📡 采集自 33 条 T1 源 + 20 条 T1.5 源 + 26 条 T2 源，筛选后呈现 36 条精选资讯。