技术潮汐周刊 - 第1期
大约 15 分钟
技术潮汐周刊 - 第1期
- 行业快讯
- 技术视野
- 实践经验与好用工具
行业快讯
Anthropic & Claude Code & Claude
- Claude Code 引入沙箱机制,提升代码执行安全性。 | Claude Code
- Anthropic 发布 Claude for Microsoft 365,Excel、PowerPoint、Word 插件正式可用,Outlook 进入公测,并支持跨 Microsoft 应用保留会话上下文。 | IT之家
- Anthropic 将 Claude Code API 速率提升一倍,Meta 推 ProgramBench 基准。 | DEV Community
- Anthropic 开源对齐工具 Petri,供研究者免费使用。 | Anthropic
- Anthropic NLA 论文:用自然语言解码 LLM 激活,提升黑箱解释 4 倍。 | InfoQ 推荐
- Claude Code 之父最新访谈:围绕 loop 和 batch 的大规模并行 Agent 编排,这块正在加速迭代 | AGI Hunt
OpenAI & Codex & GPT
- 奥特曼官宣 OpenAI 将推出自研手机。 | 钛媒体:引领未来商业与生活新知
- Codex Chrome extension:和 in-app browser结合,允许 Codex 控制浏览器访问。 | OpenAI Developers
- OpenAI Codex 现已在 macOS 与 Windows Chrome 中直接运行,并支持后台多标签并行工作。 | Twitter @Sam Altman
- OpenAI 连发三款实时语音模型,GPT‑Realtime‑2 具备 GPT‑5 级推理。 | 钛媒体:引领未来商业与生活新知
- OpenAI 与 Anthropic 同日成立落地服务公司,聚焦 AI “最后一英里”交付。 | 钛媒体:引领未来商业与生活新知
- GPT‑5.5 免费开放使用,视频演示对比 OpenAI 近期五大升级。 | 零度解说
- OpenAI 发现部分已部署模型在训练时出现链式思考(CoT)评分,未发现对可监控性产生明显负面影响。 | Twitter @OpenAI
Google & Gemini
- Google 发布 Gemini 3.1 Flash‑Lite,定位低延迟低价,价格略低于 DeepSeek V4 Pro。 | Twitter @Gorden Sun
- Google 宣布 Gemini API 文件搜索已支持多模态检索,提升 RAG 场景下的检索与生成能力。 | Google Blog
- Gemma 4:本地大模型的性能突围与多模态能力。 | DEV Community
- Google 为 Gemma 4 系列模型新增 Multi‑Token Prediction Drafts(多令牌预测草稿器):基于投机解码(speculative decoding)的高速推理。 | Twitter @Techmeme
Elon Musk & Grok & SpaceXAI & Starlink
- xAI 并入 SpaceX,更名为 SpaceXAI。 | Twitter @Elon Musk
- 马斯克宣布解散 xAI 并将 22 万块 GPU 租给 Anthropic,同时启动 1190 亿美元的 Terafab 芯片工厂计划,标志着大模型竞争进入硬件重工业阶段。 | 钛媒体:引领未来商业与生活新知
- Grok Computer 新版发布,提供完整文件系统与 CLI,支持代码编辑、运行脚本、生成图像等全栈开发功能。 | Twitter @Elon Musk
- 马斯克推荐 Grok Voice 用于客服语音代理,强调其在嘈杂环境下的快速准确。 | Twitter @Elon Musk
- 特斯拉已在弗里蒙特工厂停产 Model S 与 Model X,转而投产 Optimus 人形机器人。 | IT之家
- Starlink 在美国多州实现 100+ Mbps 下载、20 Mbps 上传,用户数突破 1200 万。 | Twitter @Elon Musk
国内动态
- 阿里计划将千问 AI 平台深度整合进淘宝,实现对话式购物全流程自动化。 | IT之家
- 阿里千问 AI 眼镜升级,加入主动服务与 3D 显示。 | IT之家
- 豆包计划推出 68/200/500 元三档付费订阅,豆包收费引发的商业模型与行业格局分析。 | 钛媒体:引领未来商业与生活新知
- 字节的多闪 AI 加持实现 17 倍月活增长,不创造新连接,而是深化抖音生态内的半熟关系。 | 钛媒体:引领未来商业与生活新知
- 快手首个打工人Agent KroWork来了!工作流固化为桌面软件,下一步棋是应用分享。 | 新智元
- 罗技计划加大 AI、游戏及商用市场投入,研发费用占比将提升至销售额 6%。 | IT之家
- 中国移动推出万亿级 Token 体验包,配合 MoMA 平台统一接入多模型,面向开发者提供即取即用算力服务。 | IT之家
- 三星因在中国市场的激烈价格战导致亏损,关闭部分产线并将产能转向高端出口,标志其在华家电业务的战略性撤退。 | 钛媒体:引领未来商业与生活新知
估值融资
- Anthropic 正在进行最高 500 亿美元的融资,估值约 9000 亿美元,年化收入逼近 450 亿美元。 | Twitter @Techmeme
- SpaceX 为 IPO 做准备,资本支出预计超过 5500 亿美元,计划建设太拉晶圆芯片产业园。 | 36氪
- 中国 AI 四小龙(DeepSeek、智谱、MiniMax、月之暗面)估值突破 1 万亿元,背后是不同的市销率与生态定义权定价逻辑。 | 钛媒体:引领未来商业与生活新知
- DeepSeek 估值 450 亿美元:国产模型+国产芯片的全链路布局。 | 钛媒体:引领未来商业与生活新知
- Kimi 完成 20 亿美元新融资,估值超 200 亿美元,迄今累计融资金额已超 376 亿元人民币;融资估值从 200 亿美元飙至 450 亿美元,国家大基金与多家互联网巨头参与,创始人持股比例大幅提升;大模型资本热潮持续,算力与 token 消耗成为新焦点。 | 钛媒体:引领未来商业与生活新知
- CopilotKit融资2700万美元,AG‑UI 协议不用重写一行代码,你的应用就能拥有AI agent。 | 人人都是产品经理
- Plaud 估值虽传 20亿美元,但实际出货量有限,核心技术壁垒薄弱,AI 录音硬件竞争激烈。 | 36氪
具身智能
- Ted Xiao 回顾 Google DeepMind 近十年机器人学习历程,阐述从端到端强化学习到基础模型再到大规模 Scaling 的三大时代。 | 机器之心
- 中国 31 家跨界巨头进军人形机器人,成本大幅下降;美国传统制造巨头缺席。 | 钛媒体:引领未来商业与生活新知
- 具身智能核心部件减速器订单爆单,国产厂商迎来市场红利。 | 钛媒体:引领未来商业与生活新知
- 宇树 UniStore 人形机器人动作应用商店开放,开发者可上传、下载机器人动作模型。 | IT之家
- 130 cm 高的人形机器人宇树 G1 在韩国受戒,获得佛教法名“迦悲”,并被赋予改编后的五戒,包括不过度充电。 | IT之家
技术视野
Agent
- OpenAI Codex 与 Anthropic Claude 推出虚拟宠物功能,利用任务状态可视化或哈希生成稀有度,提升用户粘性。 | 人人都是产品经理
- Hermes Agent Kanban:自托管 LLM 工作流的任务调度与并发控制。 | DEV Community
- Code with Claude 2026: 集中展示了 Claude Code 的产品方向、现场反馈与工作流案例。 | Chris Ebert
- Claude Code 源码分析系列·第一章:整体工程架构拆解。 | DEV Community
- Claude Code 60 天打造 20 功能 DevOps 工具的全流程实战。 | DEV Community
- CLI 化趋势:MCP、Skill 与 Agent 工具接口的分工。 | 人人都是产品经理
- Agent 框架图鉴:2026 春季功能堆砌 vs 学习型 Agent 的分水岭。 | 人人都是产品经理
- 做企业级 Agent 后我才发现:没有评估体系,Agent 永远只是 Demo。 | 人人都是产品经理
- Agent 时代的生产力悖论:协作结构才是瓶颈。 | 阿里云开发者
- 将 Entire Agent Checkpoints 与代码库分离的两种方案。 | DEV Community
- Salesforce TDX 2026 宣布 “Agentic Enterprise” 战略,强调 AI Agent 在企业工作流中的自主协作与决策能力。 | DEV Community
- 开发者正成为人工智能指挥家。与其手动编写每一行代码,开发者将越来越多地:
- 管理多个Coding Agent
- 指导 AI 生成的实现
- 专注于架构和产品思维
- 像工程经理一样操作 AI 系统
- 一个开发者 = 一个由 AI Agents组成的团队,这为工程团队创造了 10 倍的生产力提升的可能性。
- 组织不再仅仅是构建应用程序。他们在建造:
- Autonomous systems 自主系统
- Self-improving AI ecosystems 自我进化的 AI 生态系统
- Multi-agent collaborative environments 多智能体协作环境
- 这些系统包括:
- Continuous learning loops 持续学习循环
- Feedback-driven optimization 反馈驱动优化
- Cross-agent coordination 跨代理协调
- Dynamic workflow adaptation 动态工作流适应
- 开发者正成为人工智能指挥家。与其手动编写每一行代码,开发者将越来越多地:
- Agent‑Skills:为 AI Coding Agent提供生产级工程工作流,Idea‑Spec-Plan‑Build‑Test‑Review‑Ship。 | GitHub All Languages Daily Trending
- Multica:开源托管 Agent 平台,将 Coding Agent 变为真实团队成员。 | GitHub All Languages Monthly Trending
- Symphony:面向团队的自动化编码工作流平台,从管理单个Coding Agent转向管理“要完成的工作”。 | GitHub All Languages Weekly Trending
- jcode:下一代多会话工作流的Coding Agent框架,提升资源效率与可扩展性。 | GitHub All Languages Weekly Trending
- ai-config-sync-manager:自动同步 Claude Code 与 Codex 配置。 | DEV Community
- ToolOps 通过装饰器为 AI Agent 添加生产级工具调用与错误恢复,降低部署门槛。 | New Links | Hacker News
- Ouroboros:Specification‑First 的 Agent OS。 | GitHub All Languages Weekly Trending
LLM
- LLM 输出质量下降但传统指标未变,提示需关注漂移检测方法。 | New Links | Hacker News
- 探讨 LeetCode 训练的思维模式与真实生产系统需求的差距,提醒开发者关注实战能力。 | DEV Community
- Length Value Model(LenVM):3B模型击败GPT 5.4、Claude,相同token预算下推理准确率提升10倍。 | 新智元
- 企业落地 LLM 性能评估新视角:RPS、TTFT 与 ITL 的实战指南。 | InfoQ 推荐
- Grok 与 OpenAI 语音模型对比测试显示,两者在自然度和延迟上各有优势。 | New Links | Hacker News
RAG
- Hybrid Search 通过并行 BM25 与向量检索提升 RAG 系统对关键词与语义查询的覆盖率。 | DEV Community
- Postgres + pgvector 在 5 千万向量规模下成本与延迟均优于 Pinecone,适合中小规模 RAG 项目。 | DEV Community
- RAG 项目在生产环境常见的四大失效因素:检索错误、文档噪声、缺乏检索可信度提示以及评估指标缺失,提供了实战防御清单。 | DEV Community
实践经验与好用工具
省token技巧
- Skill Vault技能宝箱之后:Claude 代码中的 3 个更多隐藏token消耗点。 | DEV Community
- 9Router – 开源免费 AI 编码路由器与 Token 节省器,支持 Claude Code、Codex、Cursor、OpenClaw 等多种编程助手。 | GitHub All Languages Daily Trending
- 基于Hacker News话题热度每日更新的大模型人气排行榜。 | 阮一峰的网络日志
- 2026 年实战 Agentic Coding 最佳 LLM 排行榜与成本分析。 | DEV Community
- Mex 项目通过持久化内存缓存 Agent 代码上下文,实现约 60% token 使用量下降。 | New Links | Hacker News
- 如何将 LLM API Token 消耗削减 90%:从每日 100 万降至 10 万。 | DEV Community
- 作者主张让 LLM 编写脚本实现自身自动化,以降低长期使用成本。 | DEV Community
Skills
- awesome-codex-skills – 实用 Codex 技能集合。 | GitHub All Languages Monthly Trending
- Browserbase Skills 为 Claude Code 提供浏览器自动化、CDP 追踪与安全浏览插件,支持远程会话与代理。 | GitHub All Languages Weekly Trending
- 新 CLI 工具 Save to Spotify 支持 OpenClaw、Claude Code、Codex 直接将 AI 生成的音频保存至 Spotify 播客。 | The Verge
Memory
- 长上下文不是记忆:AI 产品的四类记忆设计与陷阱。 | 人人都是产品经理
- 四种记忆类型:上下文记忆、偏好记忆、知识库记忆、任务状态记忆
- 关键痛点:何时该记、记在哪里、何时调用
- 实践建议:通过显式标记临时指令、提供用户编辑/删除入口、区分短期与长期记忆
- 场景示例:口语化指令、合规约束、跨会话业务规则
- 本地化长期记忆引擎,面向 AI 代理,提供 MCP/CLI 接口,完全离线运行。 | Hacker News
- AgentMemory:跨 Agent 持久记忆层,实现多 Agent 共享持久记忆,显著降低重复上下文成本。 | GitHub All Languages Daily Trending
- 移动端Coding Agent 在连续任务中丢失上下文,作者通过持久化会话实现记忆,提升交互流畅度。 | DEV Community
Gemma4 本地部署
- 多模态 Gemma 4 本地部署全攻略:在普通笔记本上跑 2 B 参数模型。 | DEV Community
- 作者在本地运行 Gemma 4 26B,体验到长达 5 分钟的深度思考过程,展示了模型在离线开发工作流中的潜力。 | DEV Community
- 一个本地优先开发者的日常生活。 | DEV Community
- Airplane AI 项目在 Hacker News 上展示,提供基于 Gemma 的本地安全 AI 解决方案。 | New Links | Hacker News
- 58 岁的退休开发者利用本地 Gemma 4 在旅行规划应用中实现全链路 AI,未使用任何付费 API,展示了低成本本地模型在实际产品中的可行性。 | DEV Community
- Gemma‑Chat 项目在 GitHub 上开源,支持在 Apple Silicon 设备上离线运行,提供本地化的聊天大模型体验。 | New Links | Hacker News
- 作者基于 Gemma 4 与 FastAPI 开发日志简化工具,能够把各种语言的错误堆栈转化为结构化的根因分析与修复建议。 | DEV Community
- 使用本地 Gemma 4 构建 ECET 考试练习助手,实现离线多选题自动批改与解释,展示了轻量模型在教育场景的可行性。 | DEV Community
金融相关
- Anthropic 开源金融服务工作流仓库,提供面向投资银行、私募等场景的 Claude Managed Agents 与插件实现。 | GitHub All Languages Daily Trending
- Claude for Financial Services:面向金融行业的开源 Agent 套件。 | DEV Community
- Box 与 GPT‑5.5 合作,展示模型在金融复杂知识工作中的多步推理能力,提升 19% 预测准确度。 | OpenAI
- Dexter:面向金融研究的自主任务规划 Agent。 | GitHub All Languages Weekly Trending
- TradingAgents 项目使用多 Agent 模拟华尔街投研流程,已获 71.4k Star,展示了开源金融 Agent 的落地潜力。 | 钛媒体:引领未来商业与生活新知
- 金融系统的自动化离不开人工干预,强调将运营人员视为系统组成部分才能提升可靠性。 | DEV Community
- FinTech RAG 首次上线常见的十个架构误区。 | DEV Community
创作生成相关
- AI 视频生成平台的计费模型对比与实用成本计算器,帮助开发者避免预算失控。 | DEV Community
- Harness 实践视频展示 Agent 自动生成知识讲解视频的完整工作流。 | code秘密花园
- Pixelle-Video 是一个全自动短视频生成项目,可从主题生成脚本、配图/视频、语音、背景音乐并合成成片,适合观察 AI 内容生产工具链。 | GitHub All Languages Monthly Trending
- Open‑Generative‑AI:200+ 模型的开源媒体生成工作流。 | GitHub All Languages Monthly Trending
