-
从 Prompt 到 KV Cache 讲清楚大模型缓存
很多人在使用大模型 API 或部署 vLLM、SGLang 这类推理服务时,都会看到一个词:缓存命中。 比如: prefix cache hit rate cached_tokens cache_read_input_tokens KV cache reuse Prompt caching 这些词
-
OpenAI Agents SDK 深度解析:从工具调用到 Agent Harness
OpenAI Agents SDK 是 OpenAI 面向 agentic AI 应用推出的一套 Python 框架。它不是另一个简单的 API wrapper,也不是把提示词、工具调用和多轮对话随意拼在一起的示例项目。按照仓库文档里的定位,它是 OpenAI 早期实验项目 Swarm 的生产化升级
-
DeepSeek-V4 技术解读:百万 Token 上下文背后的效率路线
如果只看参数规模,DeepSeek-V4 很容易被理解成又一次“大模型继续变大”的发布:DeepSeek-V4-Pro 拥有 1.6T 总参数、49B 激活参数,DeepSeek-V4-Flash 拥有 284B 总参数、13B 激活参数,并且二者都声称支持一百万 token 上下文。但通读论文后会
-
Prompt Engineering 已经过时,Harness Engineering 才是下一站
什么是Harness? 最近,我看了两篇关于 Agent 的文章,都来自 Anthropic: 2025 年 11 月 26 日,《Effective Harnesses for Long-Running Agents》 2026 年 3 月 24 日,《Harness Design for Lon
-
Claude Code 为什么“不会忘”?深入拆解它的记忆系统与上下文压缩机制
很多人第一次使用 Claude Code 时,都会有一种很奇怪的感觉: 它好像真的“记得”我之前做过什么。 你让它连续改几个小时代码,它仍然知道: 当前在修哪个 Bug 刚刚改过哪些文件 哪个方案已经失败过 下一步应该继续做什么 甚至隔了很久回到项目里,它还能接上之前的工作。 但问题是: 大模型的上
-
Claude Code 真正的秘密:模型之外,还有一套完整的 Agent 操作系统
从 Claude Code 源码里,我看到了下一代 Agent 的真正形态 不是更聪明的模型,而是更成熟的系统。 最近看了 Claude Code 源码。 npm 包里还原出的完整 TypeScript 源码, 4756 个文件。 刚看到这个数字的时候,我的第一反应不是“太夸张了”,而是: Clau
-
Claude Code 的设计哲学:为什么“少一点能力”反而更强?
最近看 Claude Code 的设计思路时,我发现它和很多 AI 产品有一个非常不同的地方: 它并不是在追求“功能越多越好”,而是在刻意克制。 你会发现,Claude Code 明明已经具备非常强的能力,却始终没有把所有工具、所有按钮、所有高级功能一次性摆在用户面前。甚至官方新增一个工具都非常谨慎
-
华为910B 通过 vllm 部署 Qwen3.5 系列模型
-
Java 新增的 String 处理的 9 个现代化方法,轻松应对大模型输出
AI时代的挑战 在 AI 大模型盛行的今天,字符串处理变得比以往任何时候都更加重要
-
音频转写 + 说话人分离设计与实现思路
实现效果 实现思路(Architecture & Design) 1. 系统目标与边界