-
从 Prompt 到 KV Cache 讲清楚大模型缓存
很多人在使用大模型 API 或部署 vLLM、SGLang 这类推理服务时,都会看到一个词:缓存命中。 比如: prefix cache hit rate cached_tokens cache_read_input_tokens KV cache reuse Prompt caching 这些词
-
DeepSeek-V4 技术解读:百万 Token 上下文背后的效率路线
如果只看参数规模,DeepSeek-V4 很容易被理解成又一次“大模型继续变大”的发布:DeepSeek-V4-Pro 拥有 1.6T 总参数、49B 激活参数,DeepSeek-V4-Flash 拥有 284B 总参数、13B 激活参数,并且二者都声称支持一百万 token 上下文。但通读论文后会
-
Prompt Engineering 已经过时,Harness Engineering 才是下一站
什么是Harness? 最近,我看了两篇关于 Agent 的文章,都来自 Anthropic: 2025 年 11 月 26 日,《Effective Harnesses for Long-Running Agents》 2026 年 3 月 24 日,《Harness Design for Lon
-
Claude Code 为什么“不会忘”?深入拆解它的记忆系统与上下文压缩机制
很多人第一次使用 Claude Code 时,都会有一种很奇怪的感觉: 它好像真的“记得”我之前做过什么。 你让它连续改几个小时代码,它仍然知道: 当前在修哪个 Bug 刚刚改过哪些文件 哪个方案已经失败过 下一步应该继续做什么 甚至隔了很久回到项目里,它还能接上之前的工作。 但问题是: 大模型的上
-
Claude Code 真正的秘密:模型之外,还有一套完整的 Agent 操作系统
从 Claude Code 源码里,我看到了下一代 Agent 的真正形态 不是更聪明的模型,而是更成熟的系统。 最近看了 Claude Code 源码。 npm 包里还原出的完整 TypeScript 源码, 4756 个文件。 刚看到这个数字的时候,我的第一反应不是“太夸张了”,而是: Clau
-
Claude Code 的设计哲学:为什么“少一点能力”反而更强?
最近看 Claude Code 的设计思路时,我发现它和很多 AI 产品有一个非常不同的地方: 它并不是在追求“功能越多越好”,而是在刻意克制。 你会发现,Claude Code 明明已经具备非常强的能力,却始终没有把所有工具、所有按钮、所有高级功能一次性摆在用户面前。甚至官方新增一个工具都非常谨慎
-
华为910B 通过 vllm 部署 Qwen3.5 系列模型
-
Langchain4J实现大模型聊天程序
功能点 基于令牌窗口的多轮对话 多用户 多会话 聊天记录持久化 实现思路 使用大模型流式输出接口 + Langchain4J的记忆管理 + Redis缓存 + 数据库持久化 进行实现 使用 spring-webflux 进行流式输出 Langchain4J版本: 1.3.0 此时的最新版
-
昇腾910B部署千问3(Qwen3)大模型-封装推理镜像
上一个文章,我们已经成功在昇腾910B平台上部署了Qwen3,现在我们就利用已经配置好环境的容器,制作一个专门方便部署的推理镜像 制作镜像 编写python脚本用来自动设置推理配置文件 vim /usr/local/Ascend/update_mindie_config.py 在文件中写入下面的代码
-
昇腾910B部署千问3(Qwen3)大模型
终于拿到了华为的最新版本Mindie镜像 mindie_2.0.T17.B010-800I-A2-py3.11-openeuler24.03-lts-aarch64.tar.gz 终于可以在昇腾平台上部署Qwen3了 Qwen3简介 Qwen3是Qwen系列中最新一代的大型语言模型,提供了密集和混合