${title!}

从 Prompt 到 KV Cache 讲清楚大模型缓存

很多人在使用大模型 API 或部署 vLLM、SGLang 这类推理服务时，都会看到一个词：缓存命中。比如： prefix cache hit rate cached_tokens cache_read_input_tokens KV cache reuse Prompt caching 这些词

2026-05-24 • AI • 大模型 • vllm 阅读
DeepSeek-V4 技术解读：百万 Token 上下文背后的效率路线

如果只看参数规模，DeepSeek-V4 很容易被理解成又一次“大模型继续变大”的发布：DeepSeek-V4-Pro 拥有 1.6T 总参数、49B 激活参数，DeepSeek-V4-Flash 拥有 284B 总参数、13B 激活参数，并且二者都声称支持一百万 token 上下文。但通读论文后会

2026-04-25 • AI • 大模型阅读
Prompt Engineering 已经过时，Harness Engineering 才是下一站

什么是Harness? 最近，我看了两篇关于 Agent 的文章，都来自 Anthropic： 2025 年 11 月 26 日，《Effective Harnesses for Long-Running Agents》 2026 年 3 月 24 日，《Harness Design for Lon

2026-04-10 • 大模型 • AI 阅读
Claude Code 为什么“不会忘”？深入拆解它的记忆系统与上下文压缩机制

很多人第一次使用 Claude Code 时，都会有一种很奇怪的感觉：它好像真的“记得”我之前做过什么。你让它连续改几个小时代码，它仍然知道：当前在修哪个 Bug 刚刚改过哪些文件哪个方案已经失败过下一步应该继续做什么甚至隔了很久回到项目里，它还能接上之前的工作。但问题是：大模型的上

2026-04-09 • 大模型 • AI 阅读
Claude Code 真正的秘密：模型之外，还有一套完整的 Agent 操作系统

从 Claude Code 源码里，我看到了下一代 Agent 的真正形态不是更聪明的模型，而是更成熟的系统。最近看了 Claude Code 源码。 npm 包里还原出的完整 TypeScript 源码， 4756 个文件。刚看到这个数字的时候，我的第一反应不是“太夸张了”，而是： Clau

2026-04-08 • 大模型 • AI 阅读
Claude Code 的设计哲学：为什么“少一点能力”反而更强？

最近看 Claude Code 的设计思路时，我发现它和很多 AI 产品有一个非常不同的地方：它并不是在追求“功能越多越好”，而是在刻意克制。你会发现，Claude Code 明明已经具备非常强的能力，却始终没有把所有工具、所有按钮、所有高级功能一次性摆在用户面前。甚至官方新增一个工具都非常谨慎

2026-04-07 • 大模型 • AI 阅读
华为910B 通过 vllm 部署 Qwen3.5 系列模型

2026-03-31 • AI • 大模型 • vllm 阅读
Langchain4J实现大模型聊天程序

功能点基于令牌窗口的多轮对话多用户多会话聊天记录持久化实现思路使用大模型流式输出接口 + Langchain4J的记忆管理 + Redis缓存 + 数据库持久化进行实现使用 spring-webflux 进行流式输出 Langchain4J版本: 1.3.0 此时的最新版

2025-08-15 • AI • 大模型阅读
昇腾910B部署千问3(Qwen3)大模型-封装推理镜像

上一个文章，我们已经成功在昇腾910B平台上部署了Qwen3,现在我们就利用已经配置好环境的容器，制作一个专门方便部署的推理镜像制作镜像编写python脚本用来自动设置推理配置文件 vim /usr/local/Ascend/update_mindie_config.py 在文件中写入下面的代码

2025-05-09 • AI • 大模型阅读
昇腾910B部署千问3(Qwen3)大模型

终于拿到了华为的最新版本Mindie镜像 mindie_2.0.T17.B010-800I-A2-py3.11-openeuler24.03-lts-aarch64.tar.gz 终于可以在昇腾平台上部署Qwen3了 Qwen3简介 Qwen3是Qwen系列中最新一代的大型语言模型，提供了密集和混合

2025-05-09 • AI • 大模型阅读