-
昇腾910B部署千问3(Qwen3)大模型-封装推理镜像
上一个文章,我们已经成功在昇腾910B平台上部署了Qwen3,现在我们就利用已经配置好环境的容器,制作一个专门方便部署的推理镜像 制作镜像 编写python脚本用来自动设置推理配置文件 vim /usr/local/Ascend/update_mindie_config.py 在文件中写入下面的代码
-
昇腾910B部署千问3(Qwen3)大模型
终于拿到了华为的最新版本Mindie镜像 mindie_2.0.T17.B010-800I-A2-py3.11-openeuler24.03-lts-aarch64.tar.gz 终于可以在昇腾平台上部署Qwen3了 Qwen3简介 Qwen3是Qwen系列中最新一代的大型语言模型,提供了密集和混合
-
使用vllm-ascend在昇腾910B部署千问3(Qwen3)
千问3已经发布几天了,华为公开最新的Mindeie镜像,我们可以暂时使用vllm-ascend进行推理 下载镜像 docker pull quay.io/ascend/vllm-ascend:v0.8.4rc2 下载模型 我们这里以Qwen3-32B为例,其它模型同理 权重在这里下载: https:
-
AI时代的网站新身份证:LLMs.txt介绍
LLMs.txt:AI 时代的新型网络标准解析 在当今快速发展的 AI 时代,一个新的网络标准正在悄然兴起 —— LLMs.txt。这个标准虽然简单,却可能对未来的 AI 搜索和内容理解产生深远影响。今天,让我们一起深入了解这个创新性的提案。
-
AI 应用程序
AI 应用程序并没有官方概念,简单来说就是一个程序中应用到了AI,这个程序就可以算是AI 应用程序 为什么开发AI应用程序? 大模型的能力很强大,但是如果我们只是把它应用在对话方面,那就太大材小用了。
-
AI Agent 智能体
智能体是什么 智能体的英文是 Agent,AI 业界对智能体提出了各种定义。个人理解,智能体是一种通用问题解决器。从软件工程的角度看来,智能体是一种基于大语言模型的,具备规划思考能力、记忆能力、使用工具函数的能力,能自主完成给定任务的计算机程序。 大语言模型很强大,就像人类的大脑一样拥有思考的能力。
-
基于RAG的聊天引擎
构建一个可以在单个查询中多次运行RAG系统的一个重要特性是聊天逻辑,考虑到对话上下文,就像在 LLM 时代之前的经典聊天机器人一样。这是支持后续问题,重复指代,或任意用户命令相关的以前对话上下文所必需的。查询压缩技术可以同时考虑聊天上下文和用户查询。 有几种方法可以实现上下文压缩: 一种流行且相对简
-
RAG相关知识
RAG 全称 Retrieval-Augmented Generation,翻译成中文是检索增强生成。检索指的是检索外部知识库,增强生成指的是将检索到的知识送给大语言模型以此来优化大模型的生成结果,使得大模型在生成更精确、更贴合上下文答案的同时,也能有效减少产生误导性信息的可能。 为什么需要RAG?
-
模型量化
模型量化(quantization)指的是用更少的bit表示模型参数,从而减少模型的大小,加速推理过程的技术。 模型量化是把模型的参数从FP32映射到nbit位的过程, 简单来说就是在定点数与浮点数等数据之间建立一种数据映射关系, 使得以较小的精度损失代价获得了较好的收益。 例如FP32-->INT
-
大模型蒸馏
大模型蒸馏(Large Model Distillation),简单来说,就是将一个复杂的大模型(教师模型)的知识迁移到一个较小的模型(学生模型)中。就像老师把自己渊博的知识传授给学生,让学生能够在资源有限的情况下,尽可能地表现出和老师相似的能力。 大模型蒸馏的原理 大模型蒸馏借鉴了教育领域的“知识