xinference部署安装 - 军军小站|张军博客

业务介绍

Xinference 是一个开源的大模型部署和管理工具，主要用于简化各种开源大语言模型（LLM）、多模态模型的本地化部署、调用和管理流程。它的核心目标是让用户能够更便捷地在本地或私有环境中运行和使用各类预训练模型，而无需依赖外部 API 服务。

主要特点：

多模型支持：兼容多种主流开源模型，包括 LLaMA 系列、ChatGLM、Mistral、Qwen（通义千问）、Stable Diffusion 等，覆盖文本生成、图像生成等多模态任务。
灵活部署：支持不同硬件环境（CPU、GPU），并能根据硬件配置自动适配模型参数（如量化精度），降低部署门槛。
统一接口：提供标准化的 API（兼容 OpenAI 格式），方便用户通过统一的方式调用不同模型，简化代码迁移和集成。
分布式能力：支持模型的分布式部署，可利用多设备资源提升大模型的运行效率。
轻量易用：通过命令行或 API 即可快速启动和管理模型，无需复杂的配置，适合开发者快速上手。

适用场景：

本地开发和测试开源大模型
搭建私有大模型服务，保障数据隐私
快速对比不同模型的性能和效果
集成到应用中实现本地化的 AI 功能

如果需要在本地部署和管理开源大模型，Xinference 是一个高效的工具选择，尤其适合对隐私性、自定义部署有需求的场景。

启动应用

C:\Users\Administrator>xinference-local2025-03-10 00:22:00,214 xinference.core.supervisor 56180 INFO     Xinference supervisor 127.0.0.1:61734 started
2025-03-10 00:22:00,233 xinference.core.worker 56180 INFO     Starting metrics export server at 127.0.0.1:None
2025-03-10 00:22:00,235 xinference.core.worker 56180 INFO     Checking metrics export server...
2025-03-10 00:22:07,762 xinference.core.worker 56180 INFO     Metrics server is started at: http://127.0.0.1:39629
2025-03-10 00:22:07,762 xinference.core.worker 56180 INFO     Purge cache directory: C:\Users\Administrator\.xinference\cache
2025-03-10 00:22:07,763 xinference.core.worker 56180 INFO     Connected to supervisor as a fresh worker
2025-03-10 00:22:07,772 xinference.core.worker 56180 INFO     Xinference worker 127.0.0.1:61734 started
2025-03-10 00:22:13,085 xinference.api.restful_api 34544 INFO     Starting Xinference at endpoint: http://127.0.0.1:9997
2025-03-10 00:22:13,181 uvicorn.error 34544 INFO     Uvicorn running on http://127.0.0.1:9997 (Press CTRL+C to quit)

以下是 Windows 系统修改 Xinference 下载路径的具体方法

一、通过环境变量修改
临时设置（单次生效）
在启动 Xinference 服务前，使用命令提示符执行以下命令（替换目标路径）：
bashCopy Code
set XINFERENCE_HOME=D:\your_custom_path
xinference-local --host 0.0.0.0 --port 9997
此方式仅对当前会话生效25。
永久设置（全局生效）
右键点击“此电脑” → 选择“属性” → 进入“高级系统设置” → 点击“环境变量”
在“系统变量”中新建变量：
textCopy Code
变量名：XINFERENCE_HOME  
变量值：D:\your_custom_path
重启命令行工具后启动服务即可生效24。
二、通过符号链接重定向
若需保留默认路径但实际存储到其他位置：
在目标盘（如 D 盘）创建自定义文件夹（如 D:\xinference_cache）
以管理员权限打开命令提示符，执行：
bashCopy Code
mklink /j "C:\Users\用户名\.xinference\cache" "D:\xinference_cache"
此方法通过软链接将默认路径映射到自定义目录，避免修改环境变量。
注意事项
确保目标路径存在且具有读写权限23
修改环境变量后需重启命令行工具或系统才能生效4
若同时存在 XINFERENCE_HOME 和 XINFERENCE_CACHE_DIR 变量，优先采用 XINFERENCE_HOME 的配置12
启动服务时需使用 xinference-local 命令而非直接运行脚本

下载模型

Downloading Model to directory: C:\Users\Administrator\.cache\modelscope\hub\models\qwen\Qwen2.5-1.5B-Instruct
2025-03-10 00:43:53,527 - modelscope - INFO - Got 10 files, start to download ...
Downloading [config.json]: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 660/660 [00:00<00:00, 1.95kB/s]
Downloading [README.md]: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.80k/4.80k [00:00<00:00, 14.0kB/s]
Downloading [LICENSE]: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11.1k/11.1k [00:00<00:00, 26.3kB/s]
Downloading [configuration.json]: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2.00/2.00 [00:00<00:00, 4.45B/s]
Downloading [generation_config.json]: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 242/242 [00:00<00:00, 464B/s]
Downloading [tokenizer_config.json]: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7.13k/7.13k [00:00<00:00, 11.4kB/s]

自动选择 vLLM 的条件

模型格式为 pytorch、gptq 或 awq。

当模型格式为 pytorch 时，量化选项需为 none。
当模型格式为 awq 时，量化选项需为 Int4。
当模型格式为 gptq 时，量化选项需为 Int3、Int4 或 Int8。

操作系统为 Linux，并且至少有一个支持 CUDA 的设备。

自定义模型的 model_family 字段和内置模型的 model_name 字段在 vLLM 的支持列表中。

本文为张军原创文章,转载无需和我联系,但请注明来自张军的军军小站,个人博客http://www.zhangjunbk.com

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义