业务介绍
Xinference 是一个开源的大模型部署和管理工具,主要用于简化各种开源大语言模型(LLM)、多模态模型的本地化部署、调用和管理流程。它的核心目标是让用户能够更便捷地在本地或私有环境中运行和使用各类预训练模型,而无需依赖外部 API 服务。
主要特点:
多模型支持:兼容多种主流开源模型,包括 LLaMA 系列、ChatGLM、Mistral、Qwen(通义千问)、Stable Diffusion 等,覆盖文本生成、图像生成等多模态任务。
灵活部署:支持不同硬件环境(CPU、GPU),并能根据硬件配置自动适配模型参数(如量化精度),降低部署门槛。
统一接口:提供标准化的 API(兼容 OpenAI 格式),方便用户通过统一的方式调用不同模型,简化代码迁移和集成。
分布式能力:支持模型的分布式部署,可利用多设备资源提升大模型的运行效率。
轻量易用:通过命令行或 API 即可快速启动和管理模型,无需复杂的配置,适合开发者快速上手。
适用场景:
本地开发和测试开源大模型
搭建私有大模型服务,保障数据隐私
快速对比不同模型的性能和效果
集成到应用中实现本地化的 AI 功能
如果需要在本地部署和管理开源大模型,Xinference 是一个高效的工具选择,尤其适合对隐私性、自定义部署有需求的场景。
启动应用
C:\Users\Administrator>xinference-local2025-03-10 00:22:00,214 xinference.core.supervisor 56180 INFO Xinference supervisor 127.0.0.1:61734 started 2025-03-10 00:22:00,233 xinference.core.worker 56180 INFO Starting metrics export server at 127.0.0.1:None 2025-03-10 00:22:00,235 xinference.core.worker 56180 INFO Checking metrics export server... 2025-03-10 00:22:07,762 xinference.core.worker 56180 INFO Metrics server is started at: http://127.0.0.1:39629 2025-03-10 00:22:07,762 xinference.core.worker 56180 INFO Purge cache directory: C:\Users\Administrator\.xinference\cache 2025-03-10 00:22:07,763 xinference.core.worker 56180 INFO Connected to supervisor as a fresh worker 2025-03-10 00:22:07,772 xinference.core.worker 56180 INFO Xinference worker 127.0.0.1:61734 started 2025-03-10 00:22:13,085 xinference.api.restful_api 34544 INFO Starting Xinference at endpoint: http://127.0.0.1:9997 2025-03-10 00:22:13,181 uvicorn.error 34544 INFO Uvicorn running on http://127.0.0.1:9997 (Press CTRL+C to quit)
以下是 Windows 系统修改 Xinference 下载路径的具体方法
一、通过环境变量修改 临时设置(单次生效) 在启动 Xinference 服务前,使用命令提示符执行以下命令(替换目标路径): bashCopy Code set XINFERENCE_HOME=D:\your_custom_path xinference-local --host 0.0.0.0 --port 9997 此方式仅对当前会话生效25。 永久设置(全局生效) 右键点击“此电脑” → 选择“属性” → 进入“高级系统设置” → 点击“环境变量” 在“系统变量”中新建变量: textCopy Code 变量名:XINFERENCE_HOME 变量值:D:\your_custom_path 重启命令行工具后启动服务即可生效24。 二、通过符号链接重定向 若需保留默认路径但实际存储到其他位置: 在目标盘(如 D 盘)创建自定义文件夹(如 D:\xinference_cache) 以管理员权限打开命令提示符,执行: bashCopy Code mklink /j "C:\Users\用户名\.xinference\cache" "D:\xinference_cache" 此方法通过软链接将默认路径映射到自定义目录,避免修改环境变量。 注意事项 确保目标路径存在且具有读写权限23 修改环境变量后需重启命令行工具或系统才能生效4 若同时存在 XINFERENCE_HOME 和 XINFERENCE_CACHE_DIR 变量,优先采用 XINFERENCE_HOME 的配置12 启动服务时需使用 xinference-local 命令而非直接运行脚本
下载模型
Downloading Model to directory: C:\Users\Administrator\.cache\modelscope\hub\models\qwen\Qwen2.5-1.5B-Instruct 2025-03-10 00:43:53,527 - modelscope - INFO - Got 10 files, start to download ... Downloading [config.json]: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 660/660 [00:00<00:00, 1.95kB/s] Downloading [README.md]: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4.80k/4.80k [00:00<00:00, 14.0kB/s] Downloading [LICENSE]: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11.1k/11.1k [00:00<00:00, 26.3kB/s] Downloading [configuration.json]: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2.00/2.00 [00:00<00:00, 4.45B/s] Downloading [generation_config.json]: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 242/242 [00:00<00:00, 464B/s] Downloading [tokenizer_config.json]: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7.13k/7.13k [00:00<00:00, 11.4kB/s]
自动选择 vLLM 的条件
模型格式为 pytorch、gptq 或 awq。
当模型格式为
pytorch时,量化选项需为none。当模型格式为
awq时,量化选项需为Int4。当模型格式为
gptq时,量化选项需为Int3、Int4或Int8。
操作系统为 Linux,并且至少有一个支持 CUDA 的设备。
自定义模型的 model_family 字段和内置模型的 model_name 字段在 vLLM 的支持列表中。
本文为张军原创文章,转载无需和我联系,但请注明来自张军的军军小站,个人博客http://www.zhangjunbk.com

