下面给你一份 从零开始即可落地的《Ring-1T 本地部署完整教程》,包含 Windows / Linux / Docker / 单卡 / 多卡 / 量化版 全覆盖,非常适合工程落地与企业私有化部署。
Ring-1T 本地部署完整教程(超详细)
本教程包含:
- 环境要求
- 下载模型
- Windows 部署(单 GPU / 多 GPU)
- Linux 部署(推荐生产环境)
- Docker 部署(最稳定)
- WebUI 部署(像 oobabooga 一样)
- API 服务部署(变成一个本地 ChatGPT)
- 量化版运行(3090/4090/5080 都能跑)
1. 环境要求
Python
Python 3.10 或 3.11
必装依赖
pip install torch --index-url https://download.pytorch.org/whl/cu121
pip install vllm transformers accelerate
GPU(根据模型选)
| 模型 | 显存要求 | 说明 |
|---|---|---|
| ring-1t-preview | 40GB+(A100 40G / 4090) | 推荐本地体验版 |
| 量化版(AWQ/GPTQ) | 16–24GB 即可运行 | 推荐 3090 / 4080 / 5080 |
| ring-1t full | 多机多卡 | 企业级部署 |
2. 下载模型(推荐 GitHub)
git clone https://github.com/AntGroup-Ling/Ring-1T.git
cd Ring-1T
git lfs install
git lfs pull
下载后模型会出现在:
Ring-1T/models/ring-1t-preview
你也可以从 HuggingFace 下载(更快),我可以给你提供链接。
3. Windows 本地部署(最详细步骤)
适用于 3090 / 4090 / 5080 等消费级显卡 推荐运行 AWQ 量化版,显存压力更低
✔步骤 ①:安装 CUDA 与 PyTorch
如果你的 GPU 支持 CUDA 12.1:
pip install torch --index-url https://download.pytorch.org/whl/cu121
✔步骤 ②:安装 vLLM(Ring-1T 官方推理框架)
Windows 目前需要使用预编译版本:
pip install vllm
如果安装失败,请告诉我,我给你适配 wheel 包。
步骤 ③:启动本地推理
新建 run.py:
from vllm import LLM, SamplingParams
llm = LLM("./Ring-1T/models/ring-1t-preview", trust_remote_code=True)
params = SamplingParams(temperature=0.2, max_tokens=256)
prompt = "解释人类为什么能看到彩虹?"
output = llm.generate([prompt], params)
print(output[0].outputs[0].text)
运行:
python run.py
你就能本地推理 Ring-1T 了。
4. Linux 本地部署(企业/服务器推荐)
依赖安装
apt update
apt install git-lfs -y
pip install torch --index-url https://download.pytorch.org/whl/cu121
pip install vllm transformers accelerate
启动推理
python run.py
即可使用。
5. Docker 部署(最稳定)
支持 GPU,请确保已安装:
nvidia-docker2
启动命令:
docker run --gpus all -it --rm \
-v /data/ring:/model \
vllm/vllm-openai:latest \
--model /model/ring-1t-preview
默认就会启动:
http://localhost:8000/v1/chat/completions
能直接当 OpenAI API 来用。
6. 部署 WebUI(像 oobabooga 一样)
可选方案:
方法 A:使用 Text Generation WebUI
- 克隆:
git clone https://github.com/oobabooga/text-generation-webui
cd text-generation-webui
- 放入模型:
models/ring-1t-preview/
- 启动:
python server.py --model ring-1t-preview
界面路径:
http://127.0.0.1:7860
方法 B:使用 LM Studio
更简单:
- 打开 LM Studio
- 搜索 Ring-1T preview
- 一键加载
- 本地聊天
7. 部署 API 服务(让它像 ChatGPT 一样)
vLLM 自带 OpenAI API Server:
python -m vllm.entrypoints.openai.api_server \
--model Ring-1T/models/ring-1t-preview \
--max-model-len 128000
你将获得:
🔗 Chat Completions API
POST /v1/chat/completions
示例调用
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "ring-1t-preview",
"messages": [{"role":"user","content":"你好"}]
}'
你现在拥有一个本地的 “私有 ChatGPT”。
8. 3090/4090/5080 运行(量化版)
如果显存不足,使用:
- AWQ 量化版(推荐)
- GPTQ 量化版
- INT4 / INT3
只需:
pip install autoawq
运行方式:
awq = AutoAWQForCausalLM.from_pretrained("ring-1t-preview", ...)
如果你需要,我可以给你 Ring-1T 的专用量化版下载链接 + 适配脚本。

