免费干货 | 剑侠AI本地聊天整合包 · 开源模型适配显卡说明与下载!
模型下载与说明:
本文章说明:将 .gguf 模型放入 Models 文件夹后,各模型对显卡的要求,
以及是否支持「上传图片识图」、是否倾向无审查版本。
【估算说明】
· 显存需求 ≈ 模型文件体积 + mmproj(如有,约 0.2~1.1 GB)
+ 上下文 KV 缓存(默认 4096 约 0.5~2 GB)
· 整合包默认全 GPU 卸载(-ngl 999),以下为 NVIDIA 独显参考
· 无独显时可 CPU 运行,速度较慢,不在此表重点列出
· 「无审查」依据模型文件名及社区惯例,非实测保证;instruct/it 多为对齐版
总览表参考:
| 模型 | 体积 | 多模态 | 无审查* | 建议最低显卡 | 12 GB 参考 |
|---|---|---|---|---|---|
gemma-4-31b-jang-crack Q3_K_M | 14.2 GB | ❌ 纯文本 | ✅ 倾向无审查 | 16 GB(24 GB 更稳) | ❌ 过大,需 CPU 混跑或换卡 |
Qwen3.6-35B Uncensored IQ2_M | 10.9 GB | ✅ 有 mmproj | ✅ | 12 GB(16 GB 更稳) | ✅ 接近满显存 |
Llama-3.1-8B Lexi Q8_0 | 8.0 GB | ❌ | ✅ | 8 GB(12 GB 舒适) | ✅ |
Lexi-Llama-3-8B Uncensored Q8_0 | 8.0 GB | ✅ mmproj 0.6 GB | ✅ | 10 GB | ✅ |
gemma-4-12B-it QAT Q4_0 | 6.5 GB | ✅ mmproj 0.2 GB | ❌ 官方 instruct | 8 GB | ✅ |
Lexi-Llama-3-8B Uncensored Q6_K† | 6.1 GB | ✅ mmproj 0.6 GB | ✅ | 8~10 GB | ✅ |
Qwythos-9B Mythos Q4_K_M | 5.5 GB | ✅ mmproj 0.9 GB | ⚠️ 角色扮演向,限制较少 | 8 GB(识图建议 12 GB) | ✅ |
Llama-3.1-8B Lexi Q5_K_M | 5.3 GB | ❌ | ✅ | 6 GB | ✅ |
Holo-3.1-9B Q4_K_M | 5.2 GB | ✅ mmproj 0.9 GB | ⚠️ 常见为 RP/少限制 | 8 GB | ✅ |
Qwen3.5-9B Uncensored Q4_K_M | 5.2 GB | ✅ mmproj 0.9 GB | ✅ | 8 GB | ✅ |
Qwen3VL-8B Uncensored Q4_K_M | 4.7 GB | ✅ 内置 VL + mmproj 1.1 GB | ✅ | 8 GB | ✅ |
Qwen3VL-8B Instruct Q4_K_M | 4.7 GB | ✅ mmproj 1.1 GB | ❌ 官方 instruct | 8 GB | ✅ |
flux2-klein-4b uncensored Q6_K | 3.1 GB | ❌ | ✅ 文件名标注 | 4~6GB | ✅ |
================================================================================
一、按显卡档位选模型(速查)
================================================================================
【最低可用】NVIDIA 6GB 显存
· 适合:8B 级 Q4/Q5 纯文本(如 Lexi 8B Q5)
· 建议上下文:2048~4096
· 不建议:30B 级、带识图的多模态大模型
【推荐入门】NVIDIA 8GB 显存
· 适合:8~9B Q4 纯文本;8B Q4 多模态(识图略紧,上下文建议 4096)
· 代表:Qwen3VL-8B Q4、Lexi 8B Q4/Q6、Holo 9B Q4
【推荐主流】NVIDIA 12GB 显存(如 RTX 3060 12G / 4070 / 3070 Ti ,5070等主流显卡)
· 适合:8~12B 全系;30~35B IQ2/IQ3 量化 + 识图
· 代表:Qwen3.6-35B IQ2_M + mmproj、Qwen3.5/3VL-8B Uncensored
· 上下文:4096 较稳;含图片长对话建议开「新对话」
【进阶】NVIDIA 16GB 显存
· 适合:31B Q3、35B 更高量化;更大上下文
· 代表:gemma-4-31B Q3_K_M
【高端】NVIDIA 24GB 及以上
· 适合:30B+ 高量化(Q4/Q5/Q8)、长上下文、多模态高负载
================================================================================
二、模型明细表(按体积从大到小)
================================================================================
图例:
· 识图:同目录是否有 mmproj 文件(整合包会自动配对)
· 无审查:文件名含 Uncensored/Lexi/jang-crack 等,或 RP 向少限制模型
────────────────────────────────────────────────────────────────────────────
1. gemma-4-31b-jang-crack · Q3_K_M · 约 14.2 GB
────────────────────────────────────────────────────────────────────────────
路径示例:Models\douyamv\Gemma-4-31B\
识图:否(纯文本)
无审查:是(jang-crack 修改版)
最低显卡:16 GB(24 GB 更稳)
12 GB :不推荐(权重已超过 12 GB,需大量 CPU 混跑,极慢)
备注:31B 级大模型,内存建议 32 GB
────────────────────────────────────────────────────────────────────────────
2. Qwen3.6-35B-A3B Uncensored · IQ2_M · 约 10.9 GB
────────────────────────────────────────────────────────────────────────────
路径示例:Models\HauhauCS\Qwen3.6-35B\
识图:是(mmproj-f16,约 0.84 GB)
无审查:是(Uncensored + Aggressive)
最低显卡:12 GB
12 GB :可用(显存占用高,接近满载属正常)
备注:整合包 12 GB 档主推大模型;默认上下文 4096
────────────────────────────────────────────────────────────────────────────
3. Llama-3.1-8B Lexi Uncensored · Q8_0 · 约 8.0 GB
────────────────────────────────────────────────────────────────────────────
路径示例:Models\bartowski\Lexi-Llama-3-V2\
识图:否
无审查:是
最低显卡:8 GB(12 GB 舒适)
备注:高质量量化,文本对话清晰
────────────────────────────────────────────────────────────────────────────
4. Lexi-Llama-3-8B Uncensored · Q8_0 · 约 8.0 GB
────────────────────────────────────────────────────────────────────────────
路径示例:Models\LexiProject\Lexi-Llama-3-8B-Q8\
识图:是(mmproj-F16,约 0.62 GB)
无审查:是
最低显卡:10 GB
12 GB :推荐
────────────────────────────────────────────────────────────────────────────
5. gemma-4-12B-it · QAT Q4_0 · 约 6.5 GB
────────────────────────────────────────────────────────────────────────────
路径示例:Models\lmstudio-community\gemma-4\
识图:是(mmproj,约 0.16 GB)
无审查:否(-it 为官方 instruct 对齐版)
最低显卡:8 GB
12 GB :推荐
────────────────────────────────────────────────────────────────────────────
6. Lexi-Llama-3-8B Uncensored · Q6_K · 约 6.1 GB
────────────────────────────────────────────────────────────────────────────
路径示例:Models\unsloth\InternVL3-8B\
识图:是(同目录 mmproj-F16;主模型与投影文件请确认是否原配)
无审查:是
最低显卡:8~10 GB
备注:目录名与主模型名不一致,识图效果建议自行实测
────────────────────────────────────────────────────────────────────────────
7. Qwythos-9B Claude Mythos · Q4_K_M · 约 5.5 GB
────────────────────────────────────────────────────────────────────────────
路径示例:Models\empero-ai\Qwythos-9B-Claude\
识图:是(mmproj,约 0.86 GB)
无审查:倾向少限制(Mythos 角色扮演向,文件名未标 Uncensored)
最低显卡:8 GB(识图建议 12 GB)
12 GB :推荐
────────────────────────────────────────────────────────────────────────────
8. Llama-3.1-8B Lexi Uncensored · Q5_K_M · 约 5.3 GB
────────────────────────────────────────────────────────────────────────────
路径示例:Models\bartowski\Lexi-Llama-3-V2-Q5\
识图:否
无审查:是
最低显卡:6 GB
备注:6~8 GB 档轻量纯文本首选之一
────────────────────────────────────────────────────────────────────────────
9. Holo-3.1-9B · Q4_K_M · 约 5.2 GB
────────────────────────────────────────────────────────────────────────────
路径示例:Models\prithivMLmods\Holo-3.1-9B\
识图:是(mmproj,约 0.86 GB)
无审查:倾向少限制(Holo 系列常见 RP 用途)
最低显卡:8 GB
12 GB :推荐
────────────────────────────────────────────────────────────────────────────
10. Qwen3.5-9B Uncensored · Q4_K_M · 约 5.2 GB
────────────────────────────────────────────────────────────────────────────
路径示例:Models\HauhauCS\Qwen3.5-9B\
识图:是(mmproj,约 0.86 GB)
无审查:是
最低显卡:8 GB
12 GB :推荐
────────────────────────────────────────────────────────────────────────────
11. Qwen3VL-8B Uncensored · Q4_K_M · 约 4.7 GB
────────────────────────────────────────────────────────────────────────────
路径示例:Models\HauhauCS\Qwen3VL-8B\
识图:是(VL 模型 + mmproj,约 1.08 GB)
无审查:是
最低显卡:8 GB
12 GB :强烈推荐(8B 识图 + 无审查,均衡之选)
────────────────────────────────────────────────────────────────────────────
12. Qwen3VL-8B Instruct · Q4_K_M · 约 4.7 GB
────────────────────────────────────────────────────────────────────────────
路径示例:Models\unsloth\Qwen3-VL-8B\
识图:是(mmproj,约 1.08 GB)
无审查:否(Instruct 对齐版)
最低显卡:8 GB
备注:需要更「守规矩」回复时可选
────────────────────────────────────────────────────────────────────────────
13. flux2-klein-4b uncensored · Q6_K · 约 3.1 GB
────────────────────────────────────────────────────────────────────────────
路径示例:Models\ponpoke\flux2-klein-4b\
识图:不适用
无审查:文件名标注 uncensored
【重要】此为图像生成(Flux)GGUF,可支持对话模型
================================================================================
三、多模态(识图)模型一览
================================================================================
以下模型在同目录带有 mmproj 文件,可在输入框「+」上传图片:
· Qwen3.6-35B Uncensored(HauhauCS)
· Qwen3.5-9B Uncensored(HauhauCS)
· Qwen3VL-8B Uncensored(HauhauCS)
· Qwen3VL-8B Instruct(unsloth)
· Lexi-Llama-3-8B Q8 / Q6(LexiProject、InternVL 目录)
· gemma-4-12B-it(lmstudio-community)
· Qwythos-9B Mythos(empero-ai)
· Holo-3.1-9B(prithivMLmods)
纯文本(无识图):
· Llama-3.1-8B Lexi Q5 / Q8(bartowski,无 mmproj)
· gemma-4-31b-jang-crack Q3
多模态(识图)览表
| 模型 | mmproj 文件 |
|---|---|
Qwen3.6-35B Uncensored |
|
Qwen3.5-9B Uncensored |
|
Qwen3VL-8B Uncensored |
|
Qwen3VL-8B Instruct |
|
Lexi-Llama-3-8B Q8 |
|
Lexi-Llama-3-8B Q6(InternVL 目录) | 同目录 |
gemma-4-12B-it |
|
Qwythos-9B |
|
Holo-3.1-9B |
|
================================================================================
四、无审查 / 对齐模型分类
================================================================================
【倾向无审查或少限制】
· HauhauCS … Uncensored … Aggressive(Qwen3.5 / 3.6 / 3VL)
· Lexi … Uncensored 全系列
· gemma-4-31b-jang-crack
· Holo-3.1-9B、Qwythos Mythos(RP 向,未在文件名标注 Uncensored)
【对齐 / 审查倾向(instruct)】
· gemma-4-12B-it
· Qwen3VL-8B-Instruct
· 模型回复风格还受温度、系统提示影响;请遵守当地法律与模型 License
================================================================================
五、12 GB 显存用户推荐组合(参考)
================================================================================
日常大模型对话:Qwen3.6-35B IQ2_M + mmproj
轻量快速 + 识图:Qwen3VL-8B Uncensored Q4_K_M
轻量纯文本:Llama-3.1-8B Lexi Q5_K_M
角色扮演 + 识图:Holo-3.1-9B 或 Qwythos-9B
参数建议:上下文 4096,最大输出 2048,温度 0.7
含图片长对话:及时「新对话」,避免历史图片占满上下文
按显卡档位怎么选览表
| 显卡 | 适合模型 |
|---|---|
6 GB | 8B Q5/Q4 纯文本(Lexi Q5、小 VL 较勉强) |
8 GB | 8~9B Q4 文本;8B Q4 + 识图(上下文建议 2048~4096) |
12 GB(你的 3070 Ti) | 8~12B 全系;35B IQ2_M + 识图;31B Q3 不推荐(权重已超 12 GB) |
16 GB | 31B Q3、35B 更舒适;可略提高上下文 |
24 GB+ | 35B 更高量化、更大上下文 |
================================================================================
整合包作者:剑侠君 | 作者官网:https://jianxiaym.com
整合包下载:https://www.jianxiaym.com/post/76.html
================================================================================
其他大模型可自行(github/Hugging Face)搜索下载
Hugging Face:https://huggingface.co/
github:https://github.com/
这里只提供上文所描述的13个模型,总模型大小一共94GB,可按需下载,放到剑侠AI整合包(Models)目录下即可!






评论列表(有 2 条评论)
还没有评论,来说两句吧…
当前仅登录用户可评论,请先登录。
当前仅登录用户可评论,请先登录。