跳到主要内容

免费干货 | 剑侠AI本地聊天整合包 · 开源模型适配显卡说明与下载！

发布于 2026-07-06 2 条评论

模型下载与说明：

本文章说明：将 .gguf 模型放入 Models 文件夹后，各模型对显卡的要求，

以及是否支持「上传图片识图」、是否倾向无审查版本。

【估算说明】

· 显存需求 ≈ 模型文件体积 + mmproj（如有，约 0.2～1.1 GB）

+ 上下文 KV 缓存（默认 4096 约 0.5～2 GB）

· 整合包默认全 GPU 卸载（-ngl 999），以下为 NVIDIA 独显参考

· 无独显时可 CPU 运行，速度较慢，不在此表重点列出

· 「无审查」依据模型文件名及社区惯例，非实测保证；instruct/it 多为对齐版

总览表参考：

模型	体积	多模态	无审查*	建议最低显卡	12 GB 参考
gemma-4-31b-jang-crack Q3_K_M	14.2 GB	❌ 纯文本	✅ 倾向无审查	16 GB（24 GB 更稳）	❌ 过大，需 CPU 混跑或换卡
Qwen3.6-35B Uncensored IQ2_M	10.9 GB	✅ 有 mmproj	✅	12 GB（16 GB 更稳）	✅ 接近满显存
Llama-3.1-8B Lexi Q8_0	8.0 GB	❌	✅	8 GB（12 GB 舒适）	✅
Lexi-Llama-3-8B Uncensored Q8_0	8.0 GB	✅ mmproj 0.6 GB	✅	10 GB	✅
gemma-4-12B-it QAT Q4_0	6.5 GB	✅ mmproj 0.2 GB	❌ 官方 instruct	8 GB	✅
Lexi-Llama-3-8B Uncensored Q6_K†	6.1 GB	✅ mmproj 0.6 GB	✅	8～10 GB	✅
Qwythos-9B Mythos Q4_K_M	5.5 GB	✅ mmproj 0.9 GB	⚠️ 角色扮演向，限制较少	8 GB（识图建议 12 GB）	✅
Llama-3.1-8B Lexi Q5_K_M	5.3 GB	❌	✅	6 GB	✅
Holo-3.1-9B Q4_K_M	5.2 GB	✅ mmproj 0.9 GB	⚠️ 常见为 RP/少限制	8 GB	✅
Qwen3.5-9B Uncensored Q4_K_M	5.2 GB	✅ mmproj 0.9 GB	✅	8 GB	✅
Qwen3VL-8B Uncensored Q4_K_M	4.7 GB	✅ 内置 VL + mmproj 1.1 GB	✅	8 GB	✅
Qwen3VL-8B Instruct Q4_K_M	4.7 GB	✅ mmproj 1.1 GB	❌ 官方 instruct	8 GB	✅
flux2-klein-4b uncensored Q6_K	3.1 GB	❌	✅ 文件名标注	4~6GB	✅

================================================================================

一、按显卡档位选模型（速查）

================================================================================

【最低可用】NVIDIA 6GB 显存

· 适合：8B 级 Q4/Q5 纯文本（如 Lexi 8B Q5）

· 建议上下文：2048～4096

· 不建议：30B 级、带识图的多模态大模型

【推荐入门】NVIDIA 8GB 显存

· 适合：8～9B Q4 纯文本；8B Q4 多模态（识图略紧，上下文建议 4096）

· 代表：Qwen3VL-8B Q4、Lexi 8B Q4/Q6、Holo 9B Q4

【推荐主流】NVIDIA 12GB 显存（如 RTX 3060 12G / 4070 / 3070 Ti ,5070等主流显卡）

· 适合：8～12B 全系；30～35B IQ2/IQ3 量化 + 识图

· 代表：Qwen3.6-35B IQ2_M + mmproj、Qwen3.5/3VL-8B Uncensored

· 上下文：4096 较稳；含图片长对话建议开「新对话」

【进阶】NVIDIA 16GB 显存

· 适合：31B Q3、35B 更高量化；更大上下文

· 代表：gemma-4-31B Q3_K_M

【高端】NVIDIA 24GB 及以上

· 适合：30B+ 高量化（Q4/Q5/Q8）、长上下文、多模态高负载

================================================================================

二、模型明细表（按体积从大到小）

================================================================================

图例：

· 识图：同目录是否有 mmproj 文件（整合包会自动配对）

· 无审查：文件名含 Uncensored/Lexi/jang-crack 等，或 RP 向少限制模型

────────────────────────────────────────────────────────────────────────────

1. gemma-4-31b-jang-crack · Q3_K_M · 约 14.2 GB

路径示例：Models\douyamv\Gemma-4-31B\

识图：否（纯文本）

无审查：是（jang-crack 修改版）

最低显卡：16 GB（24 GB 更稳）

12 GB ：不推荐（权重已超过 12 GB，需大量 CPU 混跑，极慢）

备注：31B 级大模型，内存建议 32 GB

2. Qwen3.6-35B-A3B Uncensored · IQ2_M · 约 10.9 GB

路径示例：Models\HauhauCS\Qwen3.6-35B\

识图：是（mmproj-f16，约 0.84 GB）

无审查：是（Uncensored + Aggressive）

最低显卡：12 GB

12 GB ：可用（显存占用高，接近满载属正常）

备注：整合包 12 GB 档主推大模型；默认上下文 4096

3. Llama-3.1-8B Lexi Uncensored · Q8_0 · 约 8.0 GB

路径示例：Models\bartowski\Lexi-Llama-3-V2\

识图：否

无审查：是

最低显卡：8 GB（12 GB 舒适）

备注：高质量量化，文本对话清晰

4. Lexi-Llama-3-8B Uncensored · Q8_0 · 约 8.0 GB

路径示例：Models\LexiProject\Lexi-Llama-3-8B-Q8\

识图：是（mmproj-F16，约 0.62 GB）

无审查：是

最低显卡：10 GB

12 GB ：推荐

5. gemma-4-12B-it · QAT Q4_0 · 约 6.5 GB

路径示例：Models\lmstudio-community\gemma-4\

识图：是（mmproj，约 0.16 GB）

无审查：否（-it 为官方 instruct 对齐版）

最低显卡：8 GB

12 GB ：推荐

6. Lexi-Llama-3-8B Uncensored · Q6_K · 约 6.1 GB

路径示例：Models\unsloth\InternVL3-8B\

识图：是（同目录 mmproj-F16；主模型与投影文件请确认是否原配）

无审查：是

最低显卡：8～10 GB

备注：目录名与主模型名不一致，识图效果建议自行实测

7. Qwythos-9B Claude Mythos · Q4_K_M · 约 5.5 GB

路径示例：Models\empero-ai\Qwythos-9B-Claude\

识图：是（mmproj，约 0.86 GB）

无审查：倾向少限制（Mythos 角色扮演向，文件名未标 Uncensored）

最低显卡：8 GB（识图建议 12 GB）

12 GB ：推荐

8. Llama-3.1-8B Lexi Uncensored · Q5_K_M · 约 5.3 GB

路径示例：Models\bartowski\Lexi-Llama-3-V2-Q5\

识图：否

无审查：是

最低显卡：6 GB

备注：6～8 GB 档轻量纯文本首选之一

9. Holo-3.1-9B · Q4_K_M · 约 5.2 GB

路径示例：Models\prithivMLmods\Holo-3.1-9B\

识图：是（mmproj，约 0.86 GB）

无审查：倾向少限制（Holo 系列常见 RP 用途）

最低显卡：8 GB

12 GB ：推荐

10. Qwen3.5-9B Uncensored · Q4_K_M · 约 5.2 GB

路径示例：Models\HauhauCS\Qwen3.5-9B\

识图：是（mmproj，约 0.86 GB）

无审查：是

最低显卡：8 GB

12 GB ：推荐

11. Qwen3VL-8B Uncensored · Q4_K_M · 约 4.7 GB

路径示例：Models\HauhauCS\Qwen3VL-8B\

识图：是（VL 模型 + mmproj，约 1.08 GB）

无审查：是

最低显卡：8 GB

12 GB ：强烈推荐（8B 识图 + 无审查，均衡之选）

12. Qwen3VL-8B Instruct · Q4_K_M · 约 4.7 GB

路径示例：Models\unsloth\Qwen3-VL-8B\

识图：是（mmproj，约 1.08 GB）

无审查：否（Instruct 对齐版）

最低显卡：8 GB

备注：需要更「守规矩」回复时可选

13. flux2-klein-4b uncensored · Q6_K · 约 3.1 GB

路径示例：Models\ponpoke\flux2-klein-4b\

识图：不适用

无审查：文件名标注 uncensored

【重要】此为图像生成（Flux）GGUF，可支持对话模型

================================================================================

三、多模态（识图）模型一览

================================================================================

以下模型在同目录带有 mmproj 文件，可在输入框「+」上传图片：

· Qwen3.6-35B Uncensored（HauhauCS）

· Qwen3.5-9B Uncensored（HauhauCS）

· Qwen3VL-8B Uncensored（HauhauCS）

· Qwen3VL-8B Instruct（unsloth）

· Lexi-Llama-3-8B Q8 / Q6（LexiProject、InternVL 目录）

· gemma-4-12B-it（lmstudio-community）

· Qwythos-9B Mythos（empero-ai）

· Holo-3.1-9B（prithivMLmods）

纯文本（无识图）：

· Llama-3.1-8B Lexi Q5 / Q8（bartowski，无 mmproj）

· gemma-4-31b-jang-crack Q3

多模态（识图）览表

模型	mmproj 文件
Qwen3.6-35B Uncensored	`mmproj-...-f16.gguf` (0.84 GB)
Qwen3.5-9B Uncensored	`mmproj-...-BF16.gguf` (0.86 GB)
Qwen3VL-8B Uncensored	`...-mmproj-f16.gguf` (1.08 GB)
Qwen3VL-8B Instruct	`mmproj-Qwen3VL-8B-Instruct-F16.gguf`
Lexi-Llama-3-8B Q8	`mmproj-F16.gguf` (0.62 GB)
Lexi-Llama-3-8B Q6（InternVL 目录）	同目录 `mmproj-F16.gguf`
gemma-4-12B-it	`mmproj-gemma-4-12B-it-QAT-BF16.gguf`
Qwythos-9B	`mmproj-Qwythos-9B-...`
Holo-3.1-9B	`Holo-3.1-9B.mmproj-f16.gguf`

================================================================================

四、无审查 / 对齐模型分类

================================================================================

【倾向无审查或少限制】

· HauhauCS … Uncensored … Aggressive（Qwen3.5 / 3.6 / 3VL）

· Lexi … Uncensored 全系列

· gemma-4-31b-jang-crack

· Holo-3.1-9B、Qwythos Mythos（RP 向，未在文件名标注 Uncensored）

【对齐 / 审查倾向（instruct）】

· gemma-4-12B-it

· Qwen3VL-8B-Instruct

· 模型回复风格还受温度、系统提示影响；请遵守当地法律与模型 License

================================================================================

五、12 GB 显存用户推荐组合（参考）

================================================================================

日常大模型对话：Qwen3.6-35B IQ2_M + mmproj

轻量快速 + 识图：Qwen3VL-8B Uncensored Q4_K_M

轻量纯文本：Llama-3.1-8B Lexi Q5_K_M

角色扮演 + 识图：Holo-3.1-9B 或 Qwythos-9B

参数建议：上下文 4096，最大输出 2048，温度 0.7

含图片长对话：及时「新对话」，避免历史图片占满上下文

按显卡档位怎么选览表

显卡	适合模型
6 GB	8B Q5/Q4 纯文本（Lexi Q5、小 VL 较勉强）
8 GB	8～9B Q4 文本；8B Q4 + 识图（上下文建议 2048～4096）
12 GB（你的 3070 Ti）	8～12B 全系；35B IQ2_M + 识图；31B Q3 不推荐（权重已超 12 GB）
16 GB	31B Q3、35B 更舒适；可略提高上下文
24 GB+	35B 更高量化、更大上下文