手工打造一款 Word Copilot 应用，自己动手 DIY！（三）

大圣Copilot 于 2024-03-03 20:25 发布

分类专栏：

文章标签：

手工打造一款 Word Copilot 应用，自己动手 DIY！（三）

想要节省每月 20 美金的 Copilot Pro 费用吗？通过自己动手 DIY 一个 Word Copilot，你可以节省高达 240 美金！本篇笔记将教你如何利用 Obsidian 和核心插件打造属于自己的 Word Copilot 应用，让你的文字处理更高效、更智能！

本内容将分成 3 篇笔记呈现

1、安装 word copilot 所需的插件，并设置好 APIkey

2、日常使用场景：如何使用 word copilot 进行内容创作

3、如何接入本地大语言模型，实现无限续杯

接下来开始的是“如何接入本地大语言模型，实现无限续杯！”的笔记内容。

一、为什么需要接入本地大语言模型

一般有以下几个原因：

1、无法正常访问 chatgpt，在某些国家或者地区受到限制

由于某些原因，导致某些国家或地区无法正常访问，需要通过魔法才能正常访问。

2、申请 openaikey 需要国外手机号绑定，以及开通 plus 会员支付问题限制

即使第一条你解决了，成功申请了 chatgpt 帐号，但是要申请 openaikey 用于接入第三方应用，比如浏览器插件或者是 obsidian 之中，也需要绑定手机号码，否则无法申请。同时，如果需要开通 plus 会员还需要使用国外卡支付，也是个问题。

3、处于对数据安全的考虑，个人或者企业隐私信息不便发送到网络上面

例如，有些企业或者个人创作者，对自己隐私数据的信息安全很在乎，不想发送到网络平台，以免有泄漏的风险。在这种情况，就需要本地大语言模型来完成执行任务。

4、在一些使用场景之下可以大幅降低使用成本

首先，目前已经有一些开源的 7B 模型可以完全胜任日常的任务。

其次，在某些应用场景，例如需要 AI 自动补全文本，或者是自动给出多条建议辅助写作等等。在这些使用状况之下，会频繁请求 API，容易遭到 openai 的限速或者限制使用。只能升级为企业用，付高额费用才能不限速和使用频率。

总之，接入本地大语言模型有其特殊的应用场景，也可以在一定程度上给用户带来降本增效的好处。当然，也是需要一些硬件要求的，请接下来继续观看。

二、什么样的硬件既可以本地跑大语言模型

入门配置

显卡：英伟达 NVIDIA 的显卡， 6G 显存。10 系或同规格专业显卡及以上。

内存：12G 内存及以上。

CPU：英特尔 intel 四核八线程，4 代酷睿及以上。

硬盘：固态 SSD 256G 及以上，M.2 固态加载模型会更快。

这个配置，模型需要改用 Q4_K_M 量化模型，内容生成的速度也还是不错。

如果你使用的是 amd 或者 intel 的显卡，则在推理加速方面的速度为痛理论性能 N 卡的 30% 的水平及以下。

三、适合小白的模型及软件

1、简单好用的 LM Studio

本地运行大语言模型软件有好几款，经过本人使用体验下来，还是认为 LM Studio 更好用，能适配更多软件和应用。

下载官方地址如下，请根据自己的电脑环境选择对应版本。

https://lmstudio.ai/

手工打造一款 Word Copilot 应用，自己动手 DIY！（三）--1、简单好用的 LM Studio

2、好用的模型

在这里给大家推荐一款好用的模型 openbuddy-zephyr-7b-v14.1 ，它是一个混合模型。其基础模型是 zephyr-7b，这个模型是由 huggingface 的 H4 团队研发的开源模型，并由国内开发人员 OpenBuddy 对模型中文化微调而成。实际使用效果还是不错。

huggingface 官方下载链接地址：

https://huggingface.co/TheBloke/openbuddy-zephyr-7B-v14.1-GGUF/tree/main

手工打造一款 Word Copilot 应用，自己动手 DIY！（三）--2、好用的模型

请根据前面的配置推荐，下载两个版本之一即可。Q5_K_M 量化模型是损失最小，最为推荐的。模型体积更大的 Q8_0 对硬件要求最高，输出内容的质量提升不是很明显。

四、使用 LM Studio 启用本地推理服务

1、存放模型的路径

安装好后，最好最如下操作，按照步骤 1~2 如下图，修改模型存放路径，默认是保存在 C 盘，容易造成存储空间不足，建议修改到其它空余硬盘上。

手工打造一款 Word Copilot 应用，自己动手 DIY！（三）--1、存放模型的路径

修改好后，将下载的模型存放到 TheBloke 文件夹下的 gguf 文件夹，如下图。

手工打造一款 Word Copilot 应用，自己动手 DIY！（三）--1、存放模型的路径

2、启用本地推理服务

按照下图 1~6 步骤一次点击操作或修改，即可完成设置。

手工打造一款 Word Copilot 应用，自己动手 DIY！（三）--2、启用本地推理服务

步骤 1：切换至本地推理服务

步骤 2：切换模型，选择之前存放模型

步骤 3：切换预设为 Chatml，这个生成的内容质量最好

步骤 4：设置显卡加速

首先，切换显卡类型为英伟达 Nvidia cuda，一般会自动检测，如果不是鼠标右键在弹出菜单中选择切换。

然后，在 max 位置可以手动输入数值，一般输入 32 即可，或者是点击下方“Max”按钮自动填入。一般，8g 显存使用 7b 的 Q5_K_M 的量化模型能够设置 32，速度最大化。如果你的显存 12g 可以尝试设置 48 或者 64，此时每秒生成的字节数是 50 个，已经是最块速度，设置再高也不会有提升。

手工打造一款 Word Copilot 应用，自己动手 DIY！（三）--步骤 4：设置显卡加速