Obsidian 插件:Text Dataset Aid Plugin
插件名片
概述
这个 Obsidian 插件有助于为语言模型创建微调数据集。
原文出处
下面自述文件的来源于 Readme
Readme(翻译)
下面是 obsidian-dataset-aid 插件的自述翻译
个性化你的第二大脑小伙伴(文本生成模型)
使用一个 txt 文件来存储你的数据集。很快将添加将 txt 导出为 jsonl 文件的功能。
上下文
条件:完全工作
NLP 和文本生成数据集的创建具有极大的影响力,并有潜力使研究人员能够训练能够自动生成文本的模型。然而,创建自定义数据集是一个繁琐而缓慢的过程。
文本数据集辅助工具是一个有用的工具,可以通过手动辅助创建用于文本生成模型(如 GPT-3)的微调数据集!这可以使经过微调的模型生成的文本更加个性化、详细或格式更好。不再通过热键配置处理菜单!
该插件可用于快速生成 NLP 和文本生成模型的训练数据。这将加快这些领域的研究进展,并使从业者更容易训练这些模型。
文本数据集辅助插件是一个有用的工具,可以通过手动辅助创建用于文本生成模型(如 GPT-3)的微调数据集。这可以使经过微调的模型生成的文本更加个性化、详细或格式更好。不再通过热键配置处理菜单!
在你的第二大脑中的上下文中
在你的第二大脑中工作时,更新你自己的文本生成模型以适应你收集的数据集,可以使你的模型更好地满足你的第二大脑的需求。由于 obsidian 中的命令的性质,这个插件适用于任何创作或编辑工作流程。希望你像我一样经常使用这个插件!
微调的优势
微调文本生成模型可以创建更自然和表达力更强的文本。
- 提高文本预测/生成的准确性
- 提高文本生成的流畅性和连贯性
- 对生成文本的风格和内容具有更大的控制权
- 对模型产生的输出类型具有更多的控制权
- 对模型可以接受的输入类型具有更大的灵活性
- 能够产生更接近人类的输出
- 提高对某些类型输出的预测准确性
微软提供了一个关于微调原则的优秀资源,链接为 microsoft。
用法
该插件的核心功能通过使用 vim 模式变得更加简单,但在任何情况下都应该可以工作。
目前提供了两个命令:(每个命令都可以通过热键进行配置)
当您将提示发送到数据集时,如果已经存在一个提示,插件将不执行任何操作。
当您将完成发送到数据集并且已经存在一个提示时,文本选择将作为该提示的完成发送到数据集。
开放式生成支持
当您将完成的内容发送到数据集时,如果没有提示,文本选择将插入到数据集中,并在文本选择之前添加一个空的提示。
一个例子:
{"prompt":"", "completion":"你好,我能帮你什么忙吗?"}
另一个例子:
{"prompt":"", "completion":"嗨,今天我能帮你什么吗?"}
将选择发送到数据集文件作为提示
将选择发送到数据集文件作为完成内容
微调数据集的示例:
{"prompt":"公司:BHFF保险\n产品:全方位保险\n广告:满足您所有的保险需求!\n支持:", "completion":"是的"}
{"prompt":"公司:阁楼改建专家\n产品:-\n广告:几周内拥有整齐的牙齿!\n支持:", "completion":"不"}
安装
在 Obsidian 的社区插件页面安装插件
- 打开设置 > 第三方插件
- 确保安全模式为关闭
- 点击浏览社区插件
- 搜索 “Dataset Finetuning Aid Plugin”
- 点击安装
- 安装完成后,关闭社区插件窗口并激活新安装的插件
从 GitHub 手动安装
- 从 GitHub 存储库的“Releases”部分下载最新版本(如果找不到,请在查看此页面时应该在右侧)
- 将插件文件夹从 zip 文件中提取到您的 vault 的插件文件夹中:
<vault>/.obsidian/plugins/
注意:在某些机器上,.obsidian
文件夹可能是隐藏的。在 MacOS 上,您应该能够按Command+Shift+Dot
来在 Finder 中显示该文件夹。 - 重新加载 Obsidian
设置
在插件的设置面板中,有四个主要的设置可以进行配置,但默认值是为文本生成模型的数据集常用的格式 jsonl 进行设置的。
设置名称 | 描述 | 默认值 |
---|---|---|
前缀 for Prompts | 当发送到数据集时,这是添加到提示前面的字符串 | {"prompt": |
后缀 for Prompts | 当发送到数据集时,这是添加到提示后面的字符串 | , |
前缀 for Completion | 当发送到数据集时,这是添加到完成文本前面的字符串 | "completion": |
后缀 for Completion | 当发送到数据集时,这是添加到完成文本后面的字符串 | }\n |
灵感
受到优化自己的语言模型的效率和吸引力的启发,该插件允许您从笔记中构建数据集,以提示和响应的形式。自动将文本格式化为适用于 GPT3 等模型的 OpenAI 的规范。
该插件与 TfTHacker 制作的 textTransporter 插件相似。
由 Conner Ohnesorge 用❤️制作
反馈交流
其他渠道
版权声明
版权声明:所有 PKMer 文章如果需要转载,请附上原文出处链接。