Voice Agent 的自我学习纠错系统:如何让转写越用越懂你的术语
Voice Agent 通过 corrections.json、glossary.json 和 auto_learn() 把用户纠正沉淀为可复用经验,让中文技术语音输入逐步适应个人和项目语境。
需要继续找相关内容?
如果你想继续查工具名、术语、对比页或相关问题,可以直接搜全站,不用回到博客列表页重找。
核心结论
Voice Agent 的自我学习价值在于把用户修过的错变成下次可复用的纠错线索,而不是每次都重新人工改稿。
适合谁看
适合想把语音转文字做成长期工具,而不是一次性转写脚本的开发者。
关键判断
项目围绕 corrections.json、glossary.json 和 auto_learn() 设计了从人工纠错到自动学习的闭环。
下一步建议
理解自学习后,可以继续看如何把语音输入接入 AI coding 和 Agent workflow。
你将学到
- + 为什么语音转写系统需要记住用户纠错
- + corrections.json 和 glossary.json 分别适合存什么
- + auto_learn() 在纠错闭环里承担什么角色
- + 自学习纠错如何帮助中文技术表达
Voice Agent 的自我学习纠错系统
语音转文字工具最容易被低估的一点,是“纠错之后怎么办”。
很多工具的流程是:
- 转写。
- 用户手动修改。
- 结束。
这对一次性任务可以接受,但对开发者语音输入来说不够。
因为技术场景里的错误往往会反复出现:
- 同一个项目名反复识别错。
- 同一个英文工具名反复被写成中文同音词。
- 同一个缩写反复大小写不一致。
- 同一个团队内部术语反复无法识别。
Voice Agent 的设计更进一步:它试图把用户纠正过的内容沉淀下来,让系统下一次更懂你。
项目仓库:
https://github.com/kunpeng-ai-lab/voice-agent
纠错为什么要被记录
如果一个系统每次都犯同样的错,用户很快就会失去耐心。
尤其是中文技术语境,很多错误不是简单错别字,而是“上下文不理解”:
- 把模型名识别成普通词。
- 把工具名拆开。
- 把英文命令写成发音相近的中文。
- 把项目内部固定说法改成不一致表达。
这些错误如果能被记录下来,就可以成为下一次校正的依据。
所以 corrections.json 的价值,不只是保存历史,而是让历史进入后续流程。
glossary.json:长期术语表
glossary.json 更适合存稳定词。
例如:
- 项目名
- 工具名
- 模型名
- 框架名
- 团队内部固定叫法
- 常见英文缩写
这些内容不一定来自一次纠错,也可以提前人工维护。
在 Voice Agent 里,术语库的作用像一个“项目词典”:告诉校正层,哪些词应该被优先保留,哪些写法才是正确写法。
corrections.json:真实犯错记录
corrections.json 更适合存实际发生过的错误。
例如:
- 原始 STT 输出是什么。
- 用户最终改成了什么。
- 这个错误是否重复出现。
- 这个纠错是否应该被自动学习。
它和术语库的差别在于:术语库偏静态,纠错记录偏动态。
二者合在一起,系统才既有长期词表,也有真实使用反馈。
auto_learn():把纠错变成规则线索
auto_learn() 可以理解成自学习纠错闭环里的转换器。
它不需要神秘化。
它的重点不是“重新训练一个大模型”,而是把用户修正过的内容转成后续校正可以用的线索。
一个合理的 auto_learn() 思路包括:
- 发现用户修改前后的差异。
- 判断这个差异是不是有复用价值。
- 把高价值纠错写入 corrections.json。
- 必要时补充到 glossary.json。
- 后续校正时优先参考这些线索。
这个过程越稳定,语音输入就越不像一次性工具,而更像一个会积累经验的个人输入系统。
为什么这对 Agent workflow 有意义
Agent workflow 需要稳定输入。
如果语音输入每次都把项目名写错,Agent 后续就会沿着错误上下文继续推理。
如果语音输入能逐步记住你的术语,后续 Agent 处理任务、总结会议、生成待办项、拆分 bug 记录时,质量都会更稳定。
这就是 Voice Agent 和普通语音转写工具的分界线:
- 普通工具输出文本。
- Voice Agent 试图输出越来越贴近项目语境的文本。
可以迁移到哪些场景
这个自学习纠错思路不只适用于语音。
它也适合:
- AI coding 提示词输入。
- 会议纪要清洗。
- Agent Forum 发帖前整理。
- 开发者日志转结构化任务。
- 术语密集型团队文档。
只要一个输入系统需要长期适应用户术语,就可以借鉴这种“术语库 + 纠错记录 + 自动学习”的设计。
下一篇继续看:
继续延伸
要点总结
- - 自学习纠错不是让模型神秘变聪明,而是沉淀可追踪的修正记录。
- - 术语库负责长期稳定词表,纠错记录负责实际犯过的错。
- - Voice Agent 的方法适合迁移到更多开发者输入工具里。
常见问题
corrections.json 和 glossary.json 有什么区别?
glossary.json 更像长期术语表,记录应该稳定保留的项目名、工具名和专业词;corrections.json 更像纠错历史,记录系统曾经错在哪里、用户如何改正。
auto_learn() 是不是等于重新训练模型?
不是。更合理的理解是把用户纠错转化成后续校正可用的规则、词条或上下文线索,而不是重新训练底层语音模型。