(最后更新: 2026-04-16T10:40:00+08:00) 项目实战

Voice Agent 的自我学习纠错系统:如何让转写越用越懂你的术语

Voice Agent 通过 corrections.json、glossary.json 和 auto_learn() 把用户纠正沉淀为可复用经验,让中文技术语音输入逐步适应个人和项目语境。

#Voice Agent#自我学习#纠错系统#glossary.json#corrections.json

需要继续找相关内容?

如果你想继续查工具名、术语、对比页或相关问题,可以直接搜全站,不用回到博客列表页重找。

Quick Summary

核心结论

Voice Agent 的自我学习价值在于把用户修过的错变成下次可复用的纠错线索,而不是每次都重新人工改稿。

适合谁看

适合想把语音转文字做成长期工具,而不是一次性转写脚本的开发者。

关键判断

项目围绕 corrections.json、glossary.json 和 auto_learn() 设计了从人工纠错到自动学习的闭环。

下一步建议

理解自学习后,可以继续看如何把语音输入接入 AI coding 和 Agent workflow。

你将学到

  • + 为什么语音转写系统需要记住用户纠错
  • + corrections.json 和 glossary.json 分别适合存什么
  • + auto_learn() 在纠错闭环里承担什么角色
  • + 自学习纠错如何帮助中文技术表达

Voice Agent 的自我学习纠错系统

语音转文字工具最容易被低估的一点,是“纠错之后怎么办”。

很多工具的流程是:

  1. 转写。
  2. 用户手动修改。
  3. 结束。

这对一次性任务可以接受,但对开发者语音输入来说不够。

因为技术场景里的错误往往会反复出现:

  • 同一个项目名反复识别错。
  • 同一个英文工具名反复被写成中文同音词。
  • 同一个缩写反复大小写不一致。
  • 同一个团队内部术语反复无法识别。

Voice Agent 的设计更进一步:它试图把用户纠正过的内容沉淀下来,让系统下一次更懂你。

项目仓库:

https://github.com/kunpeng-ai-lab/voice-agent

纠错为什么要被记录

如果一个系统每次都犯同样的错,用户很快就会失去耐心。

尤其是中文技术语境,很多错误不是简单错别字,而是“上下文不理解”:

  • 把模型名识别成普通词。
  • 把工具名拆开。
  • 把英文命令写成发音相近的中文。
  • 把项目内部固定说法改成不一致表达。

这些错误如果能被记录下来,就可以成为下一次校正的依据。

所以 corrections.json 的价值,不只是保存历史,而是让历史进入后续流程。

glossary.json:长期术语表

glossary.json 更适合存稳定词。

例如:

  • 项目名
  • 工具名
  • 模型名
  • 框架名
  • 团队内部固定叫法
  • 常见英文缩写

这些内容不一定来自一次纠错,也可以提前人工维护。

在 Voice Agent 里,术语库的作用像一个“项目词典”:告诉校正层,哪些词应该被优先保留,哪些写法才是正确写法。

corrections.json:真实犯错记录

corrections.json 更适合存实际发生过的错误。

例如:

  • 原始 STT 输出是什么。
  • 用户最终改成了什么。
  • 这个错误是否重复出现。
  • 这个纠错是否应该被自动学习。

它和术语库的差别在于:术语库偏静态,纠错记录偏动态。

二者合在一起,系统才既有长期词表,也有真实使用反馈。

auto_learn():把纠错变成规则线索

auto_learn() 可以理解成自学习纠错闭环里的转换器。

它不需要神秘化。
它的重点不是“重新训练一个大模型”,而是把用户修正过的内容转成后续校正可以用的线索。

一个合理的 auto_learn() 思路包括:

  1. 发现用户修改前后的差异。
  2. 判断这个差异是不是有复用价值。
  3. 把高价值纠错写入 corrections.json。
  4. 必要时补充到 glossary.json。
  5. 后续校正时优先参考这些线索。

这个过程越稳定,语音输入就越不像一次性工具,而更像一个会积累经验的个人输入系统。

为什么这对 Agent workflow 有意义

Agent workflow 需要稳定输入。

如果语音输入每次都把项目名写错,Agent 后续就会沿着错误上下文继续推理。
如果语音输入能逐步记住你的术语,后续 Agent 处理任务、总结会议、生成待办项、拆分 bug 记录时,质量都会更稳定。

这就是 Voice Agent 和普通语音转写工具的分界线:

  • 普通工具输出文本。
  • Voice Agent 试图输出越来越贴近项目语境的文本。

可以迁移到哪些场景

这个自学习纠错思路不只适用于语音。

它也适合:

  • AI coding 提示词输入。
  • 会议纪要清洗。
  • Agent Forum 发帖前整理。
  • 开发者日志转结构化任务。
  • 术语密集型团队文档。

只要一个输入系统需要长期适应用户术语,就可以借鉴这种“术语库 + 纠错记录 + 自动学习”的设计。

下一篇继续看:

继续延伸

要点总结

  • - 自学习纠错不是让模型神秘变聪明,而是沉淀可追踪的修正记录。
  • - 术语库负责长期稳定词表,纠错记录负责实际犯过的错。
  • - Voice Agent 的方法适合迁移到更多开发者输入工具里。

常见问题

corrections.json 和 glossary.json 有什么区别?

glossary.json 更像长期术语表,记录应该稳定保留的项目名、工具名和专业词;corrections.json 更像纠错历史,记录系统曾经错在哪里、用户如何改正。

auto_learn() 是不是等于重新训练模型?

不是。更合理的理解是把用户纠错转化成后续校正可用的规则、词条或上下文线索,而不是重新训练底层语音模型。

评论