我们学校社团搞了一个播客谈话,然后搞了一份音频的文字转写稿,现在要让我检查 Proof 。 整份转写稿有快三万字了,人工检查肯定不可行,我就想让 AI 检查。
我的要求很简单:检查文稿中有没有打错的中文字或是英文单词,以及有没有标点符号使用错误。 例如:
原文:于事他走了出去。
修改:于**是**他走了出去。
原因:中文用词错误
原文:伯克利那边做 reseach 人是很多的。
修改:伯克利那边做**research**人是很多的。
原因:英文拼写错误
原文:里面好像还蛮多是 EF,、AF 的
修改:里面好像还蛮多是 EF 、AF 的
原因:标点多余
以下是我的 Prompt:
你现在是一名专业的文稿审查员,任务是检查播客语音转写文稿中的中文字拼写错误,英文单词拼写错误和标点符号使用错误。
由于这是口语话表达文本,你的审查标准非常宽松,只关注上述三点,严禁纠正任何其他问题,例如语法,用词建议等。
输出格式:
原文切片:截取原文中包含错误的句子或短语,通常为一句话(在两个逗号之间)。
修改切片:对原文切片进行修改,并将修改的部分加粗。
修改原因:简要说明修改的原因,如“拼写错误”或“标点错误”。
如果原文没有严重错误,或仅是非强制性修改的建议,则无需输出任何内容。
看似很简单,但是各个 AI 的输出效果却不理想,最严重的问题是明明原文的中文/英文并没有任何拼写错误,AI 还是会输出,例如:
Gemini 2.5 Flash:
原文切片:感觉要这些全部都连在一起,然后它才会是一个 feasible 的 career path 。
修改切片:感觉要这些全部都连在一起,然后它才会是一个 feasible 的 career path 。
修改原因:英文单词拼写错误(实际上没有任何错误)。
原文切片:我当时刚开始做 NLP 研究的时候,有去 MIT 的 special student program ,相当于有一点 DIY 的一个 exchange 。
修改切片:我当时刚开始做 NLP 研究的时候,有去 MIT 的 special student program ,相当于有一点 DIY 的一个 exchange 。
修改原因:英文缩写应为大写(我原文就是大写)。
GPT 4.1
原文切片:我们学术之路企划是为香港大学的本科生在申请学术相关的研究生和博士时给予一些经验的分享,已经成功举办了许多年
修改切片:我们学术之路企划是为香港大学的本科生在申请学术相关的研究生和博士时给予一些经验的分享,已经成功举办了许多年。
修改原因:句末缺少句号,标点错误(注:原文后面还有一句话的,但是 AI 把逗号忽略了)。
DeepSeek
原文切片:外加我觉得国际的 exposure 也非常多。
修改切片:外加我觉得国际的 exposure 也非常多。
修改原因:英文单词拼写错误,"exporsure"应为"exposure"(原文是正确的,但是在修改原因中出现幻觉,而且 DeepSeek 几乎全是这种幻觉)。
GLM 4.5
原文切片:我当时除了加入了一些当地学校的 club 之外,也有加入实验室。
修改切片:我当时除了加入了一些当地学校的 club 之外,也有加入实验室。
修改原因:英文单词"club"拼写错误,应为"club"( GLM 更是不装了,没有任何错误硬是说成错误)。
以下是我贴上的文稿示例:
金学姐
ok 感谢问题,然后我觉得从大陆到香港而言是一个蛮大的转变,然后突然进入一个全英文的环境。港大的生活就是一种完全 DIY 自己的生活,从课程选择到业余生活跟哪些不同的组出去 hang out 。
外加我觉得国际的 exposure 也非常多。我觉得我在港大最快乐的事了解自己因为什么事情而快乐,然后之后做职业选择的时候就更安定。
王学长
好的,谢谢!我这边其实有一个特别好奇的问题,金学姐在港大跟哪个老师的组会交流比较多呢?
金学姐
我们当时本科的 bachelor thesis 的时候就是和 Ben Kao 。然后我也很喜欢 bioinformatics ,有很多还蛮有意思的课。
……
每次大概只贴 3k-4k 字,我觉得窗口大小绝对是够的。
