北京大学中文系博雅读书会

报告人	崔香
报告时间	2025-11-05
讨论组	语法理论与语言工程
关键词	机器翻译质量评估、大语言模型评测、元评测、GEMBA、MQM
摘要或简介	人类译员评估翻译质量工作的成本高、时间长，需要有自动化的评估方法。旨在解决这一需求的机器翻译质量评估领域不断推陈出新，从表征匹配指标到深度语义指标，再到近几年使用大语言模型做该任务。本文将任务范围限定为从韩语翻译到汉语、文学体裁的翻译，调用大语言模型在 GEMBA-MQM 框架下评估汉语译文的质量，指出错误片段和错误类型。通过对模型的评估结果的“再评估”，统计召回率和精确率等指标，分析模型在该任务上的表现与特点，探讨“大语言模型能否代替或者辅助人类译员做审核翻译质量的工作”这一问题。
发布人	崔香
发布范围	全网
讨论记录	1. 修改论文题目，光看现在的论文题目其实不知道想要干什么。 2. 修改1.2“一句话描述问题”部分，这一句话要能概括整篇论文的精髓。 3. 明确“元评测”的性质。如果只说“改进”，不知道改进的“对象”是谁，是想改进第一轮的“裁判”还是改进第二轮的“裁判”，最好用流程图或者比喻的方法，让大家一下子知道想要改进的对象是谁。 4. 明确改进“方向”和“标准”是什么。对比第一轮评测结果和第二轮评测结果，通过什么样的统计数据或者“标准”，来证明确实“改进了/提高了”？ 5. 评测结果的分析要“全面”，除了“假阳”还有“假阴”。 6. 展示代码不要直接截图，如果一定要展示代码，别直接截图，重点介绍通过这个代码想要说明的问题. 7. 韩语源文下面加个正确译文，达到没有我讲解大家也可以get意思的程度。 8. 明确错误原因是什么，或者说分析错误原因有可能是什么。一层一层解。
下载次数	1566
浏览次数	898

面向汉语译文的 大语言模型评估框架改进研究 ——以GEMBA-MQM框架中accuracy与style混淆问题为中心

面向汉语译文的大语言模型评估框架改进研究 ——以GEMBA-MQM框架中accuracy与style混淆问题为中心