面向汉语译文的 大语言模型评估框架改进研究 ——以GEMBA-MQM框架中accuracy与style混淆问题为中心



报告人崔香
报告时间2025-11-05
讨论组语法理论与语言工程
关键词机器翻译质量评估、大语言模型评测、元评测、GEMBA、MQM
摘要或简介

人类译员评估翻译质量工作的成本高、时间长,需要有自动化的评估方法。旨在解决这一需求的机器翻译质量评估领域不断推陈出新,从表征匹配指标到深度语义指标,再到近几年使用大语言模型做该任务。本文将任务范围限定为从韩语翻译到汉语、文学体裁的翻译,调用大语言模型在 GEMBA-MQM 框架下评估汉语译文的质量,指出错误片段和错误类型。通过对模型的评估结果的“再评估”,统计召回率和精确率等指标,分析模型在该任务上的表现与特点,探讨“大语言模型能否代替或者辅助人类译员做审核翻译质量的工作”这一问题。

发布人崔香
发布范围全网
讨论记录

1. 修改论文题目,光看现在的论文题目其实不知道想要干什么。
2. 修改1.2“一句话描述问题”部分,这一句话要能概括整篇论文的精髓。
3. 明确“元评测”的性质。如果只说“改进”,不知道改进的“对象”是谁,是想改进第一轮的“裁判”还是改进第二轮的“裁判”,最好用流程图或者比喻的方法,让大家一下子知道想要改进的对象是谁。
4. 明确改进“方向”和“标准”是什么。对比第一轮评测结果和第二轮评测结果,通过什么样的统计数据或者“标准”,来证明确实“改进了/提高了”?
5. 评测结果的分析要“全面”,除了“假阳”还有“假阴”。
6. 展示代码不要直接截图,如果一定要展示代码,别直接截图,重点介绍通过这个代码想要说明的问题.
7. 韩语源文下面加个正确译文,达到没有我讲解大家也可以get意思的程度。
8. 明确错误原因是什么,或者说分析错误原因有可能是什么。一层一层解。

下载次数275
浏览次数205

下载文献(4.4 MB) 查看幻灯片(4.4 MB)  登录后可执行更多操作


© CCL of   Peking University  2019