基于大语言模型概率信息的汉语结果补语错误检测与句式推荐研究



报告人金慧京
报告时间2025-12-31
讨论组语法理论与语言工程
关键词结果补语;学习者偏误;句式推荐;概率语言知识;surprisal(惊讶度)
摘要或简介

结果补语是汉语学习者常见的错误点,尤其在虚化补语的取舍与实义补语的句式选择上存在较大困难。本研究尝试利用语言模型的概率信息,特别是 surprisal(惊讶度) 指标,来辅助判断学习者的错误并推荐更自然的句式。研究假设惊讶度低意味着句子更符合模型学习的语言分布,因此更自然;惊讶度高则表明偏离语言分布,因而显得不自然或别扭。
实验结果显示:在学习者错误判别方面,模型对不同类型的错误均表现出一定稳定性,但在涉及事件义/非事件义的部分多余错误上能力有限。在最佳句式推荐方面,模型倾向于选择高频句式,而非真正符合语境的表达,缺乏对常识性语义恰当性的反映能力。

发布人金慧京
发布范围全网
讨论记录

1. surprisal(惊讶度)指标的解释力不足。尤其是在应用过程中,研究假设“惊讶度越低,表达越好”并不可靠。此外,该指标的计算方法不够明确,难以判断其具体反映的内容。因此,仅依赖惊讶度来解决研究问题,缺乏足够的说服力。
2. 在句式推荐任务中,所提出的个别例句之间缺乏充分的可比性。实验所呈现的例句之间没有建立明确的比较标准,也未提供清晰的语言学依据或实际使用功能上的说明来界定哪种表达更优。
3. 研究方法的适切性问题。此类任务更适合以监督学习的方式进行,而不是对未经训练的模型来进行评估。

下载次数206
浏览次数122

下载文献(4.3 MB) 查看幻灯片(4.3 MB)  登录后可执行更多操作


© CCL of   Peking University  2019