明喻句中的方位词参照缺失现象及大语言模型能力评测



报告人邓思锐
报告时间2025-12-17
讨论组语法理论与语言工程
关键词明喻,空间参照,认知语言学,概念整合,大语言模型,大语言模型评测
摘要或简介

介绍了“明喻句中的方位词参照缺失”现象、对该现象的一些语言学角度认识和思考,以及基于该现象可进行的大模型语义理解和推理能力评测的相关工作。
1. 已完成工作:
- 借助认知语言学理论,初步尝试建立了“明喻句中的方位词参照缺失”现象的理论框架,设计了基于3类变换式的对于方位词参照基准的检验手段。
- 制作了涉及3类参照基准的模型评测数据集(229条文本/687道题),完成对8个主流模型的初步测试和分析。
- 设计了包含一致性检验的人类测试数据集(45条文本/135道题)。
2. 关键发现:
- 现有测试集使各模型在准确性、稳定性、F1值等指标下呈现一致规律,侧面佐证了测试集的可靠性。
- 文本级别稳定性是当前模型的普遍不足。
- 大部分模型仍有“肯定偏好”,但表现最好的模型(如 kimi)已能具备较好的平衡性。
3. TODO:
- 推进人类测试与基线确立,验证数据集可靠性。
- 深入针对模型测试和人类测试的细粒度分析。

发布人dsr
发布范围讨论组内部
讨论记录

1. 本研究定位应明确为:建构在这类语言现象上,基于语言学视角,对人类理解比喻关系机制的进一步阐释;并非聚焦于提升模型能力的研究。
2. 一方面,应将认知语言学的引入作为核心亮点和构建数据的基础,剖析人类理解“A像B”时,为何根据后续句的不同滋生有差异的理解。
3. 另一方面,尽管引入认知,但理论建构的基础是,必须从底层形式和逻辑上(如利用特征结构分析),描写清楚关注的这类语句的形式-意义关系。
4. 模型测试方面,题目形式可直接参考现有类似测试(WSC、语义蕴涵测试等),在测试内容而非题目形式上出新。
5. 尽快推进人类测试,优化变换式等设计,并在补充理论分析的指导下进一步加强数据可靠性。

下载次数2
浏览次数186

 登录后可执行更多操作


© CCL of   Peking University  2019