北京大学中文系博雅读书会

报告人	邓思锐
报告时间	2026-04-30
讨论组	语法理论与语言工程
关键词	明喻，空间参照，认知语言学，概念整合，大语言模型评测，自然语言推理 (NLI)
摘要或简介	介绍了“明喻句中的方位词参照缺失”现象、相关的语言学认知机制，以及基于该现象开展的大模型语义理解与推理能力评测工作。 1. 已完成工作： - 引入概念整合理论，将该现象的认知加工过程拆解为“特征矩阵激活 → 物理事实合一 → 语用意图拦截”的三阶段可计算管线。 - 基于人类一致性测试，将数据集划分为高一致性的 gold set 与存在一定认知分歧的 silver set，并采用 NLI 框架重构了模型测试题。 - 设计了无干预和有干预 (CoT) 的两类提示词策略，对多个主流大模型进行了对比测试。 2. 关键发现： - 模型在无干预下展现出强烈的“蕴含”偏好，其较高的本体准确率更多依赖表层统计概率而非真正的语义理解。 - 引入 CoT 后，多数大参数模型的准确率得到提升，说明外部认知法则的介入能一定程度上弥合机器与人类的认知鸿沟；而小参数模型准确率的下降则印证了该任务的认知复杂度。 3. TODO： - 进一步细化特征结构的知识表示，完善对各类相似性及抽象本体的解释。 - 针对当前 NLI 测试形式的局限，探索更契合深层隐喻考察意图的测试与评测方法。
发布人	dsr
发布范围	讨论组内部
讨论记录	1. 本次引入的概念整合理论及三阶段认知计算管线获得肯定，相比前期汇报有较好进展。后续可在底层的知识表示和特征矩阵上做进一步细化。 2. 在后续的认知加工分析中，需明确区分明喻的“物理相似性”与“关系相似性”。同时要注意本体并不局限于具体的物理实体（例如“我的心”、“东莞”等），理论模型需对这类非物理实体的映射和合一机制进行更妥善的解释与包容。 3. 目前尝试过的正误判断及 NLI 测试形式，在考察大模型对“语用意图”等深层认知任务时仍不够理想。未来需要寻找新的想法和突破口，设计出更加契合该语言现象考察意图的测试形式，这也是本研究后续非常有价值的探索方向。
下载次数	1
浏览次数	840

明喻句方位参照缺失的认知计算机制及大语言模型 NLI 评测