无监督的旧形新义自动发现研究



报告人周子茗
报告时间2025-12-10
讨论组语法理论与语言工程
关键词旧形新义,词义演变,BERT,无监督学习
摘要或简介

本文针对汉语词汇演变中的“旧形新义”现象,以1946年至2025年的《人民日报》为历时语料,提出了一种无监督的自动发现框架 。研究对比了静态词向量(Word2Vec)与基于BERT的上下文动态嵌入模型在语义漂移检测中的效能 。为了克服传统方法仅提供数值指标而缺乏解释性的局限,本文采用了基于BERT掩码预测的词汇替换与句子采样策略,通过聚类分析上下文语境的差异来捕捉语义变化 。此外,研究结合语义角色标注(SRL)技术,深入分析了动词(如“晒”)宾语搭配的演变规律 。实验结果表明,该方法不仅能有效检测语义漂移,更能通过典型例句采样提供细粒度的可解释性证据,有效区分单纯的“语境场景迁移”与实质性的“核心语义改变” 。研究同时也反映了官方语料库在捕捉网络新义方面的滞后性与保守性特征 。

发布人2501110808
发布范围讨论组内部
讨论记录

1. 在本研究可能不需要特意去强调旧词新义和旧形新义的区分
2. 对于“上下文语义漂移检测技术框架”部分要仔细修改,不能直接使用字面翻译的结果
3. 要重新考虑技术方案,要思考如何判断一个词的义项和义项变化关系的问题
4. 汉语学界关于词义计量分析,可以参考苏新春老师的理论研究。技术实践工作要注意跟理论分析结合起来

下载次数0
浏览次数189

 登录后可执行更多操作


© CCL of   Peking University  2019