CCL-CUE构式理解能力多任务评测基准数据集

CCL-CUE数据集构式特征统计

构式特征	题量	占比	构式举例
复现	161	31.38%	X也好，Y也好
成分省略	69	13.45%	今天X明天Y
主观大量	63	12.28%	a到不能再a
语法错配	63	12.28%	够n
含否定成分	28	5.46%	早不v晚不v
周遍义	27	5.26%	这里vp，那里vp
否定义	23	4.48%	你管我X
网络用语	21	4.09%	大写的a
负面评价	15	2.92%	X什么X
修辞	13	2.53%	np有毒
语义错配	11	2.14%	把n放a些
论元异常	6	1.17%	qp1+n1+qp2+n2
主观小量	6	1.17%	X倒是X
含疑问成分	5	0.97%	怎么v也v不a
成分冗余	2	0.39%	把n当n

不同任务题目示例

任务一	Text	乡村教师张老师到城里出差，买了三本书《西游记》《水浒传》《三国演义》带回来。送给了村里学习最刻苦的三兄弟。《西游记》送给了老大，《水浒传》送给了老二，《三国演义》送给了老三。老三放学回家跟爷爷说起了这件事。
	Question	下面的句子中，老三跟爷爷说哪个（些）句子，符合text所描述的情况？
	Option	A. 张老师带给我们三人一本书。 B. 张老师带给我们三人三本书。 C. 张老师带给我们一人一本书。 D. 以上都不对。
	Answer	BC
任务二	Text	张老师出差回来带给我们三人六本书。
	Question	针对text，下列说法正确的是？
	Option	A. 张老师一共带回十八本书。 B. 张老师给每人带回两本书。 C. 张老师给三人带回来六本书。 D. 张老师给每人带回来六本书。
	Answer	C
任务三	Text	下面这句话含有一个括号表示的空位，需在其中填入缺失的成分。现在听到人家跟我说什么什么很急，我就无比暴躁：（）！我明明什么事都够迅速了！
	Question	填入后能使整句话表义完整，自然流畅，符合语体要求的是？
	Option	A. 急什么 B. 急什么急 C. 什么急 D. 以上都不对
	Answer	AB
任务四	Text	甲：博士毕业生今年找教职工作困难吗？乙：连博士毕业生今年找教职工作都很困难。
	Question	甲、乙两人的一问一答是不是语义合理的对话？
	Option	A. 是 B. 否
	Answer	B

模型在不同任务上的表现

模型	任务一	任务二	任务三	任务四	平均值	标准差	总分
model1	78.90	80.00	52.63	57.45	67.25	12.33	70.00
model2	77.06	66.15	50.88	59.57	63.42	9.56	66.80
model3	77.06	63.08	59.65	53.19	63.25	8.73	66.00
model4	71.56	70.77	59.65	53.19	63.79	7.72	65.20
model5	78.90	72.31	54.39	36.17	60.44	16.64	64.40
model6	71.56	66.15	57.89	31.91	56.88	15.21	60.80
model7	63.30	61.54	50.88	34.04	52.44	11.64	54.80
model8	63.30	47.69	47.37	34.04	48.10	10.36	50.40
平均值	72.71	65.96	54.17	44.95	59.44	11.52	62.30
标准差	6.06	8.82	4.25	11.13	\	\	6.19

加粗表示最优表现，下划线表示超过至少一个人类被试。

“平均值”“标准差”列计算的是同一个模型在四个任务上得分的均值/标准差；“平均值”“标准差”行计算的是在同一任务上，八个模型得分的均值/标准差。

gpt-5-2025-08-07（model1），claude-sonnet-4-5-20250929（model2），claude-opus-4-1-20250805（model3），deepSeek-V3.2-Exp-Thinking（model4），doubao-seed-1-6-250615（model5），qwen3-max-2025-09-23（model6），deepSeek-V3.2-Exp（model7），gpt-4o-2024-11-20（model8）

人类在不同任务上的表现

人类被试	任务一	任务二	任务三	任务四	平均值	标准差	总分
human1	70.77	76.92	77.78	71.43	74.23	3.15	73.33
human2	76.92	92.31	70.37	80.95	80.14	7.98	78.52
human3	80.00	89.74	81.48	71.43	80.66	6.50	81.48
human4	78.46	89.74	66.67	80.95	78.96	8.24	80.00
human5	66.15	76.92	51.85	61.9	64.21	8.99	66.67
human6	81.54	82.05	77.78	71.43	78.20	4.24	78.52
human7	84.62	92.31	92.59	90.48	90.00	3.21	88.89
human8	92.31	97.44	92.59	85.71	92.01	4.17	92.59
平均值	78.85	87.18	76.39	76.79	79.80	5.81	80.00
标准差	7.53	7.14	12.69	8.73	\	\	7.63

模型/人类在同源题上的整体表现

	全对率	全错率	一致率
模型均值	0.4453	0.1484	0.5938
人类均值	0.7109	0.1484	0.8594

一致率为全对率与全错率之和。

各组作答相似度均值

	Jaccard相似系数均值	95% 置信区间
人类-人类	0.7898	[0.7573, 0.8233]
模型-模型	0.7382	[0.6974, 0.7776]
人类-模型	0.6869	[0.6420, 0.7302]

模型组：任务两两比较（Wilcoxon 配对检验）

配对	方向	p（原始）	p（Holm）	效应量 r_rb
任务1–任务2	任务1>任务2	0.023438	0.046875	0.889
任务1–任务3	任务1>任务3	0.007812	0.046875	1.000
任务1–任务4	任务1>任务4	0.007812	0.046875	1.000
任务2–任务3	任务2>任务3	0.007812	0.046875	1.000
任务2–任务4	任务2>任务4	0.007812	0.046875	1.000
任务3–任务4	任务3>任务4	0.078125	0.078125	0.722

人类组：任务两两比较（Wilcoxon 配对检验）

配对	方向	p（原始）	p（Holm）	效应量 r_rb
任务1–任务2	任务2>任务1	0.007812	0.046875	-1.000
任务1–任务3	任务1>任务3	0.640625	1.000000	0.222
任务1–任务4	任务1>任务4	0.382812	1.000000	0.389
任务2–任务3	任务2>任务3	0.039062	0.156250	0.833
任务2–任务4	任务2>任务4	0.007812	0.046875	1.000
任务3–任务4	任务4>任务3	0.750000	1.000000	-0.139

构式特征与模型平均准确率的相关性分析

feat	n_w	n_wo	mean_w	mean_wo	r_pb	p_r	p_t
负面评价	15	235	0.808	0.611	0.132	0.037	0.007
主观大量	63	187	0.546	0.649	-0.127	0.045	0.053
修辞	13	237	0.462	0.632	-0.107	0.092	0.180
复现	161	89	0.648	0.579	0.093	0.142	0.156
含否定成分	28	222	0.531	0.635	-0.092	0.147	0.173
论元异常	6	244	0.813	0.618	0.084	0.186	0.168
冗余	2	248	0.938	0.620	0.080	0.209	0.091
含疑问成分	5	245	0.800	0.619	0.071	0.261	0.126
否定义	23	227	0.701	0.615	0.070	0.269	0.216
语义错配	11	239	0.727	0.618	0.063	0.320	0.359
主观小量	6	244	0.750	0.620	0.056	0.376	0.459
省略	69	181	0.643	0.615	0.035	0.581	0.569
周遍	27	223	0.653	0.619	0.029	0.645	0.637
网络用语	21	229	0.655	0.620	0.027	0.669	0.681
语法错配	63	187	0.631	0.620	0.013	0.837	0.837

feat：语言特征名称

n_w：包含该特征的题目数量（样本量）。

n_wo：不包含该特征的题目数量（样本量）。

mean_w：包含该特征的题目在 avg_accuracy（各模型平均正确率）上的均值。

mean_wo：不包含该特征的题目在 avg_accuracy 上的均值。

r_pb：点二列相关系数（point-biserial correlation），用于度量二元变量（是否包含该特征）与连续变量（平均正确率）之间的线性相关强度与方向。取值范围为 −1 到 1，正值表示该特征与较高正确率相关，负值表示与较低正确率相关。

p_r：与 r_pb 对应的双侧 p 值（原始未校正 p 值），用于检验相关系数是否显著不同于 0。

p_t：Welch 不等方差 t 检验的双侧 p 值，用于检验“包含该特征”与“不包含该特征”两组 avg_accuracy 均值是否显著不同。

连字句案例

任务	题目	模型作答
任务一	（a1） text：“连X都Y”句型后面常常会接“更别说Z”句，用Z跟X对比，强调Z更是如此（即Z更符合Y所陈述的情况）。例如“旧西藏时全县没有一条公路，交通运输全靠人背畜驮，连自行车都没有见过，更别说汽车了。” 这句话中“汽车”跟“自行车”对比，更“没有见过”。 question：下面这句话含有一个括号表示的空位，需在其中填入缺失的成分。填入后能使整句话表义完整，自然流畅，符合语体要求的是？这家化工厂搬迁，事先连厂里工人都不知道，更别说（）了。 option： A. 外面的人 B. 普通民众 C. 厂长 D. 以上都不对 answer：AB	正确率：50.00%
		错选情况：A（4次）
	（a2） text：“连X都Y”句型后面常常会接“更别说Z”句，用Z跟X对比，强调Z更是如此（即Z更符合Y所陈述的情况）。例如“旧西藏时全县没有一条公路，交通运输全靠人背畜驮，连自行车都没有见过，更别说汽车了。” 这句话中“汽车”跟“自行车”对比，更“没有见过”。 question：下面这句话含有一个括号表示的空位，需在其中填入缺失的成分。填入后不能使整句话表义完整，自然流畅，符合语体要求的是？这家化工厂搬迁，事先连厂里工人都不知道，更别说（）了。 option： A. 厂长 B. 普通民众 C. 外面的人 D. 以上都不对 answer：A	正确率：75.00%
		错选情况： B（2次）
任务四	（b1） text：甲：博士毕业生今年找教职工作困难吗？乙：连博士毕业生今年找教职工作都很困难。 question：甲、乙两人的一问一答是不是语义合理的对话？ option： A. 是 B. 否 answer：B	正确率：0.00%
		错选情况： A（8次）
	（b2） text：A：甲：硕士毕业生今年找教职工作困难吗？乙：连硕士毕业生今年找教职工作都很困难。 question：甲、乙两人的一问一答是不是语义合理的对话？ option： A. 是 B. 否 answer：B	正确率：12.50%
		错选情况： A（7次）
	（b3） text：A：甲：博士毕业生今年找教职工作困难吗？乙：连硕士毕业生今年找教职工作都很困难。 question：甲、乙两人的一问一答是不是语义合理的对话？ option： A. 是 B. 否 answer：B	正确率：25.00%
		错选情况： A（6次）

题面形式线索分析案例

构式	题目	模型作答	人类作答
这+里+VP+那+里+VP	（a） text：下面4个句子都出现了“这里X那里X”这种形式的片段，如“这里出点事，那里出点事”“这里挖个坑，那里挖个坑”。 question：这个片段在哪一句中表达功能与其他三句中的表达功能不同？ option： A. 中国很大，难免这里出点事，那里出点事。但是，只要特区和沿海地区保持长期稳定，政策不变，外商就会增加投资的信心。 B. 有一幅漫画：某公掘井，这里挖个坑，那里挖个坑，东挖西挖一阵，没打出水来，便摇头而去。 C. 在学懂的前提下，哪怕这里丢掉几分、那里丢掉几分，都问题不大。 D. 天上的月亮照在江湖水面，又会映出千万个月亮。但是，一个人站在一条河边，不能说这里看到一个月亮，那里看到一个月亮，就有两个月亮。 answer：D	正确率：87.50%	正确率：100.00%
这+里+VP+那+里+VP		错选情况： A（1次）	错选情况：无
这+里+VP1+那+里+VP2	（b） text：下面4个句子都出现了“这里X那里Y”这种形式的片段，如“这里闹革新，那里搞改革”“这里运动什么那里也运动什么”等等。 question：这个片段在哪一句中表达功能与其他三句中的表达功能不同？ option： A. 你看这里闹革新，那里搞改革，不仅工农业生产部门大有可为，而且做生意、养猪等等也能大闹技术革命。 B. 群众运动只是群众路线的一种形式，不是一年到头全运动，不是一律的这里运动什么那里也运动什么。 C. 武二娃见家里整理得齐齐整整，不由的这里翻翻，那里看看。 D. 王镇长说：“过去我是当一天和尚撞一天钟，从报上看到这里干部垮了台，那里干部被撤职了；自己就想今天在镇公所，明天不知怎样呀，所以工作不安心。” answer：B	正确率：12.50%	正确率：62.50%
这+里+VP1+那+里+VP2		错选情况： C（7次）	错选情况： C（2次） D（1次）
早+也+不+V，晚+也+不+V	（c） text：玉宝走回屋一看，伙计们都气呼呼地说：“他妈的，早也不叫，晚也不叫，才躺下就叫了。这个鸡真不叫鸡！” question：text中的“早也不叫，晚也不叫”可以替换成哪一种表达形式而不改变原义？ option： A. 早不叫，晚不叫 B. 早晚都不叫 C. 早晚不叫 D. 以上都不对 answer：A	正确率：37.50%	正确率：87.50%
早+也+不+V，晚+也+不+V		错选情况： AB（2次） B（2次） ABC（1次）	错选情况： B（1次）

构式维度模型准确率热力图

构式特征维度模型准确率热力图

答题模式相似度矩阵