CCL-CUE数据集构式特征统计
| 构式特征 | 题量 | 占比 | 构式举例 |
|---|---|---|---|
| 复现 | 161 | 31.38% | X也好,Y也好 |
| 成分省略 | 69 | 13.45% | 今天X明天Y |
| 主观大量 | 63 | 12.28% | a到不能再a |
| 语法错配 | 63 | 12.28% | 够n |
| 含否定成分 | 28 | 5.46% | 早不v晚不v |
| 周遍义 | 27 | 5.26% | 这里vp,那里vp |
| 否定义 | 23 | 4.48% | 你管我X |
| 网络用语 | 21 | 4.09% | 大写的a |
| 负面评价 | 15 | 2.92% | X什么X |
| 修辞 | 13 | 2.53% | np有毒 |
| 语义错配 | 11 | 2.14% | 把n放a些 |
| 论元异常 | 6 | 1.17% | qp1+n1+qp2+n2 |
| 主观小量 | 6 | 1.17% | X倒是X |
| 含疑问成分 | 5 | 0.97% | 怎么v也v不a |
| 成分冗余 | 2 | 0.39% | 把n当n |
不同任务题目示例
| 任务一 | Text | 乡村教师张老师到城里出差,买了三本书《西游记》《水浒传》《三国演义》带回来。送给了村里学习最刻苦的三兄弟。《西游记》送给了老大,《水浒传》送给了老二,《三国演义》送给了老三。老三放学回家跟爷爷说起了这件事。 |
| Question | 下面的句子中,老三跟爷爷说哪个(些)句子,符合text所描述的情况? | |
| Option | A. 张老师带给我们三人一本书。 B. 张老师带给我们三人三本书。 C. 张老师带给我们一人一本书。 D. 以上都不对。 |
|
| Answer | BC | |
| 任务二 | Text | 张老师出差回来带给我们三人六本书。 |
| Question | 针对text,下列说法正确的是? | |
| Option | A. 张老师一共带回十八本书。 B. 张老师给每人带回两本书。 C. 张老师给三人带回来六本书。 D. 张老师给每人带回来六本书。 |
|
| Answer | C | |
| 任务三 | Text | 下面这句话含有一个括号表示的空位,需在其中填入缺失的成分。 现在听到人家跟我说什么什么很急,我就无比暴躁:()!我明明什么事都够迅速了! |
| Question | 填入后能使整句话表义完整,自然流畅,符合语体要求的是? | |
| Option | A. 急什么 B. 急什么急 C. 什么急 D. 以上都不对 | |
| Answer | AB | |
| 任务四 | Text | 甲:博士毕业生今年找教职工作困难吗? 乙:连博士毕业生今年找教职工作都很困难。 |
| Question | 甲、乙两人的一问一答是不是语义合理的对话? | |
| Option | A. 是 B. 否 | |
| Answer | B |
模型在不同任务上的表现
| 模型 | 任务一 | 任务二 | 任务三 | 任务四 | 平均值 | 标准差 | 总分 |
|---|---|---|---|---|---|---|---|
| model1 | 78.90 | 80.00 | 52.63 | 57.45 | 67.25 | 12.33 | 70.00 |
| model2 | 77.06 | 66.15 | 50.88 | 59.57 | 63.42 | 9.56 | 66.80 |
| model3 | 77.06 | 63.08 | 59.65 | 53.19 | 63.25 | 8.73 | 66.00 |
| model4 | 71.56 | 70.77 | 59.65 | 53.19 | 63.79 | 7.72 | 65.20 |
| model5 | 78.90 | 72.31 | 54.39 | 36.17 | 60.44 | 16.64 | 64.40 |
| model6 | 71.56 | 66.15 | 57.89 | 31.91 | 56.88 | 15.21 | 60.80 |
| model7 | 63.30 | 61.54 | 50.88 | 34.04 | 52.44 | 11.64 | 54.80 |
| model8 | 63.30 | 47.69 | 47.37 | 34.04 | 48.10 | 10.36 | 50.40 |
| 平均值 | 72.71 | 65.96 | 54.17 | 44.95 | 59.44 | 11.52 | 62.30 |
| 标准差 | 6.06 | 8.82 | 4.25 | 11.13 | \ | \ | 6.19 |
加粗表示最优表现,下划线表示超过至少一个人类被试。
“平均值”“标准差”列计算的是同一个模型在四个任务上得分的均值/标准差;“平均值”“标准差”行计算的是在同一任务上,八个模型得分的均值/标准差。
gpt-5-2025-08-07(model1),claude-sonnet-4-5-20250929(model2),claude-opus-4-1-20250805(model3),deepSeek-V3.2-Exp-Thinking(model4),doubao-seed-1-6-250615(model5),qwen3-max-2025-09-23(model6),deepSeek-V3.2-Exp(model7),gpt-4o-2024-11-20(model8)
人类在不同任务上的表现
| 人类被试 | 任务一 | 任务二 | 任务三 | 任务四 | 平均值 | 标准差 | 总分 |
|---|---|---|---|---|---|---|---|
| human1 | 70.77 | 76.92 | 77.78 | 71.43 | 74.23 | 3.15 | 73.33 |
| human2 | 76.92 | 92.31 | 70.37 | 80.95 | 80.14 | 7.98 | 78.52 |
| human3 | 80.00 | 89.74 | 81.48 | 71.43 | 80.66 | 6.50 | 81.48 |
| human4 | 78.46 | 89.74 | 66.67 | 80.95 | 78.96 | 8.24 | 80.00 |
| human5 | 66.15 | 76.92 | 51.85 | 61.9 | 64.21 | 8.99 | 66.67 |
| human6 | 81.54 | 82.05 | 77.78 | 71.43 | 78.20 | 4.24 | 78.52 |
| human7 | 84.62 | 92.31 | 92.59 | 90.48 | 90.00 | 3.21 | 88.89 |
| human8 | 92.31 | 97.44 | 92.59 | 85.71 | 92.01 | 4.17 | 92.59 |
| 平均值 | 78.85 | 87.18 | 76.39 | 76.79 | 79.80 | 5.81 | 80.00 |
| 标准差 | 7.53 | 7.14 | 12.69 | 8.73 | \ | \ | 7.63 |
模型/人类在同源题上的整体表现
| 全对率 | 全错率 | 一致率 | |
|---|---|---|---|
| 模型均值 | 0.4453 | 0.1484 | 0.5938 |
| 人类均值 | 0.7109 | 0.1484 | 0.8594 |
各组作答相似度均值
| Jaccard相似系数均值 | 95% 置信区间 | |
|---|---|---|
| 人类-人类 | 0.7898 | [0.7573, 0.8233] |
| 模型-模型 | 0.7382 | [0.6974, 0.7776] |
| 人类-模型 | 0.6869 | [0.6420, 0.7302] |
模型组:任务两两比较(Wilcoxon 配对检验)
| 配对 | 方向 | p(原始) | p(Holm) | 效应量 r_rb |
|---|---|---|---|---|
| 任务1–任务2 | 任务1>任务2 | 0.023438 | 0.046875 | 0.889 |
| 任务1–任务3 | 任务1>任务3 | 0.007812 | 0.046875 | 1.000 |
| 任务1–任务4 | 任务1>任务4 | 0.007812 | 0.046875 | 1.000 |
| 任务2–任务3 | 任务2>任务3 | 0.007812 | 0.046875 | 1.000 |
| 任务2–任务4 | 任务2>任务4 | 0.007812 | 0.046875 | 1.000 |
| 任务3–任务4 | 任务3>任务4 | 0.078125 | 0.078125 | 0.722 |
人类组:任务两两比较(Wilcoxon 配对检验)
| 配对 | 方向 | p(原始) | p(Holm) | 效应量 r_rb |
|---|---|---|---|---|
| 任务1–任务2 | 任务2>任务1 | 0.007812 | 0.046875 | -1.000 |
| 任务1–任务3 | 任务1>任务3 | 0.640625 | 1.000000 | 0.222 |
| 任务1–任务4 | 任务1>任务4 | 0.382812 | 1.000000 | 0.389 |
| 任务2–任务3 | 任务2>任务3 | 0.039062 | 0.156250 | 0.833 |
| 任务2–任务4 | 任务2>任务4 | 0.007812 | 0.046875 | 1.000 |
| 任务3–任务4 | 任务4>任务3 | 0.750000 | 1.000000 | -0.139 |
构式特征与模型平均准确率的相关性分析
| feat | n_w | n_wo | mean_w | mean_wo | r_pb | p_r | p_t |
|---|---|---|---|---|---|---|---|
| 负面评价 | 15 | 235 | 0.808 | 0.611 | 0.132 | 0.037 | 0.007 |
| 主观大量 | 63 | 187 | 0.546 | 0.649 | -0.127 | 0.045 | 0.053 |
| 修辞 | 13 | 237 | 0.462 | 0.632 | -0.107 | 0.092 | 0.180 |
| 复现 | 161 | 89 | 0.648 | 0.579 | 0.093 | 0.142 | 0.156 |
| 含否定成分 | 28 | 222 | 0.531 | 0.635 | -0.092 | 0.147 | 0.173 |
| 论元异常 | 6 | 244 | 0.813 | 0.618 | 0.084 | 0.186 | 0.168 |
| 冗余 | 2 | 248 | 0.938 | 0.620 | 0.080 | 0.209 | 0.091 |
| 含疑问成分 | 5 | 245 | 0.800 | 0.619 | 0.071 | 0.261 | 0.126 |
| 否定义 | 23 | 227 | 0.701 | 0.615 | 0.070 | 0.269 | 0.216 |
| 语义错配 | 11 | 239 | 0.727 | 0.618 | 0.063 | 0.320 | 0.359 |
| 主观小量 | 6 | 244 | 0.750 | 0.620 | 0.056 | 0.376 | 0.459 |
| 省略 | 69 | 181 | 0.643 | 0.615 | 0.035 | 0.581 | 0.569 |
| 周遍 | 27 | 223 | 0.653 | 0.619 | 0.029 | 0.645 | 0.637 |
| 网络用语 | 21 | 229 | 0.655 | 0.620 | 0.027 | 0.669 | 0.681 |
| 语法错配 | 63 | 187 | 0.631 | 0.620 | 0.013 | 0.837 | 0.837 |
feat:语言特征名称
n_w:包含该特征的题目数量(样本量)。
n_wo:不包含该特征的题目数量(样本量)。
mean_w:包含该特征的题目在 avg_accuracy(各模型平均正确率)上的均值。
mean_wo:不包含该特征的题目在 avg_accuracy 上的均值。
r_pb:点二列相关系数(point-biserial correlation),用于度量二元变量(是否包含该特征)与连续变量(平均正确率)之间的线性相关强度与方向。取值范围为 −1 到 1,正值表示该特征与较高正确率相关,负值表示与较低正确率相关。
p_r:与 r_pb 对应的双侧 p 值(原始未校正 p 值),用于检验相关系数是否显著不同于 0。
p_t:Welch 不等方差 t 检验的双侧 p 值,用于检验“包含该特征”与“不包含该特征”两组 avg_accuracy 均值是否显著不同。
连字句案例
| 任务 | 题目 | 模型作答 |
|---|---|---|
任务一 |
(a1) text:“连X都Y”句型后面常常会接“更别说Z”句,用Z跟X对比,强调Z更是如此(即Z更符合Y所陈述的情况)。例如“旧西藏时全县没有一条公路,交通运输全靠人背畜驮,连自行车都没有见过,更别说汽车了。” 这句话中“汽车”跟“自行车”对比,更“没有见过”。 question:下面这句话含有一个括号表示的空位,需在其中填入缺失的成分。填入后能使整句话表义完整,自然流畅,符合语体要求的是? 这家化工厂搬迁,事先连厂里工人都不知道,更别说()了。 option: A. 外面的人 B. 普通民众 C. 厂长 D. 以上都不对 answer:AB |
正确率:50.00% |
| 错选情况:A(4次) | ||
(a2) text:“连X都Y”句型后面常常会接“更别说Z”句,用Z跟X对比,强调Z更是如此(即Z更符合Y所陈述的情况)。例如“旧西藏时全县没有一条公路,交通运输全靠人背畜驮,连自行车都没有见过,更别说汽车了。” 这句话中“汽车”跟“自行车”对比,更“没有见过”。 question:下面这句话含有一个括号表示的空位,需在其中填入缺失的成分。填入后不能使整句话表义完整,自然流畅,符合语体要求的是? 这家化工厂搬迁,事先连厂里工人都不知道,更别说()了。 option: A. 厂长 B. 普通民众 C. 外面的人 D. 以上都不对 answer:A |
正确率:75.00% |
|
错选情况: B(2次) |
||
任务四 |
(b1) text:甲:博士毕业生今年找教职工作困难吗? 乙:连博士毕业生今年找教职工作都很困难。 question:甲、乙两人的一问一答是不是语义合理的对话? option: A. 是 B. 否 answer:B |
正确率:0.00% |
错选情况: A(8次) |
||
(b2) text:A:甲:硕士毕业生今年找教职工作困难吗? 乙:连硕士毕业生今年找教职工作都很困难。 question:甲、乙两人的一问一答是不是语义合理的对话? option: A. 是 B. 否 answer:B |
正确率:12.50% |
|
错选情况: A(7次) |
||
(b3) text:A:甲:博士毕业生今年找教职工作困难吗? 乙:连硕士毕业生今年找教职工作都很困难。 question:甲、乙两人的一问一答是不是语义合理的对话? option: A. 是 B. 否 answer:B |
正确率:25.00% |
|
错选情况: A(6次) |
题面形式线索分析案例
| 构式 | 题目 | 模型作答 | 人类作答 |
|---|---|---|---|
| 这+里+VP+那+里+VP | (a) text:下面4个句子都出现了“这里X那里X”这种形式的片段,如“这里出点事,那里出点事”“这里挖个坑,那里挖个坑”。 question:这个片段在哪一句中表达功能与其他三句中的表达功能不同? option: A. 中国很大,难免这里出点事,那里出点事。但是,只要特区和沿海地区保持长期稳定,政策不变,外商就会增加投资的信心。 B. 有一幅漫画:某公掘井,这里挖个坑,那里挖个坑,东挖西挖一阵,没打出水来,便摇头而去。 C. 在学懂的前提下,哪怕这里丢掉几分、那里丢掉几分,都问题不大。 D. 天上的月亮照在江湖水面,又会映出千万个月亮。但是,一个人站在一条河边,不能说这里看到一个月亮,那里看到一个月亮,就有两个月亮。 answer:D |
正确率:87.50% |
正确率:100.00% |
错选情况: A(1次) |
错选情况: 无 |
||
| 这+里+VP1+那+里+VP2 | (b) text:下面4个句子都出现了“这里X那里Y”这种形式的片段,如“这里闹革新,那里搞改革”“这里运动什么那里也运动什么”等等。 question:这个片段在哪一句中表达功能与其他三句中的表达功能不同? option: A. 你看这里闹革新,那里搞改革,不仅工农业生产部门大有可为,而且做生意、养猪等等也能大闹技术革命。 B. 群众运动只是群众路线的一种形式,不是一年到头全运动,不是一律的这里运动什么那里也运动什么。 C. 武二娃见家里整理得齐齐整整,不由的这里翻翻,那里看看。 D. 王镇长说:“过去我是当一天和尚撞一天钟,从报上看到这里干部垮了台,那里干部被撤职了;自己就想今天在镇公所,明天不知怎样呀,所以工作不安心。” answer:B |
正确率:12.50% |
正确率:62.50% |
错选情况: C(7次) |
错选情况: C(2次) D(1次) |
||
| 早+也+不+V,晚+也+不+V | (c) text:玉宝走回屋一看,伙计们都气呼呼地说:“他妈的,早也不叫,晚也不叫,才躺下就叫了。这个鸡真不叫鸡!” question:text中的“早也不叫,晚也不叫”可以替换成哪一种表达形式而不改变原义? option: A. 早不叫,晚不叫 B. 早晚都不叫 C. 早晚不叫 D. 以上都不对 answer:A |
正确率:37.50% |
正确率:87.50% |
错选情况: AB(2次) B(2次) ABC(1次) |
错选情况: B(1次) |