数据集介绍
本数据集专为小学数学教育研究设计,包含3997个结构化JSON文件,覆盖小学1-6年级核心数学题型。数据以应用题为主,聚焦代数、几何、统计等模块,通过多维特征标注支持教育数据分析、自动解题系统开发及认知诊断研究。
一、数据概况
- 时间基准:数据标注基于新历2025年5月14日的教学标准
- 年级分布:四年级占比最高(约32%),低年级(1-3)与高年级(5-6)分别占28%、40%
- 难度梯度:简单(25%)、中等(55%)、困难(20%)三级分类
- 知识图谱:涵盖12大知识领域,包括和差问题、分数运算、平面几何等,其中代数类题目占比达47%
二、内容结构
- 题目元数据(类型/年级/难度)支持教学进度匹配
- 解题路径包含正确步骤与典型错误(如示例中的方程建立错误),揭示常见认知误区
- 多维特征标注(文本/结构/符号)支持NLP模型训练,其中词嵌入特征采用BERT-base预训练模型生成
- 特色字段解析:
- 结构特征标注问题构成要素(如"双物品比较关系"),支持题型自动分类
- 特殊符号特征记录数学符号密度(平均每题含3.2个运算符),反映题目复杂度
- 解析说明字段包含教学指导建议(如"强化等量关系分析"),可直接用于教案生成
三、应用场景
- 教育技术开发:支持智能题库系统、作业自动批改、个性化学习路径规划
- 认知诊断研究:通过典型错误分析建立学生错误模式库
- 教材编写辅助:基于知识点分布分析优化章节难度曲线
- 跨模态研究:文本特征与词嵌入的对应关系可用于图文结合题生成