集智数据集|输入关键词搜索

供您参考使用

搜索结果|共7条数据

耗时:6/毫秒

BERT
小学生语文题数据集 2025-05-16 15:21:54

304 15

小学生语文题数据集介绍

一、数据概况

  1. 小学语文题数据集
  2. 总量与分类:收录4230个JSON文件,覆盖小学全年级,题型包括阅读理解(38%)、古诗文鉴赏(22%)、词语运用(25%)、写作指导(15%)
  3. 难度梯度:基础能力(如拼音填空)占40%、综合应用(如段落分析)占45%、高阶思维(如主题提炼)占15%
  4. 知识点覆盖:包含6大核心领域(字词基础、句子结构、修辞手法、文学常识、阅读策略、写作技巧),细分32个子类

二、内容结构

  • 核心字段组
  • 特色特征体系

三、创新设计

  1. 双轨标注系统
  2. 文化渗透图谱
  3. 跨学科链接

四、应用场景

  • 智能教学系统:基于"能力维度"字段实现自适应推题
  • 作文自动评价:利用"结构特征"分析篇章逻辑完整性
  • 文化素养评估:通过"认知特征"追踪传统文化理解水平
  • 语言障碍诊断:结合"典型错误"建立错题知识溯源网络

# 小学语文题库 # 新课标语文核心素养 # NLP教育数据集 # 多模态特征融合 # 古诗文鉴赏题库 # 阅读理解训练素材 # 作文自动评分系统 # AI错题知识图谱 # BERT中文模型应用 # 动态更新语料库


BERT
小学生数学题数据集 2025-05-14 09:28:40

239 33

数据集介绍
本数据集专为小学数学教育研究设计,包含3997个结构化JSON文件,覆盖小学1-6年级核心数学题型。数据以应用题为主,聚焦代数、几何、统计等模块,通过多维特征标注支持教育数据分析、自动解题系统开发及认知诊断研究。

一、数据概况

  1. 时间基准:数据标注基于新历2025年5月14日的教学标准
  2. 年级分布:四年级占比最高(约32%),低年级(1-3)与高年级(5-6)分别占28%、40%
  3. 难度梯度:简单(25%)、中等(55%)、困难(20%)三级分类
  4. 知识图谱:涵盖12大知识领域,包括和差问题、分数运算、平面几何等,其中代数类题目占比达47%

二、内容结构

  • 核心字段组
  1. 题目元数据(类型/年级/难度)支持教学进度匹配
  2. 解题路径包含正确步骤与典型错误(如示例中的方程建立错误),揭示常见认知误区
  3. 多维特征标注(文本/结构/符号)支持NLP模型训练,其中词嵌入特征采用BERT-base预训练模型生成
  • 特色字段解析
  • 结构特征标注问题构成要素(如"双物品比较关系"),支持题型自动分类
  • 特殊符号特征记录数学符号密度(平均每题含3.2个运算符),反映题目复杂度
  • 解析说明字段包含教学指导建议(如"强化等量关系分析"),可直接用于教案生成

三、应用场景

  1. 教育技术开发:支持智能题库系统、作业自动批改、个性化学习路径规划
  2. 认知诊断研究:通过典型错误分析建立学生错误模式库
  3. 教材编写辅助:基于知识点分布分析优化章节难度曲线
  4. 跨模态研究:文本特征与词嵌入的对应关系可用于图文结合题生成

# 数学应用题解析 # 小学数学思维训练 # 和差问题解题技巧 # 四年级数学练习题 # 代数解法教学 # 应用题分类指南 # 中文数学资源 # 中等难度数学题 # 解题步骤详解 # 数学知识点归纳


BERT
电商客户与客服对话聊天内容数据集 2024-11-18 13:50:59

4640 449

数据集概述
本数据集包含来自电商领域的客户与客服之间的多轮对话,覆盖多个电商场景,如手机、家电、服装、鞋袜、图书、电脑等。数据集记录了客户与客服的对话内容,以及对应的中文和英文分词信息,适用于自然语言处理(NLP)任务中的对话生成、情感分析、多语言模型训练等研究场景。

数据格式
数据以 xlsx 文件格式提供,每行记录一组客户与客服的对话内容及相关信息,字段说明如下:

  • id:每条对话的唯一标识符,用于数据索引和管理。
  • 【中文】客户对话内容:客户在对话中使用的原始中文内容。
  • 【中文】客服对话内容:客服在对话中使用的原始中文内容。
  • 【中文】客户对话分词:对客户中文内容进行分词后的结果,词之间以分隔符连接。
  • 【中文】客服对话分词:对客服中文内容进行分词后的结果。
  • 【英语】客户对话内容:客户在对话中对应的英文翻译内容。
  • 【英语】客服对话内容:客服在对话中对应的英文翻译内容。
  • 【英语】客户对话分词:对客户英文内容进行分词后的结果。
  • 【英语】客服对话分词:对客服英文内容进行分词后的结果。
  • 对话id:标识每组完整对话的唯一对话编号。

数据特点

  1. 场景多样:涵盖电商领域常见商品(如手机、家电、服装等),适用于多领域对话研究。
  2. 双语支持:同时提供中文和英文对话内容及分词信息,适合多语言任务。
  3. 结构化表示:分词字段支持特征提取和深度学习模型训练。
  4. 真实对话:数据来自实际电商场景,包含常见的客户提问和客服回答模式。

应用场景

  1. 对话生成模型训练:用于训练客户与客服对话生成模型,实现电商自动化客服。
  2. 情感分析:通过对话内容分析客户情绪,优化客户服务体验。
  3. 多语言对话翻译:适用于多语言对话翻译模型的训练与评估。
  4. 意图识别与问答系统:开发基于意图识别的问答系统,提高电商客服效率。

数据特点总结
本数据集为电商领域的客户服务智能化提供了高质量的语料支持,适用于多语言对话研究、自然语言生成任务以及情感分析场景。其多领域、多语言、多场景的特性,为构建智能客服系统和电商对话研究奠定了坚实的数据基础。

数据集总量:约2万组对话


# 孪生网络 # SiameseNetwork对话匹配 # 电商对话分析 # 对比学习算法 # 自然语言处理NLP # DistilBERT文本编码 # 客服智能匹配 # 对话意图识别 # 深度学习客服系统 # 文本相似度计算


| 友情链接: | 网站地图 | 更新日志 |


Copyright ©2025 集智软件工作室. 皖ICP备2025082424号-1 本站数据文章仅供研究、学习用途,禁止商用,使用时请注明数据集作者出处;本站数据均来自于互联网,如有侵权请联系本站删除。