数据集搜索结果|BERT - 集智数据集

集智数据集

集智数据集|输入关键词搜索

供您参考使用

搜索结果|共7条数据

耗时：6/毫秒

BERT

小学生语文题数据集 2025-05-16 15:21:54

2159 57

小学生语文题数据集介绍

一、数据概况

小学语文题数据集
总量与分类：收录4230个JSON文件，覆盖小学全年级，题型包括阅读理解（38%）、古诗文鉴赏（22%）、词语运用（25%）、写作指导（15%）
难度梯度：基础能力（如拼音填空）占40%、综合应用（如段落分析）占45%、高阶思维（如主题提炼）占15%
知识点覆盖：包含6大核心领域（字词基础、句子结构、修辞手法、文学常识、阅读策略、写作技巧），细分32个子类

二、内容结构

核心字段组：
特色特征体系：

三、创新设计

双轨标注系统：
文化渗透图谱：
跨学科链接：

四、应用场景

智能教学系统：基于"能力维度"字段实现自适应推题
作文自动评价：利用"结构特征"分析篇章逻辑完整性
文化素养评估：通过"认知特征"追踪传统文化理解水平
语言障碍诊断：结合"典型错误"建立错题知识溯源网络

# 小学语文题库 # 新课标语文核心素养 # NLP教育数据集 # 多模态特征融合 # 古诗文鉴赏题库 # 阅读理解训练素材 # 作文自动评分系统 # AI错题知识图谱 # BERT中文模型应用 # 动态更新语料库

BERT

小学生数学题数据集 2025-05-14 09:28:40

2091 84

数据集介绍
本数据集专为小学数学教育研究设计，包含3997个结构化JSON文件，覆盖小学1-6年级核心数学题型。数据以应用题为主，聚焦代数、几何、统计等模块，通过多维特征标注支持教育数据分析、自动解题系统开发及认知诊断研究。

一、数据概况

时间基准：数据标注基于新历2025年5月14日的教学标准
年级分布：四年级占比最高（约32%），低年级（1-3）与高年级（5-6）分别占28%、40%
难度梯度：简单（25%）、中等（55%）、困难（20%）三级分类
知识图谱：涵盖12大知识领域，包括和差问题、分数运算、平面几何等，其中代数类题目占比达47%

二、内容结构

核心字段组：

题目元数据（类型/年级/难度）支持教学进度匹配
解题路径包含正确步骤与典型错误（如示例中的方程建立错误），揭示常见认知误区
多维特征标注（文本/结构/符号）支持NLP模型训练，其中词嵌入特征采用BERT-base预训练模型生成

特色字段解析：
结构特征标注问题构成要素（如"双物品比较关系"），支持题型自动分类
特殊符号特征记录数学符号密度（平均每题含3.2个运算符），反映题目复杂度
解析说明字段包含教学指导建议（如"强化等量关系分析"），可直接用于教案生成

三、应用场景

教育技术开发：支持智能题库系统、作业自动批改、个性化学习路径规划
认知诊断研究：通过典型错误分析建立学生错误模式库
教材编写辅助：基于知识点分布分析优化章节难度曲线
跨模态研究：文本特征与词嵌入的对应关系可用于图文结合题生成

# 数学应用题解析 # 小学数学思维训练 # 和差问题解题技巧 # 四年级数学练习题 # 代数解法教学 # 应用题分类指南 # 中文数学资源 # 中等难度数学题 # 解题步骤详解 # 数学知识点归纳

BERT

电商客户与客服对话聊天内容数据集 2024-11-18 13:50:59

9069 652

数据集概述
本数据集包含来自电商领域的客户与客服之间的多轮对话，覆盖多个电商场景，如手机、家电、服装、鞋袜、图书、电脑等。数据集记录了客户与客服的对话内容，以及对应的中文和英文分词信息，适用于自然语言处理（NLP）任务中的对话生成、情感分析、多语言模型训练等研究场景。

数据格式
数据以 xlsx 文件格式提供，每行记录一组客户与客服的对话内容及相关信息，字段说明如下：

id：每条对话的唯一标识符，用于数据索引和管理。
【中文】客户对话内容：客户在对话中使用的原始中文内容。
【中文】客服对话内容：客服在对话中使用的原始中文内容。
【中文】客户对话分词：对客户中文内容进行分词后的结果，词之间以分隔符连接。
【中文】客服对话分词：对客服中文内容进行分词后的结果。
【英语】客户对话内容：客户在对话中对应的英文翻译内容。
【英语】客服对话内容：客服在对话中对应的英文翻译内容。
【英语】客户对话分词：对客户英文内容进行分词后的结果。
【英语】客服对话分词：对客服英文内容进行分词后的结果。
对话id：标识每组完整对话的唯一对话编号。

数据特点

场景多样：涵盖电商领域常见商品（如手机、家电、服装等），适用于多领域对话研究。
双语支持：同时提供中文和英文对话内容及分词信息，适合多语言任务。
结构化表示：分词字段支持特征提取和深度学习模型训练。
真实对话：数据来自实际电商场景，包含常见的客户提问和客服回答模式。

应用场景

对话生成模型训练：用于训练客户与客服对话生成模型，实现电商自动化客服。
情感分析：通过对话内容分析客户情绪，优化客户服务体验。
多语言对话翻译：适用于多语言对话翻译模型的训练与评估。
意图识别与问答系统：开发基于意图识别的问答系统，提高电商客服效率。

数据特点总结
本数据集为电商领域的客户服务智能化提供了高质量的语料支持，适用于多语言对话研究、自然语言生成任务以及情感分析场景。其多领域、多语言、多场景的特性，为构建智能客服系统和电商对话研究奠定了坚实的数据基础。

数据集总量：约2万组对话

# 孪生网络 # SiameseNetwork对话匹配 # 电商对话分析 # 对比学习算法 # 自然语言处理NLP # DistilBERT文本编码 # 客服智能匹配 # 对话意图识别 # 深度学习客服系统 # 文本相似度计算

«
1
2
3
»