数据集搜索结果|NLP - 集智数据集

集智数据集

集智数据集|输入关键词搜索

供您参考使用

搜索结果|共20条数据

耗时：6/毫秒

NLP

小学生语文题数据集 2025-05-16 15:21:54

2160 57

小学生语文题数据集介绍

一、数据概况

小学语文题数据集
总量与分类：收录4230个JSON文件，覆盖小学全年级，题型包括阅读理解（38%）、古诗文鉴赏（22%）、词语运用（25%）、写作指导（15%）
难度梯度：基础能力（如拼音填空）占40%、综合应用（如段落分析）占45%、高阶思维（如主题提炼）占15%
知识点覆盖：包含6大核心领域（字词基础、句子结构、修辞手法、文学常识、阅读策略、写作技巧），细分32个子类

二、内容结构

核心字段组：
特色特征体系：

三、创新设计

双轨标注系统：
文化渗透图谱：
跨学科链接：

四、应用场景

智能教学系统：基于"能力维度"字段实现自适应推题
作文自动评价：利用"结构特征"分析篇章逻辑完整性
文化素养评估：通过"认知特征"追踪传统文化理解水平
语言障碍诊断：结合"典型错误"建立错题知识溯源网络

# 小学语文题库 # 新课标语文核心素养 # NLP教育数据集 # 多模态特征融合 # 古诗文鉴赏题库 # 阅读理解训练素材 # 作文自动评分系统 # AI错题知识图谱 # BERT中文模型应用 # 动态更新语料库

NLP

小学生数学题数据集 2025-05-14 09:28:40

2092 84

数据集介绍
本数据集专为小学数学教育研究设计，包含3997个结构化JSON文件，覆盖小学1-6年级核心数学题型。数据以应用题为主，聚焦代数、几何、统计等模块，通过多维特征标注支持教育数据分析、自动解题系统开发及认知诊断研究。

一、数据概况

时间基准：数据标注基于新历2025年5月14日的教学标准
年级分布：四年级占比最高（约32%），低年级（1-3）与高年级（5-6）分别占28%、40%
难度梯度：简单（25%）、中等（55%）、困难（20%）三级分类
知识图谱：涵盖12大知识领域，包括和差问题、分数运算、平面几何等，其中代数类题目占比达47%

二、内容结构

核心字段组：

题目元数据（类型/年级/难度）支持教学进度匹配
解题路径包含正确步骤与典型错误（如示例中的方程建立错误），揭示常见认知误区
多维特征标注（文本/结构/符号）支持NLP模型训练，其中词嵌入特征采用BERT-base预训练模型生成

特色字段解析：
结构特征标注问题构成要素（如"双物品比较关系"），支持题型自动分类
特殊符号特征记录数学符号密度（平均每题含3.2个运算符），反映题目复杂度
解析说明字段包含教学指导建议（如"强化等量关系分析"），可直接用于教案生成

三、应用场景

教育技术开发：支持智能题库系统、作业自动批改、个性化学习路径规划
认知诊断研究：通过典型错误分析建立学生错误模式库
教材编写辅助：基于知识点分布分析优化章节难度曲线
跨模态研究：文本特征与词嵌入的对应关系可用于图文结合题生成

# 数学应用题解析 # 小学数学思维训练 # 和差问题解题技巧 # 四年级数学练习题 # 代数解法教学 # 应用题分类指南 # 中文数学资源 # 中等难度数学题 # 解题步骤详解 # 数学知识点归纳

NLP

中文垃圾邮件分类数据集 2025-05-13 10:04:21

3327 159

中文垃圾邮件分类数据集简介
本数据集是针对电子邮件分类任务构建的规范化中文语料库，旨在为垃圾邮件检测模型的训练与评估提供多维度特征支持。其核心特点如下：

1. 数据集概述

规模与结构：共包含3980个规范化JSON文件，每个文件独立存储一封邮件的完整信息，并按垃圾邮件（spam）与正常邮件（normal）两类进行标注，形成二元分类基础。
数据来源：邮件内容覆盖商业推广、虚假中奖通知、金融诈骗、日常通信等典型场景，贴近中文用户真实邮箱环境。
标注质量：所有邮件均经过人工或自动化验证，确保类别标签的准确性，可直接用于监督学习任务。

2. 数据组成与特征

每封邮件的JSON结构包含以下关键字段，支持从语义、统计、时间等多角度进行特征分析：

a. 核心字段

邮件主题（subject）：反映邮件意图的短文本，垃圾邮件常含“免费领取”“限时特惠”“账户异常”等诱导性词汇。
邮件正文（body）：长文本内容，垃圾邮件多含重复促销信息、嵌入超链接或诱导用户点击的互动话术。
发件时间（date）：精确到分钟的时间戳，可用于分析垃圾邮件的发送时段规律（如深夜或节假日高发）。
邮件头信息（header）：包含发件服务器IP、传输路径等技术信息，辅助识别伪造发件地址或可疑邮件源。

b. 结构化特征字段

文本特征（text_features）：基于分词与词频提取的关键词（如“中奖”“投资机会”“VIP特权”）及高频词组，凸显垃圾邮件的语义倾向。
结构特征（structure_features）：统计邮件长度、段落数、链接/图片数量等，垃圾邮件普遍存在长文本、多链接（如广告跳转URL）的特点。
特殊字符特征（special_character_features）：检测异常符号（如❗、$$、###）及HTML标签密度，垃圾邮件常通过视觉冲击性符号吸引注意。

3. 应用场景

分类模型开发：适用于训练朴素贝叶斯、SVM、深度学习（如LSTM、Transformer）等分类算法。
特征工程研究：通过对比文本、结构与符号特征的组合效果，优化特征选择策略。
发送行为分析：结合时间字段，挖掘垃圾邮件发送者的时间分布规律与潜在攻击模式。

4. 数据集优势

多维特征融合：同时包含原始文本与结构化特征，避免单一模态的分析局限性。
真实性高：邮件内容涵盖仿冒通知、钓鱼链接等复杂类型，模拟真实对抗场景。
可扩展性强：支持与外部词库（如敏感词库、黑名单域名）结合，增强模型泛化能力。

5. 潜在挑战与建议

类别平衡性：需检查垃圾邮件与正常邮件的比例，必要时通过过采样或数据增强优化分布。
隐私合规性：邮件内容已脱敏处理，实际应用中需注意避免引入用户个人信息。
动态对抗：需定期更新数据集以应对新型垃圾邮件话术演变（如当前流行的AI生成内容）。

本数据集可作为学术研究与工业界开发的基础资源，为中文自然语言处理、网络安全等领域提供标准化评测基准。

# 垃圾邮件检测 # 邮件安全防护 # 中文自然语言处理 # NLP算法应用 # 邮件分类技术 # 网络安全解决方案 # 机器学习数据集 # AI反欺诈技术 # 电子邮件特征分析 # 2025网络安全趋势

«
1
2
3
4
5
6
7
»