数据集

名称 格式 链接 提取码
cts7.rar rar (6.2 MB) https://pan.baidu.com/s/1kPy9Dtkzt9nDUZQ0Pmamjg 7j5h

背景简介

关于SMP 2019

全国社会媒体处理大会(SMP)由中国中文信息学会社会媒体处理专委会主办,专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。第八届全国社会媒体处理大会(SMP 2019)由哈尔滨工业大学(深圳)承办,将于2019年8月16—18日在深圳召开。本次会议的评测单元有隐式情感分析、中文人机对话和文本溯源三个项目

关于文本溯源技术评测

SMP 2019文本溯源评测由中国中文信息学会社会媒体处理专业委员会主办,黑龙江工程学院承办。本次技术评测以科研立项或成果创新型审查为应用背景,文本溯源的目标是判断一个文本的内容是否复制或改编于另外一个或者多个文本。文本溯源技术在学术诚信检测、搜索引擎优化等领域有广泛应用。

数据集说明

1、本次评测使用的CTSC-19(Chinese Text Sourcing Corpus)语料是在SogouT-16语料基础上进行标注的。SogouT-16语料的版权归搜狗公司和清华大学所有,使用该语料应得到搜狗公司、清华大学的许可。对抄袭文本的改编包括但不限于:1)文本操作,对文本进行混排、删除、插入词或短语等方式生成新文本;2)语义词汇变换,进行同义词、反义词等替换该词生成新文本;3)句法变换,即通过句法变换的方式进行改写;4)释义修改,即要求志愿者在理解的基础上重新撰写。

2、本次评测使用的CTSC-19语料的版权归黑龙江工程学院所有,仅限于非盈利性科学研究使用,未经许可不得用于盈利性目的,不得汇编入其他数据集或数据库。使用本语料进行非盈利性科学研究使用时,需要得到黑龙江工程学院的许可。

训练集格式

本次评测的数据集包括若干主题,主题编号与SogouT 的主题对应。每个主题下的文件包括:(1)一篇可疑文档,以suspicious-document为文件名前缀标记;(2)可疑文档相应的备选抄袭文档集合,以source-document为文件名前缀标记;(3)可疑文档抄袭片段的标记文件pairs为文件名前缀标记,其格式如下:

  1. <document reference="suspicious-document00XX.txt">
  2. <feature name="text sourcing" type="artificial" plg_language="cn" plg_offset="302" plg_length="239" source_document="source-document1802.txt" source_language="cn" source_offset="825" source_length="239"/><feature name="text sourceing" type="artificial" plg_language="cn" plg_offset="5600" plg_length="457" source_document="source-document1805.txt" source_language="cn" source_offset="2808" source_length="460"/>
  3. </document>

其中,每行记录了一个抄袭案例,plg_offset标记了可疑文档抄袭片段的起始位置,plg_length标记了可疑文档抄袭片段的长度;source_document标记了可疑文档抄袭的源文档名,source_offset标记了源文档被抄袭片段的起始位置,plg_length标记了源文档被抄袭片段的长度。

可疑文档、备选抄袭文档以及抄袭片段的标记文件均以纯文本的格式给出,编码为UTF-8。

数据集说明

1. 本次技术评测使用的数据集由今日头条提供,仅限于本次技术评测使用,未经许可不能用于任何其他目的和任何地方。如需将本数据集用于其他课题研究及发表论文,需与评测主办方或今日头条联系取得许可后方可使用。

2. 数据集的具体内容、范围、规模及格式以最终发布的真实数据集为准。

3. 训练集用于模型的学习,验证集用于在线实时评估算法效果,评测集用于最终的效果评测。其中验证集和评测集的标签信息不公开发布,用于组委会进行在线实时评测和最终评测。