第六届全国社会媒体处理大会(SMP 2017)

CSDN用户画像技术评测

目录

背景介绍

任务描述

数据集说明

重要日期

竞赛规则

提交物

评测方式

奖励

参赛系统

组织者

联系方式

致谢

附录

继2016年新浪微博用户画像技术评测火爆开展之后,SMP 2017 CSDN用户画像技术评测即将正式启动。今年的评测将具有以下特色:

有趣的数据集——由全球最大的中文IT技术社区CSDN提供超过10万用户的内容数据(博客、帖子等)和行为数据(浏览、评论、收藏、转发、点赞/踩、关注、私信等);

有挑战的任务——聚焦CSDN用户画像问题,具体评测任务包括用户内容主题词生成、用户兴趣标注以及用户成长预测;

丰厚的奖励——总奖金3万元,第一名奖金1万元;所有获奖者将被邀请在SMP 2017会议上作口头报告;前30名均可获得由中国中文信息学会社会媒体处理专委会颁发的名次证书。

热烈欢迎对用户画像感兴趣的个人和团队积极报名参赛!

报名参赛网址:https://biendata.com (5月3日开始报名)

背景简介

关于SMP 2017

全国社会媒体处理大会(SMP)由中国中文信息学会社会媒体处理专委会主办,专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。

第六届全国社会媒体处理大会(SMP 2017)由中国科学院计算技术研究所承办,将于2017年9月14—17日在北京召开。

关于用户画像技术评测

用户画像(user profiling)是指对用户的人口统计学特征、行为模式、兴趣偏好等不同维度的属性进行标签化,它是互联网时代实现精准化推荐和个性化服务的必经之路,在网络营运、管理和安全等领域具有重要意义。

2016年全国社会媒体处理大会举办了首次用户画像技术评测。评测的题目是微博用户画像,包括用户年龄推断、用户性别推断以及用户地域推断三项评测任务。来自全球的595名参赛者共组成了197支队伍参加了该次技术评测,共7支队伍分获一、二、三获奖,并受邀于2016年10月29日在江西南昌召开的SMP 2016大会上作技术评测报告。

关于CSDN用户画像

SMP 2017用户画像技术评测由CSDN协办并赞助。CSDN(www.csdn.net)是中国最大的开发者服务平台,也是全球最大的中文IT技术社区,拥有5000万注册用户,每天有数十万用户在论坛上进行IT技术的交流、咨询和分享。

本次技术评测将聚焦于CSDN技术论坛的用户画像问题。CSDN用户画像是指利用CSDN用户的内容信息(如发表的博客、帖子、评论等)和行为数据(如浏览、评论、收藏、转发、点赞/踩、关注、私信等)等,对用户的不同维度属性进行画像,对完善及扩充CSDN用户信息、分析CSDN社区生态以及支撑CSDN业务发展等方面具有非常重要的意义。

任务描述

参赛队伍利用给定的CSDN数据集,针对CSDN用户进行画像,具体包括以下三个评测任务:

任务1:用户内容主题词生成

给定若干用户文档(博客或帖子),为每一篇文档生成3个最合适的主题词。要求生成的主题词必须出现在文档中。

任务2:用户兴趣标注

给定若干用户的文档信息(博客或帖子)和行为数据(浏览、评论、收藏、转发、点赞/踩、关注、私信等),为每一个用户标注3个最合适的兴趣方向。标签空间由CSDN给定。

任务3:用户成长预测

给定若干用户在一段时间内(至少1年)的文档信息(博客或帖子)和行为数据(浏览、评论、收藏、转发、点赞/踩、关注、私信等),预测每一个用户在未来一段时间内(半年至1年)的成长值。用户成长值是根据用户的综合表现打分所得,但不会公布具体打分准则。成长值将会归一化到[0, 1]区间,其中值为0表示用户流失。

数据集说明

1. 本次技术评测使用的数据集由CSDN提供,仅限于本次技术评测使用,未经许可不能用于任何其他目的和任何地方。如需将本数据集用于其他课题研究及发表论文,需与评测主办方或CSDN联系取得许可后方可使用。

2. 数据集主要包含以下四类信息:

a) 用户个人信息:包含超过10万CSDN用户的基本公开信息,如注册年份、登录次数、论坛积分、关注数、粉丝数等;

b) 用户内容信息:包含超过100万篇的CSDN文档数据,包括用户原创、或转载的博客或帖子;

c) 用户行为数据:包含数据集中所有用户之间或用户与文档之间的浏览、评论、收藏、转发、点赞/踩、关注、私信等行为日志;

d) 真值数据:主办方将提供部分样本数据的真值,用于模型的训练、验证和评测。

3. 具体的数据内容、范围、规模及格式以最终发布的真实数据集为准。

4. 训练集用于模型的学习,验证集用于在线实时评估算法效果,评测集用于最终的效果评测。其中验证集和评测集的标签信息不公开发布,用于组委会进行在线实时评测和最终评测。

5. 数据集将会进行脱敏处理,隐去用户的ID、用户名等信息。

重要日期

5月03日:发布评测方案,开始报名

6月01日:发布训练集

7月01日:发布验证集,开始提交验证集中间结果

7月31日:停止提交验证集中间结果

8月01日:发布评测集,24小时之内提交评测集最终结果

8月20日:公布名次及获奖者名单

9月16日:颁奖典礼及研讨会报告

竞赛规则

1. 所有参赛选手都必须在评测管理系统biendata.com中注册;

2. 参赛选手在管理系统中组队,每支队伍最多不超过10名队员;

3. 每支队伍需指定一名队长,队伍名称不超过15个字符;

4. 每名选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消所有相关队伍的参赛资格;

5. 参赛队伍在评测集发布之前允许进行队伍合并,但不能拆分,且合并后的队伍不得超过总人数上限(10人);

6. 允许使用开源代码或工具,但不允许使用任何未公开发布或需要授权的代码或工具;

7. 允许使用互联网上公开发布的词典数据,但不允许从CSDN网站爬取主办方提供的数据集之外的任何数据;

8. 参赛队伍可在评测集发布之前随时上传验证集的计算结果(每日最多可上传5次),管理系统会及时更新各队伍的最新排名情况;

9. 评测集发布后,参赛队伍需要在24小时之内计算出最终结果并提交,各参赛队伍要提前确保算法能在24之内完成计算。

提交物

1. 验证集中间结果:每支队伍在评测集发布之前可随时提交验证集的中间结果,系统进行在线实时评测。三个任务的计算结果合并到一个文本文件中,文件命名为“temp.txt”,具体格式如下:

<task1>

contentid,keyword1,keyword2,keyword3

1056,条件随机场,概率图模型,吉布斯采样

1058,前端开发,html5,JQuery

……

</task1>

<task2>

userid,interest1,interest2,interest3

2137,机器学习,深度学习,神经网络

2138,操作系统,多线程编程,MPI

2140,复杂网络,Social Networks,生物网络

……

</task2>

<task3>

userid,growthvalue

2138,0.89

2139,0.13

2140,0.00

24763,0.59

……

</task3>

task1、task2、task3依次是3个任务(用户内容主题词生成、用户兴趣标注、用户成长预测)的计算结果。

2. 评测集最终结果:每支队伍需在提交最终结果截止时间之前,提交评测集的最终结果。三个任务的计算结果合并到一个文本文件中,文件命名为“final.txt”,格式与中间结果文件temp.txt完全一致。

注意:提交的文本文件必须是无BOM的UTF-8格式;除了单词间的分隔符,文件中不要有多余的空格;每个任务下的第一行为header line;文件末尾加一个空行。

评测方式

对每支参赛队伍提交的最终结果,首先分别计算出每个任务的得分:

任务1的得分为参赛队伍计算生成的主题词与给定的主题词完全相同的比例,即

其中,为任务1的评测集样本个数,为计算生成的样本的主题词集合,为给定的样本的主题词集合,这里

任务2的得分为参赛队伍计算生成的用户兴趣与给定的用户兴趣完全相同的比例,即

其中,为任务2的评测集样本个数,为计算生成的用户的兴趣集合,为给定的用户的兴趣集合,这里

任务3的得分由参赛队伍预测的用户成长值与给定的用户真实成长值之间的相对误差来计算,即

其中,为任务3的评测集样本个数,为用户的预测成长值,为用户的真实成长值。

每支参赛队伍的最终得分为:

最终得分即为本次技术评测的排名依据。

说明:获得一、二、三等奖队伍需提交打包源码和算法说明文档,以便组委会对算法和结果的可信度进行核实。如发现有违规或作弊行为,则取消其评奖资格,由后面的队伍依次递补。打包源码要求是可运行的,需提供环境依赖和使用说明。源码和说明文档通过委员会邮箱smpcup2017@163.com提交。

奖励

一等奖1名:10000元

二等奖2名:每名4000元

三等奖3名:每名2500元

单项奖(单任务第一名)3名:1500元

获奖者将被邀请在SMP 2017大会上进行口头报告。

前30名均可获得由组委会颁发的名次证书。

参赛系统

所有参赛队伍在本管理系统中注册、组队、下载数据集、实时更新验证结果、提交最终评测结果。

系统网址:http://biendata.com

组织者

主办单位:

    中国中文信息学会社会媒体处理专业委员会

协办单位:

    北京创新乐知信息技术有限公司(CSDN)

评测主席:

    蒋盛益 广东外语外贸大学

    万怀宇 北京交通大学

评测委员:(按姓氏笔画排序)

    王军伟 北京创新乐知信息技术有限公司(CSDN)

    左建平 北京创新乐知信息技术有限公司(CSDN)

    刘 洋 山东大学

    刘德喜 江西财经大学

    沙 灜 中国科学院信息工程研究所

    胡 照 江西萍乡检察院

    蔡 超 中国国防科技信息中心

    薛 云 华南师范大学

联系方式

如有任何与本次技术评测相关疑问,请随时联系评测委员会。

邮箱:smpcup2017@163.com

致谢

感谢CSDN为本次评测活动提供数据集和赞助!

附录:SMP CUP 2016回顾

2016年第五届全国社会媒体处理大会举办了首次用户画像技术评测(SMP CUP 2016),由北京微众文化传媒有限公司赞助。本次技术评测的题目是微博用户画像,参赛队伍利用给定的新浪微博数据(一个包含约256.7万用户、5.5亿条关注关系的微博社交网络数据集,还包括用户部分个人信息、用户微博文本以及用户粉丝列表),来推断用户的年龄(-1979/1980-1989/1990+)、性别(男/女)和地域(东北/华北/华中/华东/西北/西南/华南/境外)。

本次技术评测吸引了来自全球的595名参赛者共组成了197支队伍参赛,共7支队伍分获一、二、三获奖,来自哈尔滨工业大学深圳研究生院的HLT_HITSZ队斩获冠军(一等奖),另有6支队伍分获二、三等奖。7支获奖队伍分享了2万元奖金,并受邀于2016年10月29日在江西南昌召开的SMP 2016大会上作技术评测报告并参加颁奖仪式。

        

SMP CUP 2016颁奖仪式合影