KDD Cup介绍
KDD Cup全称为
国际知识发现和数据挖掘竞赛,是由ACM的数据挖掘及知识发现专委会(SIGKDD)主办的数据挖掘研究领域的国际顶级赛事。KDD的英文全称是Knowledge Discovery and Data Mining,即知识发现与数据挖掘,从1997年开始,由ACM协会SIGKDD分会每年举办一次,目前是数据挖掘领域最有影响力的赛事。
数据挖掘是一个较新的交叉学科,随着海量数据近年来在各个行业的涌现,发挥了越来越大的推动作用,受到了广泛的关注。全球的华人学者在这一研究领域扮演着举足轻重的角色。国内也逐步孕育出了一支庞大的数据挖掘研究及开发队伍,并且在最近几年的KDD年会上有出色的表现。
KDD Cup同时面向企业界和学术界,云集了世界数据挖掘界的顶尖专家、学者、工程师、学生等参加,通过竞赛,为数据挖掘从业者们提供了一个学术交流和研究成果展示的理想场所。KDD Cup历年的比赛题取自不同的挖掘领域,并都有很强的应用背景。KDD Cup的获胜队伍,将被邀请在当年举办的ACM SIGKDD Conference国际会议上提交论文并作技术报告,这些技术推动了数据挖掘行业不断向前发展。
主办方介绍
ACM(Association for Computing Machinery )美国计算机协会是一个世界性的计算机专业组织,创立于1947年,是世界上影响力最强的科学性及教育性计算机组织。ACM每年都出版大量计算机科学的高水平专门期刊,并在各项计算机专业领域都有分会,称为SIG(Special Interest Group)。ACM就像一个伞状的组织,为其所有的成员提供信息,包括最新的尖端科学的发展,从理论思想到应用的转换,提供交换信息的机会。正象ACM建立时的初衷,它仍一直保持着它的发展“信息技术”的目标,ACM成为一个永久的更新最新信息领域的源泉。ACM颁发“图灵奖”给计算机领域做出杰出贡献的人士。该奖项被称为计算机领域的诺贝尔奖。
KDD Cup的主办方是SIGKDD是ACM的数据挖掘分会,其全称为ACM Special Interest Group on Knowledge Discovery and Data Mining,SIGKDD是国际数据挖掘界最著名的组织,其中KDD(Knowledge Discovery and Data Mining,知识发现与数据挖掘)一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议(IJCAI)上,由Piatetsky Sharpiro正式提出;1989-1994年间美国人工智能协会共举办了4届KDD国际专题讨论会(89、91、93、94)。1995年,国际KDD组委把专题讨论会更名为国际会议,并在加拿大蒙特利尔召开了第1届KDD国际学术会议,以后每年召开一次。1998年,ACM成立了KDD特殊兴趣组SIGKDD,于1999年第五届开始组织KDD学术会议。由于KDD的学科交叉性和广泛应用性,吸引了来自统计、机器学习、数据库、互联网、生物信息学、多媒体、自然语言处理、人机交互、社交网络、高性能计算及大数据挖掘等众多领域的专家、学者,KDD Cup的参赛队伍、Conference的投稿量呈现逐年增加的趋势,其行业影响力也越来越大。
SIGKDD的现任主席为Usama Fayyad(2009-now),前任主席包括Gregory Piatetsky Shapiro(2005-2008)、Won Kim (1998-2004)
KDD Cup每届比赛会由企业或大学来进行协办,协办者通常会提供极有前沿应用价值的大规模数据作为挖掘样本。作为公认的数据处理领域内的最高水平的赛事之一,历年的竞赛所用数据往往被数据挖掘从业者用作研究和开发的良好训练数据。
近几年KDD-Cup的协办单位包括:腾讯公司(2012)、雅虎公司(2011)、卡耐基梅隆大学(2010)、法国电信公司(2009)、西门子医学(2008)
KDD Cup历年竞赛题目和获胜队伍
KDD Cup 2012届竞赛题:
Track1任务:社交网络中的个性化推荐系统
根据腾讯微博中的用户属性(User Profile)、SNS社交关系、在社交网络中的互动记录(retweet、comment、at)等,以及过去30天内的历史item推荐记录,来预测接下来最有可能被用户接受的推荐item列表
KDD Cup 2012年优胜者:
冠军:ACMClass@SJTU (上海交通大学ACM班)
亚军:Shanda Innovations (盛大创新院)
季军:SYSU_Wargreymon (中山大学)
Track2任务:搜索广告系统的pTCR点击率预估
提供用户在腾讯搜索的查询词(query)、展现的广告信息(包括广告标题、描述、url等),以及广告的相对位置(多条广告中的排名)和用户点击情况,以及广告主和用户的属性信息,来预测后续时间用户对广告的点击情况
KDD Cup 2012年Track2优胜者:
冠军:Catch Up (国立台湾大学)
亚军:Opera Solutions (Opera Inc.)
季军:Chines Academy of Sciences (×××)
KDD Cup 2011届竞赛题:
Track1任务:音乐评分预测
根据用户在雅虎音乐上item的历史评分记录,来预测用户对其他item(包括歌曲、专辑等)的评分和实际评分之间的差异RMSE(最小均方误差)。同时提供的还有歌曲所属的专辑、歌手、曲风等信息
KDD Cup 2011年Track1优胜者:
冠军:National Taiwan University (国立台湾大学)
亚军:Commendo (Commendo Inc.)
季军:InnerPeace (上海交通大学)
Track2任务:识别音乐是否被用户评分
每个用户提供6首候选的歌曲,其中3首为用户已评分数据,另3首是该用户未评分,但是出自用户中整体评分较高的歌曲。歌曲的属性信息(专辑、歌手、曲风等)也同样提供。参赛者给出二分分类结果(0/1分类),并根据整体准确率计算最终排名
KDD Cup 2011年Track2优胜者:
冠军:National Taiwan University (国立台湾大学)
亚军:The Art of Lemon (×××)
季军:Commendo (Commendo Inc.)
KDD Cup2010届竞赛题:
根据智能教学辅导系统和学生之间的交互日志,来预测学生数学题的考试成绩。该任务兼具实践重要性和科学趣味性。竞赛提供3个开发(develop)数据集和2个挑战(challenge)数据集,每个数据集又分为训练(train)部分和测试(test)部分。Challenge数据集的test部分被隐藏,参赛者需要开发一种学习模型,来准确预测这部分隐藏部分的成绩
KDD Cup 2010年优胜者:
冠军:National Taiwan University (国立台湾大学)
亚军:Zhang and Su
季军:BigChaos@KDD (Commendo Inc. and AT&T Labs)
KDD Cup 2009届竞赛题:
法国电信运营商Orange的大规模数据中,积累了大量客户的行为记录。竞赛者需要设计一个良好的客户关系管理系统(CRM),用快速、稳定的方法,预测客户三个维度的属性,包括:1、忠诚度:用户切换运营商的可能性(Churn);2、购买欲:购买新服务的可能性(Appetency);3、增值性:客户升级或追加购买高利润产品的可能性(Up-selling)。结果用AUC曲线来评估
KDD Cup 2009年优胜者:
Track1 (Fast Track):
冠军:IBM Research (IBM研究院)
亚军:ID Analytics Inc.
季军:Old dogs with new tricks (美国西北大学David Slate教授, Peter W. Frey教授)
Track2 (Slow Track)
冠军:University of Melbourne(墨尔本大学)
亚军:Financial Engineering Group, Inc. Japan
季军:National Taiwan University(国立台湾大学)
KDD Cup 2008届竞赛题
医学影像学的一个重要应用是乳腺癌的检测。每年全球有46.5万女性患者被乳腺癌夺走性命,但在1990年后通过引入X-射线进行检测,能够成功的在发病早期发现病兆并进行治疗,成功降低了30%的疾病死亡率。传统方式由放射学医生来进行X相片的检测,耗时耗力,而且为了提高检测的准确率,往往需要多位医生重复判读图像。基于此背景,本届赛题分为两个Track,分别是设计计算机辅助检测系统(Computer-Aided Detection,CAD),来判读图像是否含有乳腺癌病兆;以及设计二分分类器(binary classification),来决定某样本是否需要医生来进行重复判读。
KDD Cup 2008年优胜者
冠军:IBM Research (IBM研究院)
亚军:National Taiwan University (国立台湾大学)
季军:Wayne State University (美国韦恩州立大学)
冠军:IBM Research (IBM研究院)
亚军:TZ Team
季军:National Taiwan University