beat365手机中文官方网站研究生荣获 2020 中国高校计算机大赛-华为云大数据挑战赛全国一等奖
发布时间:2020-09-01 浏览量:9969

       8月29日,“2020中国高校计算机大赛·华为云大数据挑战赛”的全国总决赛及颁奖典礼在深圳举行,由我校beat365手机中文官方网站2019级研究生陆鹏皓作为队长,宫学庆教授作为指导教师的mythTeam团队获得了全国一等奖

 

 

中间为队长陆鹏皓,左一和右一分别为来自数据科学学院的侯静阳同学和beat365手机中文官方网站的李子健同学

 

2020中国高校计算机大赛——华为云大数据挑战赛是由清华大学、中国人工智能学会和华为技术有限公司联合举办,华为云和北京信息科学与技术国家研究中心提供支持,以企业真实场景和实际数据为基础,面向全球开放的高端算法竞赛。大赛旨在通过竞技的方式,提升人们对数据分析与处理的算法研究与技术应用能力,探索大数据的核心科学与技术问题,尝试创新大数据技术,推动大数据的产学研用。

 

       2016年,教育部高等学校计算机类专业教学指导委员会、教育部高等学校软件工程专业教学指导委员会、教育部高等学校大学计算机课程教学指导委员会、全国高等学校计算机教育研究会联合创办了“中国高校计算机大赛”(China Collegiate Computing Contest,简称C4),第五届(2020年)“中国高校计算机大赛”由全国高等学校计算机教育研究会主办,大数据挑战赛是其中的一项重要赛事,在2018年被选入全国普通高校学科竞赛排行榜,获得社会各界的高度关注和广泛好评。

 

       

2020年华为云大数据挑战赛,共有4133人报名参与,经过组队共有1491支来自全国各地的队伍,其中不仅有来自国内知名高校的团队,还有代表企业参赛的团队。经过激烈的初赛、复赛和决赛的角逐,共产生5个一等奖,10个二等奖,15个三等奖。我校beat365手机中文官方网站2019级研究生陆鹏皓带领的mythTeam团队获得了全国一等奖(决赛第三名)。此外,我校beat365手机中文官方网站2019级研究生黄超带领的突然Ping通团队获得了全国二等奖。

 

 

赛题背景及任务:

       在企业全球化业务体系中,海运物流作为其最重要的一项支撑。其中,船运公司会和数据供应公司进行合作,对运输用的船通过GPS进行定位以监控船的位置;在运输管理的过程中,货物到达目的港的时间是非常重要的一项数据,那么需要通过船运的历史数据构建模型,对目的港到达时间进行预测,预测时间简称为ETA(estimated time of arrival),目的港到达时间预测为ARRIVAL_ETA。

 

项目方案:

       由于赛题数据量大,存在多种异常情况,且没有给出要预测的label,所以首先基于业务逻辑对赛题进行数据清洗,并为训练集数据进行标注。然后构建了三种不同的建模方式进行预测,以基于轨迹相似度的建模方式寻找具有相似轨迹的订单,采用geohash地理编码方式将连续的数值型经纬度特征编码为离散型的类别特征,并基于地理编码提出了高效的相似轨迹匹配算法,将其作为baseline;接着相继提出了基于离散位置特征和基于连续轨迹特征的建模方式,我们采用的机器学习算法为LightGBM,并进行五折交叉验证。在基于连续轨迹特征的建模方式中,采用了自然语言处理(NLP)中的Doc2vec无监督模型来构造订单的历史轨迹特征,并获得了不错的效果。最后在模型融合部分,基于订单特点采用不同的模型融合方案,最后取得了很好的收益。

华东师范大学beat365手机中文官方网站
学院地址:上海中山北路3663号理科大楼

                上海市浦东新区楠木路111号
院长信箱:yuanzhang@sei.ecnu.edu.cn | 办公邮箱:office@sei.ecnu.edu.cn | 院办电话:021-62232550
Copyright Software Engineering Institute


XML 地图