亚马逊云科技助力BienData成为众包竞赛领域领导者

作为技术工程人员,当你和你的团队碰到了棘手的技术难题,苦于人力有限,你会怎么做呢?

传统做法是找专家团队或者组建专家团队来解决问题,这是许多大公司解决难题的惯用方法。

除此之外,还有一种方式叫众包竞赛,它可以作为前者的一个补充,有时候,最终效果甚至会超过全职专家团队,因为一旦有大量的人来参与,则会带来很强的多样性,偶尔会有惊喜。

众包竞赛,Biendata的模式类似于kaggle

众包竞赛,通常是一个需求方为了解决一个问题而提出的一种奖励机制,参与者可以以极低的门槛参与竞赛,无论你是谁,无论国籍、性别、年龄,无论是全职还是兼职都可以,参赛提交的结果有清晰统一的评判标准,奖励会颁发给前几名或者第一名,这就是众包竞赛。

无数理论和实践都证明,众包竞赛的方式十分有效,在新一波人工智能技术发展浪潮下,市场希望将众包竞赛用在近年来非常火热的人工智能领域,于是,BienData就诞生了。

BienData(北京数竞科技有限公司)是一个众包竞赛平台,其创始人兼CEO管心宇表示,Bien是法语“好”的意思,希望能够在这个平台上聚集更多好的数据集和优秀的开发者。

从BienData的本质来看,它聚集了开发者,提供着数据集,可以创建和参与竞赛,还有教育教学的功能,本质上跟Kaggle是一样的。

Kaggle是国内外都非常流行的数据科学社区,它提供了一个可以举办机器学习竞赛、提供托管数据库、可以编写和分享代码的平台。对于从事数据科学领域的人才而言,如果能在Kaggle竞赛中取得较好成绩,对其求职和职业发展都是非常有帮助的。

BienData于2015年启动,并于2017年开始独立运营,成立几年来,已经举办了一百多场算法比赛,积累了约10万名开发者,累计涉及超过700万总奖金。

从管心宇的介绍中了解到,BienData俨然已经成了国内的Kaggle平台,不仅举办了许多比赛,积累了众多数据和开发者,还提供教学视频和分析社区平台,其影响力越来越大。

对于许多参赛者而言,奖金不是唯一的激励方式,Biendata与合作方联合提供了合作方认证的证书,对于一些非名校毕业生来说,BienData的认证是很有价值的加分项。

那么,BienData是怎样一个平台,是如何帮助企业解决难题,又是如何运营将企业、数据、开发者聚拢在一起的呢?

BienData:以标准化服务将商业问题变为数据问题

BienData是一个能够提供标准化服务的平台,企业和组织只要有数据都可以尝试利用该平台举办一场众包竞赛。

创建竞赛和参与竞赛的过程非常简单:

首先,有企业或组织提出具体的问题并给出数据,BienData会分析数据集,把一个商业问题变成一个关于数据或者关于人工智能或机器学习的问题。

第二步,BienData帮助企业准备数据,做数据获取、清洗、数据集的分割、测试等等,有时候可能还需要做数据标注,这一过程本身也非常耗时费力。

第三步,当有了数据之后,就能变成一个比赛,通过公开渠道招募个人或团队通过登录系统来参与。

最后,当参赛者通过平台拿到数据后,可以基于数据自行做研究,将得到的实验结果提交给平台,平台会打出一个客观的分数,并且提供一个实时刷新的排行榜,用于激励参赛者。

BienData平台将问题变成比赛的过程已经变成了一个相对标准化的服务。作为标准化平台,它需要具备许多功能,比如参赛功能,后台管理功能,要能接受非常多参赛选手提交的模型。这套系统还是非常复杂的,在亚马逊云科技的帮助下,这套系统在很短的时间内就上线了。

管心宇介绍称,BienData从一开始就选择了亚马逊云科技,因为他发现亚马逊云平台的功能非常丰富,而且有国际化属性,在使用过程中发现,BienData所需的每一个功能都能在亚马逊云上找到对应的服务,有助于加快产品研发和上线的速度。

为保证比赛的公平性,BienData支持让参赛选手编写代码,提交模型和模型预测的结果。

编写代码环节,Biendata使用了亚马逊云平台提供的Jupyter Notebook环境,参赛选手在这里编写代码对数据集进行各种处理,并且可以调用后端Amazon EKS计算集群的算力进行训练、调参等操作,云计算可以非常便捷地为参赛者提供一致的运行环境,以避免各种兼容性问题。

结果提交阶段,选手需要将包含模型的容器镜像上传到镜像仓库Amazon ECR, 后端系统发现镜像后交由Amazon EKS运行该镜像,在系统后台的测试集上运行提交的模型,将最终的结果写入Amazon S3对象存储,既减少了作弊的可能,保证了公平,同时也便于模型的收集。

管心宇表示,自行开发这样一套是非常困难的,但使用了亚马逊云科技的Amazon EC2、Amazon RDS、Amazon S3等基础服务,以及Amazon ECR、Amazon EKS以及Amazon Lambda等产品功能,很快就完成了这套系统。

除了丰富的功能以外,亚马逊云平台在安全合规方面也更有优势。

管心宇介绍说,在与某国外大学举办竞赛的时候,对方特别重视安全与合规方面的问题,要求数据有非常严格的保护措施,这使得竞赛准备过程变得非常繁琐。

但由于BienData使用的是亚马逊云科技的平台,所以默认已经符合了很多数据安全的要求,这大大缩短了比赛的准备时间。亚马逊云在安全性方面的准备大大降低了BienData的运营负担,在安全标准和合规性方面,能满足几乎全球所有监管机构的要求。

BienData享受到了云的诸多便利

2019年,BienData加入亚马逊云科技全球合作伙伴网络(APN),为更多用户提供云上的人工智能方案,比如,BienData和亚马逊云科技专业服务团队共同支持了深圳和宁夏的重点高职院校课程和实训平台建设。

2020年疫情期间,许多企业都面临着巨大挑战,BienData却借助云计算开展在线业务的优势,实现了业务的迅猛发展,还通过使用云原生服务进一步降低了运维成本。

2021年,BienData的业务发展进入新阶段,在亚马逊云科技安全合规能力的帮助下,赢得了许多海外项目,通过与合作伙伴开展人工智能普惠的相关竞赛,共同培养国内外AI人才。

过去几年里,BienData陆续承办了非常有影响力的竞赛,比如KDD CUP。媒体资料显示,KDD CUP是由ACM知识发现和数据挖掘特别兴趣小组组织的国际数据挖掘和知识发现竞赛,有“大数据领域世界杯”之美誉,是水平高、影响力大、规模也非常大的国际顶级赛事。

作为一个AI为主的众包竞赛平台,BienData上出现了许多有趣的竞赛,探索如何用人工智能帮助控制疫情,有的从疾病传播的角度出发,有的从新药研发的角度思考,有的从疾病的学术研究中寻找方案。

由于许多比赛都是在亚马逊云科技平台上完成的,所以数据都能很快地进行分享,使得竞赛的创建变得非常便捷。

管心宇表示,人工智能可以赋能于各个行业,包括工业领域、基础物理研究、天文学、小分子预测、生物影像、社交网络等等,众包竞赛的方式可以在完全不同的领域和完全不同的应用方向上进行探索。

未来,BienData希望和亚马逊云科技一起合作,用众包竞赛连接开发者、数据集和应用场景,将优秀成果普及到各行各业,让大公司、小公司甚至个人都可以用到人工智能的技术的成果,让优秀的模型能够普惠社会。