2019软件博览会即将于6月28日至6月30日在北京展览馆举行。该博览会由工业和信息化部和北京市人民政府主办,国家工业信息安全发展研究中心、北京市经济和信息化局、北京市朝阳区人民政府、北京市西城区人民政府、中国软件行业协会共同承办。此次展会主题是“融合网络世界,驱动数字未来”,预计将有30多个国家、100多个地方省市、超过400家企业和机构的院士专家、企业代表和国际友人参会。
AI数据服务:新形势,新要求
作为软件产业发展的重要组成部分,人工智能行业及其上下游企业将继续以蓬勃发展的态势带来更多新的体验。纵观新的一年,人工智能核心产业规模急剧增长,这些技术不仅影响了软件和互联网行业,还影响了其他如医疗保健、法律、制造业、汽车业等各行各业,引起了全球经济结构、社会生活和工作方式的深刻变革,多个国家已将人工智能提升为国家战略,出台了相关政策和规划,力争抢占科技的制高点。
人工智能产业的发展离不开数据服务业的支持,目前阶段,人工智能算法的训练主要依靠大量数据来完成。数据对于算法就像汽油对于发动机,从车辆自动化驾驶到AI聊天机器人,从医学成像与诊断到农作物监测,数据在其中都扮演着不可或缺的角色。数据越多、越精准,算法训练后获得的模型也就越智能、越好用。与人工智能行业的蓬勃发展和对数据量更大、质更高的要求相适应,近两年国内涌现出一大批专业从事AI数据采集与标注的服务公司,借助大量技术投入和近千万专职、兼职数据采集标注人员,持续为不同行业AI落地输送新鲜数据血液。国外AI数据服务业也成投资热门,今年3月份上市公司Appen以高达3亿美元的价格收购了同行业另一家数据标注公司Figure Eight。
这一次,作为国内AI数据服务行业头部公司的龙猫数据也将在软博会上展示他们对行业的新想法和新探索,除了标注技术上的创新,更有服务模式、服务理念上的新发展,以期为人工智能产业注入新活力,提供发展新动能。
龙猫数据:精准标注,技术先行
龙猫数据(北京安捷智合科技有限公司)成立于2014年,是一家全球领先的AI数据采集和标注服务商,专注为AI及传统企业提供安全高效的综合数据解决方案。团队汇集行业顶尖技术研发人才,借助500万注册用户,已累计为200余家AI明星企业提供了专业定制化数据服务,并与众多国际知名企业开展长期业务合作。
数据采集与标注的核心是为AI算法提供大量精准的标注数据集,谁拥有更好用的采集标注工具,谁使用更高效的标注手段,谁就能够在更短时间内为客户提供更符合要求的数据集。
龙猫数据在行业兴起时入局,占据先发优势的他们并没有满足于当时的红利,而是不断加大技术投入,通过提升技术水平的方式提高生产效率。从标注平台0.1到1.0再到2.0,从单一的网页采集标注到现在APP、小程序、线上端与本地端联合部署,一次次迭代升级不仅带给客户惊喜,也引领了行业技术提升,给行业带来更多变革和机遇。
以标注过程中图像标注技术为例,在传统的图像标注方式中,最常用的就是打点连线和PS技术:打点连线是沿着要标注的物体边沿打上足够多的点,然后通过连成线标注出对象轮廓。这一方式门槛低但极其繁琐,只适用于交通线等直线标注,标注效果也不够理想;而通过PS等画面处理技术标注,准入门槛较高,只有深度掌握PS等绘图技术才能够进行,标注时间和人力成本高,且导出格式单一,达不到客户要求,成为制约图像标注时效和质量的一大瓶颈。
面对越来越多、要求越来越高的图像标注需求,龙猫数据凭借创新性思维和不断探索的精神,开发出国内首个图像简易标注工具——超像素分割标注:采用超像素分割技术,将数字图像细分为多个图像子区域(像素的集合)进行标注。这样一来,不仅标注精度大大提高,标注对象边缘更加精确清晰,标注时间也大大压缩。最重要的是,完成这种精度的标注,完全不需要再借助PS等图像处理工具,将有更多标注员有机会参与进来,提升了整体标注效率。
采用了超像素分割标注方法之后,原来那么多弯折的曲线再也不用挨个打点连线,简单的涂涂画画就标注完了。对于标注员来说,最直观的提升是工作的趣味性,就像小朋友喜欢玩的涂颜色游戏一样,在已有的分割好的框架内简单涂几笔就完成了,再也不用打上密密麻麻的点然后连线了。目前国际上拥有这项技术的公司寥寥无几,龙猫数据公司凭借自己的基础和实力,开发出这样好用实用的工具,直接为部分科技公司节省下一半以上的数据获取时间。
像这样的例子还有很多,比如语音标注中可以进行无缝时间戳选取的ASR智能标注,比如物体标记中实现从2维到3维突破的3Dbox标注。除了采集和标注工具技术以外,AI数据服务的核心还在于人:数据采集和标注本身是劳动密集型产业,无论是提供各类文本语音,图像视频还是对它们进行标注打标签,都离不开海量基础人员的支持。龙猫数据在行业内率先采用众包的模式,将拆分好的任务分配给三四五线城市人群完成,降低了劳动成本的同时提高了任务完成效率,也直接带动了大量人员就业。据估计,截止目前,国内专职和兼职从事数据采集标注的人员已经超千万。
高效管理,完善生态
龙猫数据网站、APP注册人数超过五百万,旗下管理的专业渠道(中小型采集标注团队)超过2000个。面对一个崭新的行业,并没有过多经验可以给他们提供参考,如何对这么多团队和个人进行高效管理,如何在不断发展过程中提升他们的职业素养成了摆在龙猫数据公司前的一道难题。
为此,龙猫数据研制出一整套针对用户的自动化管理系统,通过这套系统可以实现任务自动分发,根据用户专业技能实时匹配。在行业内众多公司都还需要渠道“刷脸”获取任务的时候,龙猫数据率先砍掉“白名单”制度,将数据需求在全平台分发,根据渠道考核结果匹配合适人选。同时还支持任务多渠道同时完成,按能力分配任务量。借助经验评价系统龙猫数据会针对完成任务的人员进行经验值增减,将数据需求分配给合适经验值等级人群,极大提升了任务完成效率。
为提升用户做任务能力,龙猫数据还会对用户进行不定期现场培训,实现用户工作素质提升,与平台共同发展进步。同时他们也十分注重采集标注从业人员的生态建设,在公司旗下“龙猫众包”APP 中,有着属于采标人自己的“大本营”——轻量级社区功能模块“龙猫广场”,在这里用户可以自由发布帖子,同时可以评论、转发、标记喜欢,使得用户可以在app内实现信息的共享和传播。类似于微博热搜,话题还有TOP10榜单,按照讨论热度排列,TOP10的话题所有用户可见,榜单内的话题会获得更高的参与度和热度。社区的内容审核机制也使得用户可以通过举报来维持社区有序、文明的氛围。他们希望希望借此打造出有爱、有温度的AI基础服务社区。
创新模式,开放共享
面对国内人工智能产业蓬勃发展、需求旺盛的局面,龙猫数据没有固步自封,而是积极变革、通过推出不同服务模式满足行业新变化和新需求。在传统的AI数据服务过程中,数据定制化一直是行业普遍采取的做法:由数据需求方提出需求,剩下的所有步骤都交由数据服务公司完成。这无疑增加了需要多种类、小批量数据的中小公司、初创企业的试错成本,而如果能够拥有自己的采集标注平台,自主完成数据需求投放和满足,则可以大大降低数据集获取成本,直接对接用户也可以提升任务完成准确性。基于此,龙猫数据推出了行业创新性服务模式——龙猫数据采集标注开放平台。
龙猫数据开放平台是完全开放化的,任何进入开放平台的客户,只要注册,就能够使用整套数据采集标注系统,也能够调用其中百万级的专业采标人员。平台上实现了全面的通用型标注工具免费使用,包括超像素分割语义处理系统、ASR语音标注系统、NLP自然语言处理系统等,可实现语音波形图展示、无缝时间戳选取,图像与自然语言精准标注,满足各种数据类型需求。
开放平台最大的特点是开放和共享,简单来说,就是搭建了一个针对供需双方的发布需求和提供服务的开放的第三方平台,可以最大限度地节省企业的时间成本和开发成本,同时提高工作效率。平台实现了7×24小时极速响应需求,500万注册用户,2000个以上的专业团队以及咨询顾问全程跟踪,可以为企业快速配置个性化任务流。在开放平台上,企业直接发布任务,对需求理解更透彻,数据质量更高;直接对接采集、标注用户,省去中间环节,企业自主定价,可减少成本支出30%以上。
开放平台一个很好的作用就是降低了人工智能的入行门槛,平台保证了数据需求方的任务能够获得更多样从业者的关注,专业团队也能够迅速响应,这样一来,就能让更多的企业参与到人工智能行业中来。在数据安全方面,开放平台则保证了数据加密环节安全可控,在数据传输过程中数据同样会被加密,以保证数据的安全。同时,在使用开放式平台的过程中,龙猫数据会和客户签署一套电子协议,保证客户在使用数据的过程中要做到合法合规。如果在数据使用过程中出现了问题,平台完全可以根据任务去追溯到应用,追究相关机构或者个人的责任。这样一来,对于平台使用者而言就有所约束,但更是一种有效地保护。
数据采集与标注是人工智能落地的重要一步,龙猫数据将在此次软博会上讲述他们对于行业的所思与所做,与更多企业一同探讨人工智能发展的无限可能。我们也期待更多企业能够像龙猫数据一样,专注本职而又不限于此,努力奋进不忘创新,借助新技术释放新活力,开拓新模式创造新动能,为中国软件产业乃至整个科技产业的发展做出卓著贡献。