“开放平台+自动化管理”,第一家用众包为AI服务的龙猫数据,又一次带来革命性改变

导语:用互联网思维解决行业痛点一直是他们的专长所在。

  毫无疑问,人工智能已经成为新一轮科技革命和产业变革的核心驱动力,正在对世界经济、社会进步和人类生活产生极其深刻的影响。人工智能经过几十年的沉淀,终于在近几年迎来爆发期,改变生活的同时也带给我们关于未来无尽的想象。

  基于目前行业主流的深度学习算法模式,无论是智能手机的人脸识别,还是智能音箱的语音唤醒,无论是自动驾驶应用的路况识别,还是火遍抖音、快手的表情动作识别,人工智能应用落地的一大前提都是——标注好的大量数据集。

  2016年以前,人工智能行业普遍采用的是企业自建标注团队、自己开发工具的方式完成数据采集标注。这样做的好处是可以直接对接采集标注人员,任务需求了解更到位,也不用担心数据外泄。在需求较少且不紧迫的方式下能够基本满足企业需求,但是其弊端也相当明显:自建团队无法满足高数量级采集标注需求,自营团队、开发标注系统来做这种密集型劳动也极大提高了新应用开发成本。

  需求决定供给。龙猫数据不是第一个看到AI数据服务这片蓝海的人,却是第一个用互联网思维——众包模式解决数据需求的人,这和他们团队的互联网基因有很大关系。公司CEO昝智曾先后担任豌豆荚商业产品负责人、百度联盟产品经理,离职后联合原豌豆荚游戏频道技术负责人姚毅创办龙猫数据,流量入口公司的经验让他们拥有良好的互联网产品思维和粉丝运营技巧,采用众包模式——将客户需求分发给众多团队和个人来解决AI数据服务行业痛点的方式大获成功。

  龙猫数据CEO 昝智

  “保守估计,我们的方式可以为客户节省下30%-60%的数据支出成本”,在一次采访中昝智曾表示,“我们不是行业的搅局者,我们是通过我们的方式真真正正把成本压缩了下来,我们从来不搞恶意低价竞争。”龙猫数据之后,新成立的数据服务公司大都采用这一高效高性价比的模式,行业里也很难再见到从事AI开发的公司建立自己标注团队的情况。

  亚马逊的蝴蝶扇动翅膀带来了始料未及的影响,由于人员素质要求低、工作轻松简单,大量三四五线人工开始加入数据采集标注大军,从河北到贵州,从山西到重庆,专职或兼职从事过AI数据采集标注的人员超千万,一股轰轰烈烈的采集标注之风开始猛烈刮起来。

  新方式也无疑为开创者龙猫数据带来诸多益处,2018年,公司合同额整体翻了5倍,服务百度、工商银行、字节跳动、京东、腾讯、小米、快手等大中型客户超200家,平台用户超500万,在龙猫数据注册的专业渠道团队超2000个,初步确立了AI数据服务领域领导地位,这对于从2016年底才开始转型做AI数据服务的他们来说,无疑是巨大的成功。

  对于具有互联网思维的人来说,变革只有开始,没有结束。“唯一的不变就是改变”,从2017年开始,AI创业就已经走下高堂,向更传统、更广阔的领域下沉,医疗、安防、工业制造甚至畜牧养殖,各行各业都开始出现AI创业风潮,其实这也越来越接近AI本质——AI是一项技术,可以对各行各业赋能的技术,如果把它束之高阁,只用于自动驾驶、机器人等“高端领域”,反而脱离了技术初衷。

  新的转变意味着新的机遇,新的机遇都是从新的问题开始的。AI应用的赛道上生面孔越来越多,很多初创企业和团队对于数据有更多样化的需求,在传统的AI数据服务过程中,数据定制化一直是行业普遍采取的做法:由数据需求方提出需求,剩下的所有步骤都交由数据服务公司完成。这无疑增加了需要多种类、小批量数据的中小公司、初创企业的试错成本,如果能够打造一个大一统的平台,让客户直面用户,客户可以轻松发布任务,用户使用平台工具进行采集标注,不仅将极大提升AI数据需求方使用体验,也将使AI数据服务方更专注技术开发,打造更好的采集、标注体验。

  基于此,龙猫数据重磅推出数据采集标注开放平台。

  龙猫数据开放平台是完全开放化的,任何进入开放平台的客户,只要注册,就能够使用整套数据采集标注系统,也能够调用其中百万级的专业采标人员。平台上实现了全面的通用型标注工具免费使用,包括超像素分割语义处理系统、ASR智能语音标注系统、NLP自然语言处理系统等,可实现语音波形图展示、无缝时间戳选取,图像与自然语言精准标注,满足各种数据类型需求。

  简单来说,开放平台就是搭建了一个针对供需双方的发布需求和提供服务的开放的第三方平台,可以最大限度地节省企业的时间成本和开发成本,同时提高工作效率。相比传统定制模式,平台可以为客户实现实时响应需求,500万注册用户,2000个以上的专业团队随时待命。借助咨询顾问全程跟踪,可以为企业快速配置个性化任务流。在开放平台上,企业直接发布任务,对需求理解更透彻,数据质量更高;直接对接采集、标注用户,省去中间环节,企业甚至可以自主定价,又一次为企业减少成本支出30%以上。

image.png

  开放平台降低了人工智能的入行门槛,保证了数据需求方的任务能够获得更多样从业者的关注,专业团队也能够迅速响应。在数据安全方面,开放平台数据加密环节安全可控,在数据传输过程中数据同样会被加密,以保证数据的安全。同时,在使用开放式平台的过程中,龙猫数据会和客户签署一套电子协议,保证客户在使用数据的过程中要做到合法合规。如果在数据使用过程中出现了问题,平台完全可以根据任务去追溯到应用,追究相关机构或者个人的责任。这样一来,对于平台使用者而言就有所约束,但更是一种有效地保护。

  开放平台的推出无疑为行业发展带来新思路。像上一次一样,新模式把企业开发AI应用的成本又一次拉下一大截——企业自主定价基本保证了数据服务价格见底。但与上次所不同的是,这次龙猫数据推出的新模式,或许不再那么好模仿。首先,开放平台需要拥有完善的采集、标注系统,这属于数据服务企业的“家底”,没有足够的技术投入就没有足够的底气亮出来。其次,究竟有多少用户和团队在平台上做任务,究竟他们的水平如何,有没有完善合理的制度来管理,都将是对开放平台的一大考验。

  得益于在技术领域的默默耕耘,龙猫数据标注平台现在拥有超像素分割、ASR智能预标注、3D-box标注等诸多领先行业的采集标注工具集。而在用户层面,除了数量级上的绝对优势,则不得不提龙猫数据力推的规范化、流程化、自动化管理体系——同样是基于互联网思维打造而成。

  数据标注公司

  长久以来,龙猫数据因为专业、专注、负责和对数据安全、数据质量的严格把控而得到了很多客户的认可,同时也吸引了大批渠道商寻求合作,如果按照目前的模式,借助当下的资源,本可以只和熟悉的渠道商合作,“舒适安逸”的走下去,但这绝不符合互联网公司“程序化”的思维模式,毕竟关系具有不稳定性,只有靠系统和机制,才能最大程度保证服务质量和效率。

  他们把用户、渠道管理自动化作为数据生产系统自动化的重要部分,借助自主开发的分发系统,对所有上线的任务进行分发。合作商可以根据自己能力选择任务量,同一个任务可以由不同渠道商合作完成,而任务价格都是相同且公开的,如果渠道商缴纳一定任务保证金,在任务完成后还会获得额外奖励。任务领取、完成提交、结算全部由系统自动完成,减少了人工干预,为数据采集标注规范流程化提供了范例。

  在行业内众多公司都还需要渠道合作商“刷脸”获取任务的时候,龙猫数据率先砍掉“白名单”制度,将数据需求在全平台分发。借助经验评价系统龙猫数据会针对完成任务的人员进行经验值增减,每个在平台上做任务的人员都有一张“能力图谱”,借助能力画像,可以将数据需求精准匹配给合适经验值等级人群,极大提升了任务完成效率。同时自动化管理也极大保障了个人用户和渠道合作商的权益,不会出现人为拖欠收入的情况,也正因此,龙猫数据才能聚集起越来越多的优质个人用户和渠道合作商。

  开放平台+自动管理的模式又一次为龙猫数据带来新的增长点,平台推出一月已经有十余家企业完成需求对接,与一些企业自建团队、系统“做重”不同,龙猫数据开放系统明显是在“做轻”,通过企业自助的形式加入,轻松满足企业数据需求。当然,面对一些量级特别大、难度特别高的数据需求,龙猫数据依然会采取定制化服务,提升客户需求满足效率。定制化服务与开放化系统相得益彰,互为补充,最终形成数据服务闭环,分层次满足企业AI数据服务需求,这就是互联网思维下的“龙猫打法”。

  龙猫数据部分客户

  龙猫数据2017年11月完成由金沙江创投领投,九合创投、不惑创投跟投的3370万人民币A轮融资,目前正在进行B轮融资。