纽约大学教授 Gary Marcus 在他 2019 年的新书《Rebooting AI》中,将深度学习的问题重新归纳为 3 点,其中第一点就是“对数据的极度贪婪和依赖”。
近年来,大数据和AI就和之前的云计算一样,不管是媒体还是企业都言必称大数据,似乎这样就能站在行业的风口浪尖上。实际上部分企业获取到 PB 量级的数据,可能只能做简单的回归分析,要么标签太稀疏,要么缺失,或者在收集上存在主动或被动的错误,给实际业务带来了不小的麻烦。
根据美国高德纳咨询公司报道,质量差的数据使企业在 2017 年平均损失了 1500 万美元。《麻省理工学院斯隆管理评论》进一步证实了这些发现,该报告指出,脏数据使业务平均损失了 15% 至 25%。如此惊人的比例,让企业对数据的质量愈发重视起来。
因此,如果仅仅获得第一手数据,就“万事俱备,只差一个程序员了”,那就大错特错了。数据获取只是第一步,只有经过高效专业处理的数据,才能对趋势预测、统计分析或聚类分类等项目有优质的产出,为提升效率、节约成本或高层决策带来有利支持。
IT 界有这么句话“Garbage in, garbage out”。只有投入高质量的数据,才能得到有意义的结果,对垃圾数据的反复计算迭代,就好比在锅里面对石头进行不断翻炒,即使时间再长加上再多调料也不能吃。低质量的数据将造成资源浪费、生产力增速下甚至是直接影响企业发展方向判断,同时,低质数据也会失去客户的信任,影响企业的竞争力。
随着 AI 公司对高质量数据的需求不断加大,数据标注处理等数据服务开始形成一个行业,在 AI 发展中担当越来越重要的作用。那么对于这个过程,我们有应该如何选择处理方式,才能迎接 AI 时代风起云涌的浪潮呢?
AI数据服务趋势:专业AI数据服务商、众包比例逐渐超越企业自处理
为了获取更多的AI数据,体量大的企业的依靠自己庞大的用户量进行收集,有的使用爬虫,还有些直接购买,但是要获取符合业务需求的有效数据并不容易。qualia.AI 的合伙人 Iason Demiros 曾经在社交网络上表示:AI 行业最贵的就是数据收集、清洗和数据标注。要获得更多收益,就要思考如何把数据处理的成本降低,把困难的东西做简单。
目前,行业内常见的AI数据服务方案有下面几种:
针对企业内部AI数据特点,团队内部或聘请专人来对其进行清洗标注和分析交给专业AI数据服务商来处理交给众包平台
然而这几种方案各有长短,由企业内部自行对AI数据进行处理,需要很高的内部人力成本;交给专业AI数据服务商,则又会有安全方面的担忧;而交给众包平台虽然便宜,但质量和信息安全可能得不到保障。
从近几年的报道来看,无论是国外的 Amazon MTurk、Crowdflower 等,还是国内的百度众包、京东众智,甚至是一些院校“强制”学生进行实习等,保持着流水线工人一样的低成本高劳动密集的特点,其背后的管理模式、信息安全和时效都有很大的不确定性。
据云测数据总经理贾宇航介绍,现阶段 AI 数据有着三个大趋势:
第一,场景的多元化。基于产品落地场景,AI数据需要尽可能覆盖丰富多样的特定场景条件,如:光线强度、拍摄角度、噪声要求、室内室外等,乃至是长尾场景的AI数据需求。
第二,样本的多样性。以声音的AI数据为例,就分不同的年龄、地区、性别等等,除此之外还涉及广泛的AI数据类型,包括图片、视频、音频、文本数据。如果想要发挥人工智能的普惠性,用AI产品服务好各种人群,就需要丰富多样化的样本。
第三,数据的多维化。随着技术和行业的发展,以智能驾驶领域AI数据需求为例,业界已逐渐从单摄像头过渡到多摄像头的方案。但是 2D 图像对于物体的测距仍有着很大的局限性,因此也出现了与激光雷达、超声波雷达等 3D 传感器的融合。通过更多维度的AI数据融合加速人工智能场景的落地。
因此,随着人工智能的落地需求的场景和专业化程度的增加,AI数据本身的复杂度和种类也不断提升,行业亟需场景化、专业化、高质量的AI数据服务,对于数据标注的管理和操作人员的专业性也有了更高的要求。
而解决AI数据问题需要从数据源出发,其过程涉及AI数据的采集、清洗、建立公司标准的企业处理模式,甚至需要对数据进行问责制度,同时需要建立协同机制,避免出现数据孤岛。因此,越来越多的人工智能企业开始选择专业的AI数据服务公司进行合作,以获得更加高质量、高效率的AI数据。
云测数据:AI数据服务的最高精度支持 99.99%
云测数据具有全领域的AI数据服务标注能力,涉及视觉图像、语音语义理解、自然语言处理等;拥有具备自主知识产权的数据标注平台,并不断优化工具易用性和扩展性,以提升标注的效率,同时自研质检工具,确保标注和审核结果的高质量输出,其数据标注的最高交付质量精度可达到 99.99%。
据悉,云测数据拥有自建的数据标注基地和业内首创的数据场景实验室,不管是数据生产效率、数据质量保证、数据隐私安全,还是实力规模、数据交付经验、帮助传统企业智能化转型等方面,都有着不可替代的优势。其合作客户涵盖汽车、安防、驾驶、手机、互联网、金融、新零售、工业等领域的上百家企业和研究机构。
首先,云测数据对AI数据作业的流程进行了严格的规范化,以标准化服务为抓手,前期明确客户的AI数据标准后,经过试标注验收合格之后,才开始规模化作业,标注之后还有几轮质检和交叉审核,用来确保数据的高质量输出,并且项目经理全程跟踪数据作用流程,全力保障数据交付质量。此外,云测数据在流程设置上也进行了优化和管理,确保各环节衔接通畅,实现保证质量的情况下的高效输出。
为了让高质量 AI 数据成为企业的核心壁垒,云测数据以高质、专业、高效、丰富、安全的优势展示了自己的AI数据业务布局。
安全性:数据的安全主要在于数据安全、隐私和版权的保障上。为保证AI数据的隐私安全,云测数据设置了一系列严格措施。其中一条核心原则就是数据绝不复用,当数据合格交付后从不留底,会清毁相关数据;其二,所有和云测数据进行数据采集的用户都会签订数据授权协议,从来源上确保企业用于训练的数据合法合规;同时,云测数据内部还设定了数据隔离、质量保障等一系列数据安全流程和技术。
云测数据总经理贾宇航也曾多次公开表示,无论是 AI 公司还是数据服务公司,眼光都要长远一些,采用未经授权的数据当然可以控制成本,野蛮发展终究会造成不良后果。
高效率高质量:云测数据具有自建的标注基地,支持图像、音视频以及 3D 点云类标注,多重审核,保证准确率。其行业首创的数据场景实验室可支持定制化场景数据的采集,覆盖智能驾驶、智能家居、智慧城市、智能金融等应用场景。同时云测数据具有自研标注平台,扩展性高,具有多年经验和实践打磨,交互流畅。此外,在必要的情况下,云测数据还将提供私有化部署和驻场作业服务。
面对企业自身落地场景和算法模型需要,云测数据做到了模板化的任务创建,并支持不同种类标注类型和标注方法。结合自身业务处理方式及经验,持续迭代标注平台工作业务流及标注方法,效能逐年提升。
云测数据对产业赋能,提供的是一体化服务,从平台自研、场景实验室建立、自建数据交付中心的建立、自身专业工作人员积累,采用高效的组织协同方式。同时,自建数据交付中心以及自有员工,人员专业稳定,为需要特定领域知识积累的AI数据处理内容,做到了有力的保证。
AI数据服务产业前景乐观,向规范化技术密集型产业转型
智研发布的数据标注行业报告指出,2018 年我国数据标注与审核行业规模达到 52.55 亿元,其中 34% 左右的业务量流向专业做数据采标的第三方公司。在《互联网周刊》联合eNet研究院共同发布的《2020 年数据标注公司排行》中,云测数据位列榜首。
随着行业发展和国家的大力支持,AI数据服务也开始从劳动密集向技术密集型发展。而目前数据驱动文化(即人和业务流程)也正在慢慢改变,也会有越来越多的企业向数据驱动转型。此外,AI数据服务行业也将越来越规范化。品牌AI数据服务商在品牌效益、技术实力、服务意识以及业务能力等方面优势明显,而这些品牌服务商也将成为这一领域中的核心玩家。
云测数据的的高质量数据采集、数据标注业务,将在已有的领域继续深耕,同时拓展到更多领域,为更多人工智能产业化提供AI数据支撑。而有了这些AI数据的助力,会在 AI 领域催生出更多令人兴奋应用和场景,把我们带入一个全新的「智能时代」!