“新基建”的哨声吹响,想必大家已经从各个渠道感受到了产业智能化的火热。
这一次,不再停留于人工智能又碾压人类了的科幻剧情,而是化身为社会通用型技术,各种家居、汽车、商超、3C产品等领域,都开始高频出现带有身影的宣传。
其中,人工智能三要素数据、算法、算力中,最基础、最核心的部分数据,自然也就成为烹饪产业智能化这道美味所必不可少的原材料,也愈加受到更多瞩目。
如果我们将产业智能化的红利,看做是等待切分的蛋糕。那么坐在电脑前对图片或文字一点点打上标签的数据标注师,可能就是在智能沃土上种植小麦的人。
这些处理好的食物,被算法工程师拿到后投喂给机器,教会它们认识什么是猫,什么是狗,行人和红绿灯的区别,“这几天天天天气不好”表达了什么意思……
听起来,AI数据的“种植”是不是挺简单的。确实,在人工智能前期发展阶段,AI数据采集和标注,也常常被看做一个“没有壁垒”的事情,甚至称之为新时代的血汗工厂。
但就如粗谷吃多了总会开始追逐健康、有机、精加工,AI数据行业也早已在我们目之所及的地方,开启了一次“制造升级”。
产业智能化的滋味,你和数据都想了解
虽然AI数据不是算法训练的唯一要素,但绝对是不可或缺的一部分。
一方面,AI数据更丰富且廉价的领域,更容易诞生出AI的火苗。比如机器翻译发展了数十年,积累了非常多的双语对照语料,因此一遇机器学习便化龙,深度神经网络的引入很快让翻译系统的效果全面超越了以统计模型为基础的SMT(统计机器翻译)。如今,NWT神经机器翻译早已是智能语音产品的标配了。
另外,AI数据的质量也决定了AI产品是否贴合使用场景,影响着用户体验乃至产品生命周期。在挖掘人工智能产业化富矿的时候,对AI数据的重视,再怎么强调都不为过。
由此,也诞生出了专业的第三方AI数据产业链,来满足高质量、大规模的数据需求。
不过,当人工智能高歌猛进的时候,AI数据产业的掣肘也接踵而至。
首先,传统的爬虫或众包模式,数据采集的多而浅,难以满足高性能、高精准算法对数据的需求。举个例子,在金融等场景中,银行对人脸识别算法的精准度要求可能是99.99%,才能达到保护客户财产安全、防范安全风险的级别,传统的平面脸部数据显然是不够的,需要维度更加丰富、角度更加多样的3D脸部图像才能训练出所需的算法。
此外,机器学习的数据依赖,也增加了AI训练的直接成本。无论是采集或购买数据本身的支出,还是调用数据增强等技术来增加数据样本,背后都是不小的成本。
至于AI学术界刚刚兴起的胶囊网络、少样本甚至零样本学习等,虽然能不必再为数据规模而掣肘,但目前都还在实验室阶段,在产业落地上的成熟和稳定性都不可预知,距离实用还有很远的距离。所以在当下,以深度神经网络为核心的机器学习,依然是人工智能走向产业化的技术托举。这也决定了对AI数据的饥渴,将在一段时间内始终伴随AI行业的发展。
从产业化与工程化的逻辑视角来看,今天企业想要打造出效果与口碑受到肯定的AI产品,可能购买的通用型“面粉”已经不能满足挑剔的用户了,还得学会自己耕种数据的沃土。
夜来南风起,小麦覆陇黄:AI数据场景化的成熟时
新基建的风潮一来,AI数据产业也以超乎预期的速度在飞驰生长。
原因无他,数字技术与千行万业的融合,是今天中国普遍展开的主基调,而数据更是遍洒在大地上的种子,等待完成一场智能的丰收。
那么,到底需要怎样的种植逻辑,才能让它们茁壮生长,有资格进入生产车间,最后变成滋养社会智能的高营养食品呢?答案或许也隐藏在中国人的“耕种天赋”里:
第一,尊重规律的专业化。
我们知道,一些有实力的科技大厂如BAT,往往都自建数据中心,来完成算法的精进。而对于更广大的企业来说,面对的是一片数据的洪潮,爆炸式创新也必然带来爆发式增长的数据规模,有预测显示,到2025年有80%的计算来自于AI计算,涉及的数据也有180ZB之多,比现在增长了4倍。要在如此庞大且复杂的数据群落里,找出最适宜自家土壤的“种子”,显然不是一件容易的事。
此前就有谷歌工程师在被问到众包平台M-Turk(在公开平台发布任务,参与者自由申领)的效果时,声称“回收的数据良莠不齐”。
用一句AI界的话来说,“garbage in,garbage out”,如果喂给算法垃圾食材,在无监督学习的情况下,就很有可能发展出让产品口碑崩盘的病灶。
比如此前市面上就出现过一款针对青少年的智能音箱,在对话时突然冒出了脏话。原来是训练时没有对数据集做好清洗,导致不良数据混了进去,让AI化身“祖安人”,厂商不得不临时全面停止调用,重新进行大规模的内部审查。
要是再一不小心用到了被限制的数据,比如欧盟GDPR通用数据保护条例的红线,那不仅失去了当年的收成不说,很可能还要搭上一大笔赔款。真是谷歌听了沉默,Facebook听了流泪。
难以把控的数据质量,很可能让企业的心血直接变成秋风中的寂寞。所以,更为专业的数据采集与标注平台,也就成为珍惜天时地利的AI企业者们所需要的伙伴。
第二,因地制宜的场景化。
在商业AI数据平台中,“基于AI落地场景”是一个相对较新的模式。
是开源数据集不香,还是通用数据不便宜呢?场景化数据开始流行,或许与AI计算产业接下来发展可能触碰到的一个矛盾点有关,那就是竞争。
我们知道,目前AI已经成为一种通用目的技术GPT,这也代表着它会以更广泛地姿势融入人类社会,在此基础上生发出新产品新技术,甚至更新生产和组织方式。
既然是GPT,就意味着泛AI算法不再稀缺,而是遍布在日常生活中的水和空气。如何在AI产品上与同业者拉开竞争身位,从AI数据上重新奠定自己的核心优势,就成为科技企业们的必然选择。
举个例子,以前的商超门店大家都没有智能化,如今则几乎每家店都在尝试引入零售智慧解决方案。这种情况下,一个零售商超的企业主,掌握了自己的独家的场景化数据,也就能够更精准地认识自己的经营状况。比如在此基础上了解顾客面对货架、在场内走动的表情,能够辅助判断陈列方案以及个性化的营销推送,进一步提高转化和复购。
这种更高级别的场景化数据,想要获取并交付给算法端去使用,并不是一件简单的事。
云测数据总经理贾宇航举了一个例子,比如在线上订票这样的对话场景中,会有许多种表达方式,“有去XX的航班吗”“帮我查一下机票”……如何让AI助理在不同的表达中都能明白对方的意图,就需要AI数据服务企业与订票平台仔细地对接需求,并在标注时往适当的方向去拆解和作业,这样才能因地制宜,让大量高质量的数据转化为垂直行业的智能养料。
一个有意思的数据是,尽管今天我们已经听到了太多AI的新闻,但AI与行业结合的整体渗透率只有4%。在未来很长的一段时间内,对于数据场景化的押注,值得重点关注。
第三,提升能效的工程化。
当然,伴随着数字经济进入成熟期,二话不说就对AI一掷千金的情况已经不存在了。企业在选择数据模式时,势必会考虑投入产出比。
那么场景化数据的重工重时,是否能够让产业智能化达到最大化回报呢?
答案是,不一定。场景化数据的成本并不低,“有多少人工,就有多少智能”在这里体现得淋漓尽致。曾经有某AI算法平台的工作人员告诉我,为了训练出一个精准识别人体动作的模型,他们合作的3D建模数据方会聘请人员,在姿势采集中心拍摄好CV数据,因为数据量太大,只能放在硬盘里,靠工作人员不断往返两地,将数据送到实验室。
听起来是不是一点也不“高科技”?
所以,工欲善其事必先利其器,随着场景化AI数据产业的发展,工程化能力的提升、效率工具的引入,才会让场景数据的整体成本接近商业平衡点,降低AI企业的成本风险。
显然,对于AI数据的场景化,既是产业AI的必由之路,也密布着大量的冰层等待凿穿。
穿透数据冰层:云测数据在产业端如何种植AI
当社会经济体与智能技术开始耦合,场景化数据的产业服务者也开始展露头角。
目前来看,成立于2011年的Testin云测,旗下AI数据采集标注品牌——云测数据已经成为了中国市场AI数据场景化的首选。
在AI数据的土壤上遍布的冰层,是如何被云测数据一一铲除的?
1.手把锄犁的硬件。
场景化数据的采集与标注,有不少硬骨头。比如NLP、CV(计算机视觉)等,既需要标注者精准理解相关语义,又要结合具体的产业需求进行标注。
为了保证AI数据的高质量交付,云测数据在华东、华北、华南设有数据标注基地和数据采集场景实验室,用来保障AI数据的专业化、场景化与精细化。
贾宇航(云测数据总经理)给我们举了一个例子,为了帮助疲劳检测系统精准判断驾驶员的状态,疲劳状态的数据是必不可少的。因此,云测数据会还原驾驶场景中的疲劳驾驶状态,来帮助采集到贴合真实场景的疲劳数据。让训练算法模型能够精准识别并及时预警,来保护人员的行车安全。
除此之外,为了提升AI数据的标注能效,云测数据还开发了不少工程化工具,不断提升数据标注工具的技术含量。
比如云测数据自研的数据标注平台上,就对3D点云的标注系统优化了渲染引擎,可以融合多帧点云数据和异维数据,让数据视图一目了然,保证整个过程的流畅和快捷,从而减轻标注员的重复劳动压力。
2.润物无声的软件。
在AI的世界里,我们总是在强调硬件——更大的算力,更好的数据,更优的算法。是不是拥有这些就意味一切呢?事实显然并非如此,否则Deepmind早就是商业化最成功的AI公司。
从技术概念到产业落地之间的管理逻辑,就如同产业之上的春雨,“随风潜入夜,润物细无声”。
我们都知道“好雨知时节”,“好”在哪里?
好在适时而下。比如Testin云测在企业服务领域积累了近9年的经验,其管理模式也让数据采集与标注不再是枯燥的流水线作业,十分注重对标注人员的培养,以应对越来越高标准的数据要求。
例如,云测数据会专门招聘一些法律、金融等垂直领域的相关人员,对标注人员进行专业知识的培训,使其能够从产业端的视角去揣测语料中的具体意图,进而对数据进行更加细致的标注,以满足客户的精度诉求。
此外,在管理流程上,云测数据也做到了任务的合理派发,不同类型数据的人员不混用、多层交叉质检等等。
正是这样的“软实力”,不仅铸造了云测数据的能力优势,也拉高了整个行业的人员素质和业务标准,转化为滋养整个AI产业的雨水。
3.捍卫底线的信念。
如果你听说过三聚氰胺、地沟油之类的食品安全事件,那么AI领域一旦出现数据安全问题,损害的可能就是数万人的财产和人身安全。
举个例子,不少数据都是企业的最高级机密,如果不慎从第三方平台手中流出,不仅可能让企业声誉扫地,还可能成为竞争对手的利剑,造成搬起石头砸自己脚的局面。
目前来看,AI数据行业还没有形成统一的安全保障规范和标准,所以,企业的自我意识、技术措施就显得尤为重要。
就云测数据而言,就设置了一系列安全保障机制,比如对于客户的定制数据在交付后绝不留底、绝不复用,彻底清删杜绝了泄露隐患;
另外,在数据采集时也会与被采集方签订数据授权协议,让AI企业拿到的数据都合规合法,没有侵犯隐私风险的后顾之忧。
防火墙设置、内部信息系统、终端不联网、USB接口封死等机制,也从源头保护了客户的数据安全。
贾宇航(云测数据总经理)也曾多次公开表示,无论是 AI 公司还是数据服务公司,眼光都要长远一些,采用未经授权的数据当然可以控制成本,野蛮发展终究会造成不良后果。
云测数据的业务场景覆盖了智能驾驶、智慧城市、智能家居、智慧金融、新零售等多个领域,无不是对数据安全要求奇高的领域。作为AI数据服务的头部企业,云测数据的安全探索,可以看做是在安全合规层面对整个行业交上的参考答案。
对于数据安全底线的捍卫,也是这个新兴产业的生命线。
从云测数据的耕耘之中,不难发现,解锁AI数据的每一步纵然充满难题,但也是形成产业壁垒的关键过程。
像云测数据这样持续为AI训练注入安全高质的数据“养料”,这些都将转化为产业的优势积累,并撬动智能时代的无限可能。
对数据沃土的耕种,才能让我们在AI风起时,得见一片片丰收的麦浪。