【数据对于人工智能的重要性】数据集对于人工智能的重要性就像汽油之于汽车,在学习机器学习的时候都会接触几个公开的数据集,比如myhappyforce.com通过搜集员工的日常幸福指数数据可以预测员工离职,Talking通过机器学习分析广告点击的行为数据智能检测广告欺诈行为,沃尔玛通过对供应链数据进行分析智能优化供应链管理。
【企业要积累数据资产】对企业最有价值的还是企业内部的数据,IBM认为在80%的数据在企业自己手里,谁把自己的弄好。谁把自己的用好,谁就有竞争力,要有意识地积累企业的数据资产。那么,企业内部的数据应该具备哪些特点,哪些数据能为企业的AI战略所用,需要什么样的数据架构作为支撑。
数据应该具有哪些特点?需要什么样的数据架构作为支撑。
【敏捷性Agile相关,API,DevOps相关】1,数据要丰富,企业要建立数据收集机制让数据丰富起来。在没有明确AI能为你的企业做什么的时候,要尽可能多地把可能有用的存储下来数据,在发现数据的价值点之后,数据要能快速为应用所用,这要求数据的支撑架构需要有很高的敏捷性,具备自动化的API,支持DevOps等能力。
【数据Flexible相关,提升ROI】2,数据存储不应该成为明显的额外成本负担,尽可能提高企业在人工智能方向上投资的ROI。一方面,合适的数据存放在合适的存储架构下,比如照片影像文档这类非结构化数据增量大适合存放在对象存储的架构上,需要在公有云和私有云之间做一个权衡,这要求数据架构具有很高的灵活性。当然,数据管理的人力成本也很重要,数据的架构要支持一些自动化的数据采集机制。
【数据跨架构流动】3,数据应该避免碎片化,避免企业中的数据孤岛,数据应该支持各种不同环境,企业相关的数据存放于智能终端、物联网、云计算、本地数据中心中,本地数据有不同时代、不同品牌的数据基础架构,多种异构环境各种数据应该相互打通,要求适应性的架构数据架构应该能支撑这样的复杂的数据存储环境,让数据在多种环境下自由流动,为人工智能所用。
【数据架构要求Agile,敏捷】4,数据质量要高。数据要标准一致,比如计量单位要一样;要尽可能剔除明显错误的数据;正确处理缺少的数据,采用数据保护的手段,来避免数据因为技术故障丢失的情况,数据要安全;数据量要精简,剔除不相关的数据,比如信用卡卡号,交易单号等。这要求存储架构支持足够多的数据处理的API、SDK,数据系统要具备一定的开放性,具备较高的敏捷性。
【现代化-闪存优化的架构】5,数据处理的性能表现。数据处理需要的过程非常复杂,处理的数据量大,并发量非常高,都会影响人工智能服务的响应时间甚至服务质量。比如电商欺诈检测中,需要面对超高的并发访问洪流,如何分析众多访问下的访问者的行为记录,判断出是否为欺诈行为,这需要数据系统具有快速响应的能力,要求高性能,高稳定性,可有助于提升服务等级,可借助闪存优化的系统来提升性能和稳定性需求,这对数据架构提出的要求是具有现代化。
【现代化-数据secure安全】6,数据安全的要求分为两个方面,一方面要求数据记录准确,一方面要求数据不泄露用户隐私。灾备、多站点等数据保护技术可以保护数据不丢失,数据隐私方面需要接受各种严苛的数据隐私规章要求(如GDPR),又要满足行业监管合规性要求。在数据安全方面,大型跨国IT服务企业更有优势,应该选用或者借鉴大型做法IT服务企业的做法。
【总结概述Flexible,agile和Moden】以上是笔者对于企业布局人工智能时对数据以及数据架构提出的要求。简而言之,企业需要在保证数据安全和数据隐私的前提下,能让数据架构灵活地满足在成本、安全性、架构兼容性方面的要求,要采用先进的数据中心现代化的技术,闪存、软件定义、备份等技术来提升服务等级,数据架构要具有敏捷性,以此来满足不断变化的业务特点。
在实际应用中,企业内部涉及人工智能方向的IT技术人员其大部分工作都在数据方面,数据架构的优劣直接影响到包含人工智能技术的企业服务。
【场景-AI技术提取大量医疗影像的特征与病症相对应,主要是要求数据架构灵活性】
医疗健康领域在尝试AI阅片,以往医生看片子都是靠长期经验,不同医生看的结果经常不一样,有时候会出现误诊的情况,有时候还需要召集多位专家会诊,效率非常低下,从医生的角度来看,工作量又非常大,从病人的角度来感受,等待时间非常的长。
AI阅片实际上是AI图像识别范畴的技术,人工智能找出医疗影像上的特征与对应的诊断结果的关联性,辅助医生做出诊断。这其中,要求有大量的医疗影像数据来训练诊断模型,数据越多,训练的效果越好。
医疗影像是典型的非结构化数据,医疗影像的类别非常多,数量也非常多,一般三甲医院每天有几百位病人做检查,每位病人有几张到几十张不等的片子,所以需要灵活(Flexible)的对象存储架构来满足数据存储的需求。机器学习是一个不断学习和完善的系统,每天新涌入的数据会逐渐改变和优化原有的模型,数据架构必须快速把新的数据加入到数据集中,数据在架构之间能实现较快流动。
医生看每个患者的片子大约需要几分钟到十几分钟不等,而有了人工智能系统之后,医生可以把更多精力放在别的地方,而不是医疗影像本身,大大提升医生的诊断效率和患者的就诊体验。
【场景2-保险业需要快速获取并验证信息后作出理赔,要求数据架构灵活性】
保险业也在尝试以人工智能技术来提升理赔体验,以往的保险在出险的时候需要把各种票据和证明提供给医保机构,如果有票据不全的情况,还必须得补齐,当所有材料都完全提交之后,还需要登等上几十个工作日,然后才能获得理赔。
有了人工智能技术之后,理赔的流程会大不一样。用户只需用手机上传票据的照片即可,人工智能技术能读取票据上的信息,从而迅速将数据录入到系统当中,医院部分的资料可以由系统直接从医院的系统中获取,当所有资料齐全之后,所有信息都确认无误后,理赔到账,整个流程下来大约只需要30分钟。
对于数据架构的要求首先是要迅速处理各种信息,对接不同的存储架构。数据需要在移动终端的APP到保险公司的数据中心,需要从医院的信息中心到保险公司的数据中心,运用人工智能的技术识别信息并确认信息,需要将数据进行汇聚,解决数据碎片化的问题,数据在不同架构之间快速流动。
以上两种场景都非常明确,所需的数据也都非常标准化,省去了相关数据选取和数据质量问题的相关内容,隐含其中的是对于数据安全性的要求,要求保护用户的隐私。