CIO高峰论坛召开:热议数据价值挖掘与智能应用

12月3日,由百易传媒(DOIT)主办的2019中国数据与存储峰会(DATA & STORAGE SUMMIT)在北京盛大开幕,与众专家对新一代关键存储技术趋势及数据创新应用进行了热议,一致认为数据智能将成为数字产业发展的关键推动力,驱动中国和企业数字化转型。

作为峰会重要的环节之一——CIO高峰论坛也于当天举行。参加对话的四位嘉宾分别是中国石油东方地球物理公司研究院总工程师赖能和先生,大连恒力石化股份有限公司CIO余斌先生,华泰财产保险有限公司信息技术部副总经理杨新刚先生,以及来自深圳国家基因库生物信息数据库曾文君主任。

DOIT高级顾问、资深技术专家 董唯元先生

对话主持人由DOIT高级顾问、资深技术专家 董唯元先生担任。

董唯元:首先感谢各位。按理本来应该请各位嘉宾都先介绍一下各自的行业和单位的情况,但是我想今天聚在这里更多是讨论的技术话题,每年都有这样的话题。结合专业讨论干货之前,先请专家从各自的总体趋势上对数字化时代这样一个大的前景做一些分享,如何看待这样一些大的技术趋势。

中国石油东方地球物理公司研究院总工程师赖能和先生

赖能和: 大家下午好,数字化转型是当今新时代发展的必然趋势。要做数字化转型,首先要做信息化、流程标准化。数字化转型是技术和管理创新一个很好的引擎,各单位目前都在抓这一点。数字化、智能化,是将来整个IT基础设施建设很重要的一块,对企业技术创新和管理创新来说是很好的驱动力。

余斌:数字化转型是大势所趋。对石油石化行业来说,大家更多听到的是两化融合,这些事情都不冲突。我们可能从生产、销售、包括产品的设计等各个层面都在做数字化的转型,可能大家接受的更多是数字销售转化。对于生产型、重资产企业,数字化转型给我们带来了更多的发展机会。

智能化,其实有三个阶段,首先是数字化,然后是网络化,第三步才是智能化,从这个层面来讲,要实现智能化,首先要做转型,从生产企业的角度,我们现在数字化的任务就是围绕工业互联网的这个基础设施的建设,通过数据的提取建模方式,实现人机各个方面数字化的建立。

杨新刚:对保险行业来说,数字化转型有几个比较明显的问题。最突出的一个问题就是宏观管理层面上的问题。在过去,CEO经常关注重点项目,汇报的时候项目已经做完,但是数据没有保存下来。为什么?这里既有数据思维的缘故,也有体制的原因,这里面我可能思考比较多一点。数字化负责人关注业务的稳定,技术的稳定性、客户的体验,一个问题是,数据到底保存下来有多少。我看到行业里面很多公司都存在这样的问题。数字化项目一个一个上线,到了最后发现很多数据没有保存下来,这是我个人体会比较深的一个点。

国家基因库生物信息数据库曾文君主任

曾文君:大家下午好!我这边主要分享一下生命科学领域如何进行数字化转型。非常赞同杨总的分享,数字化并不是CIO、CTO一个人的事情,是企业内部的变革。生命是数字化的,因为每一个人都是有ATCG 4种碱基对,每一个人的基因组有3GB大小,经过测序下来每个人数据量达到100 GB,基因数据,我们叫生命大数据,远比社交数据或者是金融交易数据更有研究价值和产业价值。因为这些数据里面包含着人类生老病死所有相关的信息,我们致力于这些信息的挖掘。

生命数字化的过程,依赖的一个重要工具就是测序仪;我们也致力于支撑国产测序仪的研发和应用工作。生命数字化之后,可以采用大数据分析+AI的方式探索健康疾病方面一些信息。

今天主要是跟各嘉宾去探讨一下我们在生命大数据发展过程中遇到的一些挑战和机遇。

董唯元:刚才在私下交流的时候,四位专业人士已经从各自的领域谈到了各自的感悟,像赖总在石油勘探领域,余总在石油化工领域,杨总在保险领域,曾总在生命科学领域提了很多各自的想法。今天会议的主题跟数据相的,接下来希望各位各自行业角度出发,谈一下各自角度对数据的地位和数据价值挖掘的特别的感悟。

曾文君:刚才说到,生命大数据是一个尚待开发的区域,因为大家对健康非常关注。一个人的基因数据是100GB,一个人一生的医疗数据,包括影像生化检测能产生几个T的数据,如果一千万人口城市里面,大家都做这个,整个数据的需求不是小数量。测序通量的增长超过了摩尔定律发展速度,华大智造的测试仪性能通量在过去4年增长了11.5倍,这给IT带来了巨大的挑战,这些数据如何保存、分析还有合规安全性。今天参加这个会,和很多专家厂商进行交流,能得到一些解答,因为目前我认为BT+IT方面的性能和一些价格成本没法满足整个生命大数据时代需求,我认为还没有做好准备的。

华泰财产保险有限公司信息技术部副总经理杨新刚先生

杨新刚:我特别赞同曾总的观点,很多企业都没有做好数字化来临的准备。为什么这么说呢,因为有一项基础性工作,数据资产的盘点,仅有相当一部分企业在做。从一个公司角度,你的数据有多少是用户的热数据,有多少是历史数据,基于什么样的场景产生的,有什么样的价值。

我每到一个公司,首先做的第一件事就是数据资产的盘点,对数据资产进行分类,在什么场景下产生的数据,体量多大,有什么样的价值,未来怎么样使用,等等,要有这样一份完整的规划,用以指导我们未来对数据价值的挖掘方向,这是一个基础性的工作,也是一个非常重要的工作,要从一个公司整体战略层面去做推进,才更加有效落地。我自己的体会,数字化转型根上两点,一个思维转型,一个组织架构的转型。只要有了两点保证,基础性工作前瞻性的工作才能有效的推进。

董唯元:这也是很多趋势里边的一个很重要的一个主张。

大连恒力石化股份有限公司CIO余斌先生

余斌:关于数据的重要性,从我的角度来说,一阴一阳为之道,数据和业务正好是一阴一阳。从IT基础技术负责人的角度,关心的是外面的这些展板,还有今天的一些演讲,以及这些KP内容,而CIO层面更关心的是业务解决方案,因为有业务解决方案,所以我需要什么样的数据。这些数据存在哪儿,实际CIO层面并不关心,要的是结果。换一句话。很多内容,如果仅仅从技术层面、存储层面做介绍还不够,还要和业务要有一个结合。所以我们在阳面看到的是业务解决方案,背后才是数据怎么存储。

刚才讲了关心这些PPT内容的是技术负责人,但决策权在企业CIO手里,如果不把业务和我们的数据之间打通,不了解什么样的业务需要什么样的数据存储,需要什么样的分析方式解决它,不把业务场景讲清楚,这个事情很难让CIO下决心说要购买什么样的独特技术存储的方案。

我们对数据非常的重视,今年投资4000多万元建设了一个小规模的数据中心。我知道EMC存储,但没有看过相关技术方案。我更关心的就是技术方案能不能响应现场的业务。如果响应不了,那就更多的考虑边缘计算,尽量数据在现场能解决一部分,然后回到数据中心进行存储和进一步处理。这是我作为应用方一点点体会。

董唯元:余总为供应商群体提出了更多的要求,相信供应商认为会有一定的难度有一定的挑战。

赖能和:关于数据的价值,大家还要结合各自单位的实际情况和数据特点做冷静分析。其实不是所有数据都是有价值的。从工业生产应用的角度看,工业生产应用有一部分数据是非常有价值的,比如说油田一些设备运行状态的历史数据,用大数据分析辅助预测一些设备故障,这些数据还是有用的。还有就是通过非常昂贵的成本采集来的地震数据,这些数据要永久保留的。这些数据价值非常大,受到现有的一些数学方法或者计算能力的制限,可能还不能完全被挖掘出来,这些数据需要永久保留。保存这些海量数据,对我们来说也是一项很不容易的事情。

董唯元:赖总高屋建瓴来谈数据价值,当然也是我们必须要面对的挑战。我知道各位都在各自的领域里,在日常工作当中是结结实实面对很多具体的问题,解决了很多具体的问题。

从各位嘉宾的分享中,大家听到的是一些要求,其实背后可能暗示着一些对产品解决方案还是有不满意的地方,作为乙方,实际上已经很努力创新,今天很多的介绍都是蛮新颖蛮有创意的创新,但从甲方的角度还是有更高的要求和更多的希望。代表乙方做产品的人,我们其实更希望听到来自甲方的跟场景相关的、跟日常工作相关的干货,如果各位能够从自己行业应用具体场景出发,讲一讲技术落地过程中具体有哪些要求,或者说踩过哪些坑,带来哪些麻烦,可以更完善更打磨好产品。

赖能和:我觉得其实没什么坑,因为招投标书写的很清楚,能不能用,或者是产品的性能、质量要求标书都写的很清楚。所以我觉得还是要真正了解这个产品,以及产品的性能,了解自己的应用到底需要什么样的性能产品。结合今天的主题,也就是是存储,我希望解决存储高性能、高带宽、低延迟还有就是高并发性的技术要求,以及产品的稳定性。采购的时候只要把握很清楚,不会有太大的问题。

董唯元:我是不是可以这么理解:给您容量更大、性能更好的设备,只要够便宜就可以买单了?

赖能和:按照招标法的综合评分法。可能技术不是很好,但价格很低,也一样不会入选的,这是从设备采购的角度。从企业数字化转型方面,我个人体会是要做好这几个方面的工作:第一个是做好企业信息化、流程标准化,做完以后关键要把它真正应用起来,信息化是一把手工程,做好落实;第二个是要搞清楚信息化、数字化有什么区别。过去我们都做过很多信息化管理平台,但做信息化是从管理的思维、从管理的角度想把每一个管理环节管住,而数字化转型是要强调用户的体验、强调数据的共享,两者的思维和理念不同。

董唯元:数据存储和安全的关系如何?

赖能和:油气勘探的数据是国家重要资产,是不允许对外的,我自己平时讲报告的时候从来都是不会把数据坐标显示出来,你看不到是哪里数据,坐标是不能公开的,包括数据所在的地区名字都不能出现。讲到数据安全的问题,这是个很重要的议题,企业数据如要上公有云,数据的安全性怎么办?对我们来说,生产网是生产网,办公网是办公网,两者绝对不可能联通,这是从网络上来说。另一方面,从数据存储的角度,我们对存储的要求是非常高,要求采用很可靠的存储,当然重要数据还要做好备份,甚至还有一些要放到磁带上去永久保存,现在磁带记录数据的速度也非常快,达到360MB/s。

余斌:结合行业谈需求,首先我觉得可能要了解国家的政策,了解当前的主要发展趋势。其实在前面五年,国家推智能制造,这五年推工业互联网,最近国家刚推的区块链,未来五年推AI、VR、AR方面的应用,这些不同的技术都有不同的应用场景,对应不同的数据存储分析各方面的需求,具体到石油石化行业最近正在做的工业互联网平台这一块,之前我们生产的这些数据,对存储要求很简单。就是讲的够大够快就可以了,现在随着工业互联网的发展进入到数字孪生的阶段,数字孪生的阶段要求形成控制这种闭环,就是说通过数字化建模,分析系统返回系统,对数据存储数据分析就是安全可靠,不能在传输的过程中或者说在存储的过程中发生了修改,或者发生一些变化,反馈回控制系统不是闭环,那就是灾难了。结合大的发展趋势和行业的具体需求应用,我们基本上从又大又快到安全可靠,而且我刚才讲的边缘计算,尽量要少存数据。尽量把无用的数据在边缘计算阶段处理掉,各种各样传感器参数拷过来,在前端要做一些临时性的存储,这种存储对性能的要求可能要求快,未必要求大。很多企业已经不关心数据存在哪儿,反正是存在云端,如何应对这些需求提供解决方案,我觉得这个时候解决方案盯着边缘计算可能更有效一些。

董唯元:刚才余总介绍工业互联网的平台,尤其您讲到大企业建平台,小企业使用它的服务化交付的IT服务结果,我觉得这是我们这些做传统存储的人很关心的。面临行业涌现起来的工业4.0,小企业没有基础设施的需求,全都集中到一个大平台上来,这个时候对做存储的也好,对整体解决方案备份也好,肯定还是会有很多异化。

刚才您讲到边缘计算,数据上行的过程中特殊处理,这些东西和哪些存储相关,或者不相关,我也想更多知道现在有哪些技术解决不了的细节。

余斌:前一段时间担任中国工业互联网大赛的评委,我看到很多杰出解决方案,就是边缘计算解决方案。小企业上云,我们要了解发展趋势,在这种发展趋势下,存储卖给谁;都卖给云厂商,肯定不现实,所以我们看到很多很好的解决方案,就是在边缘计算层做了很多集数据分析集存储把MBS都做进去,把边缘计算越做越成为一个独立的整体。我看到,一家国产企业,从芯片一直到操作系统整体都是国产解决方案的厂商,甚至把PLC都虚拟化,大量的计算和存储功能都在边缘计算端完成,直接对接云端应用就可以了,这也是一个思路。

董唯元:这种比较新颖的解决方案,边缘计算业务逻辑跑到了一个封装好的系统里,作为用户会不会担心被一家厂商锁定,将来只能买他们家东西?

余斌:边缘计算看用在哪些方面。用在工艺上、用在设备上,听着好像市场变小,其实市场变大了,前端做了数据分析存储处理,接着把一些更有用的管理数据提取出来,或者说建模完到云端去,现场需要不是一个两个问题,需要大批量,包括赖总勘探油井的数据,原来都传到数据中心分析,一个油井配一个边缘计算的服务器,有多少个油井,都现场把这个问题解决了。没有必要说一家通吃,所有的接口数据传输有标准的。

杨新刚:我着重分享一下安全和合规。数字化情况下,很多用户触点数据都涉及到安全和合规,一个国家政策层面的合规,让外面很多P2P大数据厂商,基本上销声匿迹。

董唯元:在金融保险行业要求比较高。

杨新刚:一个典型案例是大数据风控。在金融行业,保险叫投保风险,银行叫贷款人的违约,基本的思路是建立一个风控的模型,和外部的一些比较知名的厂商做数据合作。但本来大家合作好好的,突然说对不起,因为种种原因,从明天开始服务要停掉了。这说明,数据合作包括建模,应该建立在安全合规的基础上。这是外部数据合作。

对于金融企业来讲,最大的合规风险是客户信息的泄露,这类似于制造企业的生产安全事故,从存储的角度,所有的客户信息、敏感信息,比如说证件号邮箱号都要进行加密的存储,从甲方的角度,希望提供一个便捷的方案,很便捷对这个用户敏感信息进行加密。但是加密之后,外面又有数据合作的需求,总有一方要把数据还原,按照对方加密方式进行数据合作,这里边有很多细节性包括方案性的问题。我们一直希望有比较好的厂商提供一个完整的交钥匙的方案。

董唯元:现在是山头林立的阶段,从刚才的角度,将来在整个金融保险领域里面有一个行业互联网能够平台化的统一解决接口数据问题,数据一致性的问题,或者整体资源协调的问题。有这种可能吗?

杨新刚: 是大概率事件、也是我们期望的,有监管牵头、行业协会牵头提供一个叫做安全合规的服务的平台。比方说买保险的时候,做核保分布识别,提供一个风险的评分。这个基础是安全合规,从而能够有效识别客户的风险。

目前行业里面有一些原型,有一家行业公司叫中保信,全部客户保单数据整合起来,作为监管上面的行业性的这样一个平台。但还没有完全正式提供这种服务,有一些愿景和平台,有一些场景上的服务可以提供的。如拿保单要申请贷款,这个时候保单是真的还是假的?通过行业协会平台能够验证保单是真的。

董唯元:曾总其实和我们日常生活最相关了。

曾文君:刚才提到了,我们每个人数据基因数蛮大的,因为单体体积很大,现在是100个TB,随着基因测序成本不断下降,随着大家对整个癌症诊断的需求(这是很现实的问题),现在测序的话三十层,未来的话测序到一百层,上TB的数据,到医院做检测,一个小时拿到结果而不是一个星期拿到结果,对处理数据上性能要求很高,同时对成本的要求也是蛮高的。现在大部分还是采用硬盘作为介质。

我们给厂家提出要求,能不能尽快把SSD价格降到我们可以普遍接受的合理的水平?这是一个很大的问题,并不是说我们处理的要求性能高,基因数据按照国家法规存储, 上百个PB, 这么大量的数据面临很大的问题,寿命大概五年左右,五年要倒一次,数据管理是非常大的风险。另外,系统里面有不同厂家的产品,互相去做生命周期的管理,也是非常大的挑战。

在数据安全方面,也会遇到不可预测的人为操作,数据的备份尤其异地备份,是最后一道防线,我们的要求是不能丢数据,最最基本核心的要求,这么大的体量怎么样去传输,存到什么地方,目前对我们来说是非常大的挑战,现在的数据交互备份都通过拷盘的方式,网络太慢了。

董唯元:据我所知,很多行业初创公司,一台服务器可以跑起来,只有生命科学行业,一个初创公司是PB存储起步,蛮受搞存储的人欢迎。您刚才说的,不同几十年对存储性能的要求各种各样,现在出现了一些云服务商,专门以云化服务的方式提供云端数据存储,未来5G之后,有可能云端可以解决这些问题吗?

曾文君:生命科学里分析过程和高性能计算密不可分,整个计算和存储过程都是数据产生的流程, 计算和存储设备都在靠近数据产出端(测序仪)这里,所以基本很少放到云端分析。 从目前来说,从带宽的限制,基本上比较少,基本数据哪里产生,算力和存储能力都一起解决这个问题,我们尝试过和云厂商合作,整体来说还是没那么方便,一方面, 公有云产品的价格还是比自建数据中心要略贵,二是有政策法规的要求,人的基因数据现在国家监管非常严,放在公有云上是否合规合法,尚没有明确的政策指引。此外,基因数据作为国家的战略资源,我很关注它会不会因为中美贸易战的制裁或者黑客的情况导致供应链或者安全受影响,我们这边非常乐意看到支持国内的自主可控的存储的技术,不会被人卡脖子,不会有后顾之忧。

董唯元:以前没有想到,生命科学对自主可控还有那么明确的要求。

本来我们还希望更多的和各位专家去探讨一些干货,今天时间有限,交流就暂时告一段落。每年都会有这么一个环节,感谢大家,感谢各位专家,来年再见,谢谢!

关于主持人:

董唯元先生,曾任中科院计算所863课题组产品技术顾问,多年来持续专注大型数据中心的建设与运维工作,曾主持规划并建设了数十个大型数据中心系统。