工业大数据如何落地 宝钢数据分析师有话说

做工业大数据,规划很重要,落地更重要。那么,一线的数据分析师怎么说?

“我的一个感受是,做数据分析是非常之难的。为什么难?因为每天与各种各样的假象做斗争。”宝钢中央研究院首席研究员,教授级高工郭朝晖说。

在日前的“工业大数据的特点,方法与价值创造”的分享会上,郭朝晖指出,数据质量不高,成为工业大数据发挥价值的瓶颈。

郭朝晖

郭朝晖于1997年加盟宝钢,长期从事信息,模型,自动控制,大数据等领域的技术研发工作,在企业一线积累了宝贵的经验。

他表示,工业大数据能否真正落地,取决于能否创造经济价值。要体现价值,必须找到合适的场景。而价值的持续创造,必须与日常的生产或管理流程相结合。为此,必须理解工业大数据的特殊要求,那就是可靠性。

可靠:工业的基本要求

工业数据分析的项目常常不了了之、虎头蛇尾。为什么呢?

业界在谈到数据应用的时候,往往是在说它好的一面,比如说数据中有信息,数据中有知识,数据是有用的;但是,业界往往会忽略其另外一面,比如说数据有假的,有错的,有偏差很大的,有暂时性的。

特别地,人们对分析结果有一个基本的要求:可靠。可靠性要求和使用价值往往是硬币的两面:如果价值很大,则往往对分析结果的可靠性要求很高;反之,对可靠性要求不高的分析,价值也不会很大。如果正确的分析结果能够带来很大的效益,错误的分析结果往往也会带来巨大的损失。

工业大数据分析结果的可靠性成为重中之重。然而,当前无论是从数据质量层面,亦或是在分析理论层面,工业大数据均面临挑战。

在工业过程中,数据质量差是种常态。在传统的分析理论,同样面临挑战。

场景一:钢铁的成分和工艺怎么提升炼钢的性能,这个模型的建立非常重要,这是钢铁工业60多年来的一个梦想。但是在建模的过程中,分析师会发现模型的精度总是提不高,不同的人会得出完全不同的模型。

是否存在精确的模型?郭朝晖的结论是:不可能的。因为数据的误差制约了模型的精度。
在实践中,郭朝晖发现,如果自变量存在显著误差,用误差最小化的优化方法,可能都存在分析结果与真实性的偏离的问题。这对传统建模理论是一个极大的冲击。

场景二:相关性与因果性。比如,A钢种,很少发生缺陷,所以不对其进行检验,B钢种容易发生缺陷,必须经常进行检验;导致的结果却是,A钢种缺陷率高,B钢种缺陷率低。

长期以来,在工业过程中,工程师往往采用前馈、反馈的手段,构成一个复杂的人造系统。所以常常有这样的现象(几乎是必然会发生的):某一个变量如果有重大影响,权重极高,分析师一定会想方设法降低其影响力。

这说明,从工业大数据中淘金,相关性分析可能是不够的。

回归分析与相关性分析,都存在某种程度的失效,工业大数据还能怎么玩?

工业条件往往不高,导致分析师不能提出不现实的数据的要求;分析的误差也比较大,因为过程中看不见的原因有很多……这都是造成最后的分析结果似是而非,不了了之。

怎么办?

提高数据质量 采用合理的分析方法

可靠性是工业大数据的灵魂,这与商务大数据(包括互联网大数据)具有本质的不同。那么,怎么提高工业大数据的可靠性?数据质量和分析方法(思路),成为两大关键,而组织好数据是基础。

郭朝晖表示,在思维上,要认识到工业大数据要求数据的完整性与真实性,包括存储数据时的真实性,组织数据时的结构化,分析数据时的预处理。

如果在开始时,数据没有进行很好的组织,到最后肯定是分析不出结果的。因此,要想把工业大数据用好,在分析阶段,在组织数据和收集数据时,就该想到数据是干什么用的,否则很有可能收集到的数据是不能用的。

“首先是为人的分析创造条件,然后才能有自动化的分析。”郭朝晖说。

2013年3月,IBM公司在发布的《分析:大数据在现实世界中的作用》白皮书中,对大数据的4V理论进行了修改,把其中的商业价值(Value)修改为Veracity(真实性)。IBM认为,“前3个V涵盖了大数据本身的关键属性,但真实性是当前企业亟需考虑的重要维度,将促使他们利用数据融合和先进的数学方法进一步提升数据的质量,从而创造更高价值。”

据介绍,对于真实性,宝钢老专家王洪水认为,真实性首先是数据的完整性,数据之间的联系要尽可能完整地记录下来。而郭朝晖认为,我们不仅要知道数据是什么,还要知道数据是怎么来的。有时候,这比数据本身更重要,是分析问题的关键所在。

一个完整性,不仅仅包含过程本身、对象本身的完整性,还要包含数据本身的逻辑的完整性。这样,在使用的时候,才能不被假象所误导。事实上,“做数据分析的,本身就是不断地与假象做斗争。”

有专家认为,数据分析无非有两种方法,一种是先对数据的分布做出某种假设,结论的正确性依赖于假设的正确性;另外一种不作出假设,直接根据数据之间的关联得出结论。所有的方法,离不开这两种。如果第一种方法的前提可行,结论一定是可靠的。但现实问题却是:数据分布往往不能满足某些分析方法的要求。

郭朝晖认为,为此要把分析的重点转到幕后去,也就是在原始数据的基础上,通过人工分析来选定数据和创造条件,从而得到一个可靠的统计的办法。

“绝对可靠是不存在的。我们只能得到相对的可靠。如果从多个维度去论证其合理性,并且没有明显的反例,我们或许就可以认可这个结论。”

从数据到数据的方法就像是坐井观天:因为我们不知道数据产生背后的原因。同时,工业界的数据往往是多维度的,如果仅仅想从数据本身证明某个结论,数据量往往是不够的。

“一定要把知识和机理融合进去,当这两者同时满足时,才有可能得到一个可靠的结果。”

合适的场景决定了工业大数据的价值

在现实中,往往先进的东西不实用,实用的东西往往不先进;对于新技术,只有运用于经济活动并取得经济成功才算是创新;同理,只有创造价值,工业大数据才有生命力,才能真正在企业落地。

郭朝晖认为,一个技术的价值,取决于用户怎么看待它。大数据能不能落地,关键的问题,是能不能找到合适的场景,而不是技术本身的先进性;不仅如此,还要看投入产出比是否合适。

场景一:GE是用工业互联网获得大数据、降低维修成本,提高可靠度。由于航空发动机的维修成本很高,对可靠性的要求也非常高。因此,如果能通过大数据分析,找到恰当的知识,就可以复制到成千上万个发动机产品上,能降低成本,提高可靠度。

场景二:河南省有一个小工厂,基本上没有操作工。他们把每个环节的数据及时存储起来。出了什么问题,怎么出的问题,哪个环节有问题,都能溯源。

所以:1.GE的想法非常好,可并不见得适用于每个企业,因为投入产出比太高。2.高质量、无人化的场景之下,数据非常重要。

结论:数据是否有用,关键在于用户是否对高质量的产品有很高的追求。如果有,那么数据的价值自然会被带动;反之,当企业对质量不关注,再好的数据也是没有用的。

场景三:上海宝山某豆腐工厂,员工有1000多人,但是豆腐质量不好,工人的操作水平无法得知。最后,豆腐厂老板在工厂里安装了摄像头,于是产品质量马上变好了。

所以:虽然工厂领导并没有看监控,但无疑摄像头起到了威慑的作用。

结论:中国的经济起步于农业经济,工业化还不成熟,人的规范性、职业道德各个方面有待提高,不具备精益求精的精神。所以,用大数据提高管理水平是重要的应用场景。

郭朝晖建议:能不能通过大数据,把每一个生产流程记录下来,然后让研发,采购,销售,设备维护,都很规范地运行,当出现违规时,就用一个算法进行示警?

“在某些传统企业,管理漏洞导致的浪费可能大于总利润。大数据记录可以看作一种抽象的‘录像’,对提高管理水平的价值是很大的,或许适合很多中国企业。”他表示。

工业大数据是对生产、研发、服务过程的痕迹的数字化记录,其目的是建立以数据说话的基础,它常常是对数据资源的二次利用,是通过间接的途径创造价值。因此,只有将大数据的功能和业务流程绑定,才能持续地创造价值。

“我认为工业大数据的主要价值,或许不在于发现规律性的知识,而在于提炼出有用的信息。用这些信息驱动软件化、模型化的知识,可以智能化地解决管理问题。”郭朝晖如是说。