崔建业:从大数据中感知食品安全

DOIT2013中国存储峰会报道 今日,以“数据造化 智见未来”为主题的2013中国存储峰会在北京盛大开幕。今年是DOIT正式成立十周年,也是中国存储峰会连续举办第九年。分论坛作为中国存储峰会的经典环节,再次引来现场嘉宾的的热烈参与。此次的大会分论坛包括:软件定义与数据中心论坛、云存储与数据保护论坛、大数据与行业应用论坛、2013中国闪存高峰论坛。其中大数据论坛作为当下的热点话题,加之其接地气的行业应用分享,现场气氛再次引爆。

大数据应用中啤酒与尿布的故事,我们已经耳熟能详。然而各行各样与大数据碰撞出来的精彩故事可是远远超过我们的想象。大数据技术专家崔建业就给现场观众带来了一个如何从大数据中感知食品安全的故事。

图 大数据技术专家崔建业

以下是崔建业的精彩分享:

今天很荣幸代表我们食品安全研发部门做一个我们关于从大数据中感知食品安全探索过程分享。我汇报主要从以下四个方面展开。

1、首先给大家简单介绍一下为我们从大数据中感知食品安全。

2、对我们云平台组织架构做一个介绍。

3、对我们云平台遇到的技术进行一个战术。

4、简单的功能展示过程。

众所周知目前是大数据的时代,信息爆炸过程当中我们食品安全当中大家不断从互联网,从电视上出现大家都有关注,这些方面都形成一个很大的数据资源,另外跟现在的hadoop技术等给我们提供从大数据发现数据的积累,目前我们从这些资源和技术上来怎么样为我们提供食品安全方面做出一些探索。

目前像2012年我们食品安全事件频发,像蒙牛、可口可乐的事件等等,以前溯源更多,大家知道的saas事件、瘦肉精、染色馒头等等,暴露出一个问题我们目前基于互联网的食品安全监管存在一个空白的地方,如果我们有效利用网络的资源来及时的发现这些信息,并且给监管部门还有大众用户提供预警、信息展示的功能可能很大程度降低这样的风险。

通过我们分析发现互联网食品安全事件出现的时候会有以下几个特征。首先是突发性,食品安全事件发展之后会迅速发展,短时间形成集群爆发,食品安全需要分布在地理位置。第三信息有海量信息数的特点。涌现海量信息数据的量这个增量过程是几何爆炸式的增长。还有动态性,食品安全事件发生会带来很多次生衍生的后果。三聚氰氨事件发生以后影响到了牛奶业和保健业。整个过程形成了虚拟社会,虚拟社会这些信息构成整个公共数据源规模在日益扩大。这个基础上我们只要通过有效的办法将互联网的信息进行有效采集、监控以及分析就能够为我们所要服务的行业提供这个最基础的数据支撑,以及为以后的预警方案和食品检测方案提供一个巨大的数据支持。

现在互联网的数据很多,我们怎么样有效的获取过来,比较老的客户技术不先进采用人工搜集方式,但是现在不可行了,互联网站那么多,日益在增长,人工搜集也很有问题。人工搜集数据提供不了可视化的收集,人工收集不能获取很全面的信息,也可能搜集信息不是你想要的,人工监测互联网的时代已经过去了,我们要提供可靠高效的手段。世界范围内以及中国范围内都有一些探索。欧洲委员会联合研发中心就是基于互联网信息快速采集技术进行及时的食品安全的预警。通过信息技术采集分析和处理海量数据互联网相关数据情报基于这些信息建立庞大的数据库,借助有效人工智能发觉算法,从链接关系找到恐怖的情报。像有一些公司通过热点发现追踪,敏感信息监控这些功能,实现对敏感信息和热点领域的监控。我们这些年一直探索怎么样从互联网信息实现食品安全事件预警互联网数据分析和采集系统。

正是基于以上原因这是我们做这个研究的根本,为什么做这些东西?就是为了解决相应人工监控的困难,以及怎么样全方位有效时事监控食品安全信息,我们研究食品安全信息监控云平台,给食品安全系统提供一个技术服务。

下面介绍我们整个云平台核心组织架构?分为四个层次。基于底层硬件环境,构建了一个分布式的基础设施,这个基础之上构建分布式的计算框架层,提供信息处理层以及最上层用户服务层,这是我们整个系统架构的结构层,通过我们服务器,盘阵,接触网络构成我们网络,为上层云计算分布系统,分存储系统提供一个环境。我们通过分布式的处理技术实时框架构成了我们分布式的计算框架。

再以上的计算框架、存储网络环境基础之上完成我们数据处理,垃圾处理、最后为用户信息展示,预警等服务。我们通过这些年积累总结了一下我们有几类,新闻网络,包括各大门户网站,Web2.0来临,用户参与的微博等信息量很大,这个也是我们监控范围之内,随着微博技术发展用户量增加我们现在微博信息出现一个海量增长趋势,这个过程我们就目前探索阶段把新浪微博纳入了我们监控的范围。另外考虑到一个关联性我们现在对中文、也对英文信息和繁体中文信息进行探索配置,这个过程当中纳入基本的范围。

分布式云存储方案,通过我们全局文件系统组合起来协同协作,在虚拟化基础上实现统一的资源池,用户可以自助使用软件,支持应用在线存储和访问,右侧是我们整个云存储系统的结构图,这块主要通过我们底层各个分路径的存储集群,这个基础上我们开发相应存储服务的接口,为上层云存储系统以及云存储平台提供一个基础架构的支撑。

它主要有几个特点:全局唯一利用空间,这块使我们云存储设备对使用者透明,他不关心底层是什么,他使用就可以,因为是云平台,使用者不用担心存储设备在哪,我们给他一个授权他就可以在互联网使用。

再有一个全局元数据管理,通过层次结构和多备份形式保证我们原数据安全可靠。

还有我们基于策略的数据管理,数据物理存储、备份、缓存过程当中可以通过基于策略的数据管理实现高效可靠的管理。

还有全局文件调度,对状态监控以及在此基础上访问调度策略,当各别分中心网络出现异常的时候,用户可以通过其他中心继续访问和维护这些数据。

异构存储设备的兼容,这么多分中心他们设备不是单一形式,我们需要以云存储系统兼容各种不同的设备,NAS、SAN、DNS等等,这是我们整个云存储底层物理环境。

这是我们云计算的系统,我们数据中心的资源整合形成通过互联网访问和使用共享的资源池,以服务方式供大量用户按需可计量使用,通过我们计算机、控制节点,我们以这些硬件为基础,通过我们上层计算模块,网络模块,运维、复制模块形成大的云计算系统。它的特点有以下五个。

一、全局透明管理,可以为用户屏蔽不同计算资源差异,用户使用就可以。

二、按需分配,用户可以根据需要自主选择所需要的资源,并且不需要可以及时的退还还供其他客户使用。

三、弹性扩展。整个云平台跟传统的PC机,分给它单纯的物理机不一样,他计算需求比较大我可以调整分配CPU,考虑到不同应用不同层次的需求我们实现了物理主机和虚拟机分开管理。

四、资源分配部署和管理自动化。

下面我们介绍一下分布式的计算框架,这个细节大家都了解了,不介绍了,我们基于三大开源构架。Hadoop主要是应用于网页信息的爬取,而其他的对计算实时性要求较高的作业比如摘要提取等则通过storm实现,处理的结果比如网页正文内容、相关元数据主要保存在mongodb中,各系统之间通过统一的作业调度中心负责协调。

现在计算资源有了,信息源有了,我们下一个比较重要的技术就是信息爬取技术,我信息爬取技术指我说的信息监控过程,这个过程主要对信息有两点需求,主题相关性和时效性。我不可能把任何信息拿过来,拿过来信息我也不可能不做处理,我找出我所需要的信息,我不可能把什么时候的信息拿出来对信息时效性要求也比较高,赶在食品安全事件爆发之前,或者刚爆发之后就要及时的发现。

右边这个图是我们整个爬取大致的流程图,首先是信息搜集和整理我们设置我们总的URL,通过通用爬虫对网页爬取和保存,爬取过程当中我们分析每一个网站分析导航,以及信息更新范围等等做一个分析,在这个范围之内我们进行一个比较频繁,时间间隔比较小的页面爬取保证信息的时效性。爬取以后我们对信息进行整理分析建立我们一个信息爬取的模型,把这个页面按照导航页,主题相关主题不相关建立一系列的模型,记录时间变化同时建一些主题相关模型,主题不相关模型等等。建立模型做一个互联网的爬取,我们时间预测的模型时间预测值对导航页面和子栏目进行爬取,爬取之后根据我们前面主题模型进行主题相关和不相关的判断,这个判断完基础上进行后续处理。

同样跟我们模型不是一成不变的,需要实时更新,需要实时根据结果调整的过程,爬取过程当中根据新爬取到的网页信息定期进行样本集合模型更新,更新以后再继续爬取,爬取之后再调整精确度提高这样的功能。我们存储资源、信息资源都有了我们信息也爬到了,现在就是说垃圾信息的过滤,大家上网发现网上信息真的不一定都很能,从有效信息发觉33%有用信息就不错了。我们做食品安全事件的时候发现从100个信息发现10%的来我觉得很高,很多互联网评论信息很多是无用的。特别高赞誉,特别低贬低这些我们都要过滤出去,留下剩下信息我们再进行一个分类过程,整个垃圾过滤过程我们基于从正例和无标注数据中学习方法的欺骗性的垃圾实施系统。

首先我们进行欺骗性和垃圾意见的收集确认,我们根据这些年积累整理出来,针对哪些事件频发,哪些是垃圾信息,根据这些信息建立我们一个模型,根据我们底层模型检测,分别出哪些是垃圾信息,哪些不是垃圾信息,同样这个模型也是在不断的优化,不断补充的过程,需要我们根据实时爬取过程优化,优化根据新的模型再去检测新的信息,这个提高我们垃圾信息检测一个过滤。

下面关于我们事件预警的技术,我们信息拿过来了也进行了好的分类,同时进行了一个垃圾信息过滤,我们怎么利用这些有用的信息给用户提供更有价值的信息出来,这块我们用到信息预警技术,我们信息处理过程当中识别可能演变成安全事件的信息,基于发现已识别的信息,确定可能发现事件,可能出现大面积的流传,这样的信息及时给用户进行预警推送。右侧是整个流程图,关键步骤我简单介绍,首先根据我们发现预警事件,因它属性建立预警的本体,通过本体对我们信息处理,分析是不是我们预警事件,然后对这个事件进行预警评估,判断出来是不是发生预警的信息,确定出来以后将这个信息提供实时的结果展示。这个本体是不断的优化过程,在预警当中优化不断的各项参数和指数,用新模型分类调整监测这些监控到的信息。

下面我对我们云平台功能进行一个大致的展示,我们应用部署,我们部署我们中科院下属12个分中心当中,这样可以快速处理PB级的任务,可以通过我们科技网优势快速达到信息同步传输。这块是我们整个云平台的一个展示首页的抓图,这块可能看不太清楚,这块有一些定时整理我们的热词,以热词的范围内进行可视化的展示,我们对今日当天发生互联网报道的一些热点事件进行向用户直观展示过程。我们会第一时间向用户展示很快大概在一个小时会发现它,向用户展示,根据爬取到的信息提炼出这些食品安全事件的热词信息,让观众一目了然,这些关键词发现你要及时关注,根据哪些词最近关注特别大可能要重点关注它。

这块是动态跟踪事件发展趋势的结果展示,我们在地图范围内,哪些省范围内根据颜色值,标注,根据你区域我们重点关注哪个食品安全会发生问题或者已经出现问题了。

下一个我们根据风险评估模型可以确定食品安全风险指数的等级,我们通过这块一个直观的展示,用户不需要知道技术信息,我们一颗星两颗星分级热词,这些分析结果他们觉得有必要知道可以通过邮件等等方式推送。还要给他展示一些他想要看的信息,食品发展趋势是怎么样,信息来源,哪个网站重点报道比较多,这个用户需要直观可视化的展示过程。

另外这块是模板定制化的,根据食品安全监管行业他们定期出一些食品安全方面的报告,或者白皮书之类,这块根据他们需求整理出他们需要的数据,为他们报告提供一个基础的数据支持,并且帮他们自动生成这些报告他们只要下载就可以。

小结一下我们整个的云平台它到目前为止实现了整个食品安全行业里面实时并且准确的监控,我们研发过程当中形成了我们识别体系,识别词库,我们可以很高程度识别出这些食品安全事件,另外我们通过实时监控以及专业词库实现我们互联网信息广泛过去,实现了不留死角的监控范围。我们服务于亚运会、奥运会等。这个是我们食品安全的邮箱,大家可以通过这个邮箱联系到我。食品安全监管目前是很热的话题,我们希望通过我们目前专业的技术跟大家相应行业内的应用进行更广泛的结合,这样才能提高我们精度,也是为服务大众提供一个有效的手段,谢谢大家!

更多详情请关注专题直播