IT邵年 发表于:13年12月11日 21:51 [原创] DOIT.com.cn
今日,以“数据造化 智见未来”为主题的2013中国存储峰会在北京盛大开幕。今年是DOIT正式成立十周年,也是中国存储峰会连续举办第九年。分论坛作为中国存储峰会的经典环节,再次引来现场嘉宾的热烈参与。此次的大会分论坛包括:软件定义与数据中心论坛、云存储与数据保护论坛、大数据与行业应用论坛、2013中国闪存高峰论坛。其中大数据论坛作为当下的热点话题,加之其接地气的行业应用分享,现场气氛再次引爆。
很多人都认为大数据是最近两年的事情,其实,很多公司前几年就开始了这方面的工作。北京赛思信安公司的周游先生与参加大数据分论坛的观众分享了自己公司为企业大数据应用提供一体化解决方案。下面是周游总经理的大会文字速记。
周游:很高兴今天有这样一个机会分享一下我们赛思信安对于大数据这块对传统行业利用的理解,同时分享一下我们相关的大数据解决方案。我们赛思信安在大数据行业默默耕耘了大概三年多的时间,也有很多成功具体实施的案例。
首先先介绍一下赛思信安这个公司。我们公司其实一直致力于存储和数据的行业,主要提供数据存储相关的产品和解决方案。我们本身的产品大多数产品也都是自主研发的,有自己的研发团队,完全自主研发的。公司是成立于2007年,公司目前拥有200多人,主要研发人员比较多有70%的研发人员,我们一直走自主研发的道路,用自主研发品牌的产品。我们在存储包括数据管理,大数据方面也积累了很多的经验,因为我们最早进入通过在存储这个层次也在消冗这个方面。之后在数据管理这方面我们也做一些产品,之后我们大数据分析智能化挖掘也推出自己的产品。这是我们公司这几年产品相关研发推出的里程,我们在数据消冗这块也是自主研发技术也是自主研发产品,给用户节省了空间,提升了存储利用率,也为用户节省很多成本。2011年我们最早基于用户的需求我们开始切入大数据的行业,当时大数据概念大家没有提,但是我们做的事情是大数据的事情,数据量非常大给用户带来很大挑战我们开始做这个事情。我们公司愿景实现人与数据沟通,提升客户潜在价值,我们怎么利用数据为我们客户和企业创造价值。
目前我们全国以北京为中心建立了我们相关的售后服务体系,体够包括电话、网络相关的售后服务,保证我们产品及时的响应。这是公司整个的产品线从数据管理、分析层面等。我们包括软件核心的这些技术都是我们自主研发的,另外根据用户可以做很好的定制响应速度比较快。
下面我们重点分享一下也是跟大家探讨一下我们在传统行业在大数据这块做的相关工作以及相关的理解。大数据实际上可能从去年、今年大家提的比较热的,实际上我们觉得大数据这个事情实际上已经是一个很长的一个时间的事情,并不是现在才出现的事情,大数据除了现在提到的量比较大,还有类型比较多元化这种新的数据量增加带来新的变化之外,其实更重要还有一种数据的思维,我们是不是考虑用数据去思维去考虑我们的业务,去考虑我们如何用数据支撑我们企业或者我们单位的这些业务来提升我们业务的竞争力,我觉得这是一个非常重要的一点。
所以说就是除了刚才介绍的数据量和数据类型的变化所增加所带来的现代对传统信息架构的影响之外,其实更重要在传统行业企业更多考虑我们如何利用这些数据,如何基于这数据挖掘自身的需求,来支撑我们企业的运营。那么后面我们分几各方面来具体分享一下我们这个理解。首先来说我们觉得数据它通过接入更多的数据可以为企业找到他们更关注的一些内容,来更好为企业的决策做出支撑。这块我们可以看到比如说我们在金融、保险等行业,它基于更多的数据源融入更多的数据,金融我可以做征信体系支撑我贷款的业务,保险行业我可以分析我的客户,更细致的定制我保险相关的产品。包括在制造业方面我们可以根据用户对于他们汽车产品的理解,汽车产品的评价我们可以去设计定义这个汽车产品的功能,然后设计出更好的让用户更满意的产品,定价方面也可以用大数据技术定义更好的价格。包括在石油、医药行业这块通过数据融合实际上都可以得到很多帮助企业进行数字化决策的一些东西。
我们医疗行业可以看一下,原来的医疗行业数据是比较单一的,进入医疗系统只有病人我可以看病基本的资料,如果我们从大数据的思维,大数据角度考虑这个问题,其实医疗行业包括研究机构,制药企业提供人相关一些信息和药品的相关信息都有可以融入到他们系统当中来。另外临床决策在临床上面产生治疗的信息都可以融入进来,另外患者一些行为,包括它的一些患者之间的关系也可以融入到医疗行业的这种信息资源库当中来。我们通过融入更多信息资源,通过信息资源的关联可以为用户发掘更多有价值的东西。我们通过这个我们可以提供更个性化的医疗服务。另外临床决策这块我们可以做更好的决策支撑。
另外还可以帮助通过生活方式和行为来对疾病做一个更深层次的分析,甚至于疾病的发生做一些预测这些都是可以通过数据的融合可以做的。
我们从另外一个角度来看我们通过数据可以帮助企业更好的了解企业客户,这样可以发掘更多潜在的价值,帮助企业提升自己的市场空间。这块包括电信、零售、运输等。其实零售业这个感触是比较深的,因为互联网化在零售业这块,包括电子商务的出现和迅速的发展对这块冲击非常大的,因为电子商务这块更有效的利用了数据资源,所以他们在竞争和传统零售业占了非常多的优势,双十一可以销售几百亿的商品。这个就是利用大数据一个很直观的一个现实的例子。其实目前像电信、运输等一些传统的行业,包括金融这块实际上也可以开始我如何利用他们自己所用的数据资源。电信这块可以对用户进行全方位的描述,他的爱好等等也可以设计出针对性的产品进行推荐。包括金融和保险业,现在互联网金融是近年也非常热,互联网金融做的很重要的方式就是通过互联网方式进行用户收集,通过征信体系做第一步的信用评估,这样更有效的实现对用户信息整理和评估,这个也是对数据利用的很好的例子。
我们可以看一下在电信行业我们可以得到哪些数据?一个是用户基本信息,还有用户行为特征,还有一些用户上网包括访问的喜好等其他访问喜好,通过这些信息汇总和融合之后我们可以全方位的描述这个客户,我们可以知道这个客户偏向于电话多,还是短信多还是上网多我们可以定义更科学更好的套餐,并且预测用户对服务使用的感觉,他是不是后面想不用这个产品,后面我们可以及时对用户做推荐,挽留客户,甚至我们通过产品推荐找到更多的客户,这个对企业挖掘自身的市场很有作用的。
还有一个企业可以利用数据来提升自己的运营效率,这里面涉及到我们看到相应的企业,包括制造业、能源行业、物流行业都可以利用数据提升自己运营效率。下面我们可以通过一个例子看一下,我们这个地方拿到一个物流行业的例子来看,随着现在物联网、传感器等相关技术的不断发展,实际上在物流行业当中车流运输情况,所有信息都可以实时采集到这个系统来,车辆行车轨迹和司机的信息都可以采集到这个信息系统,这个信息都存到信息中心,后面做了一件事情就是我们如何对这个数据做有效利用,这个是非常关键的一个环节。对于这块我们当时也做了一些规划和设计、实施。这个第一个我们可以利用采集的数据对运行车辆的行使状况做一个分析建立模型之后可以对车辆故障进行相关的一些预测,提前让企业对车辆进行维修。另外我们通过数据整合可以对车辆的运行轨迹做一个更优化的处理。另外我们还可以对于司机的状态做一个实时的分析。其实对它们之间一些物流网点设计和部署这块也可以通过数据做很有效的支撑。
还有一块就是大数据在安全方面实际上也是可以做很有效的工具来支撑。这块包括几个方面。一、现在智能监控这块,通过大数据分析技术我们可以对图像进行实时分析在线分析,发现一些犯罪和违规的行为。另外在网络方面对网络通信数据流可以做网络分析在线分析,我们可以通过数据进行落地进行进一步的分析。我们可以通过网络预测这个犯罪,我今天上午跟国家保密部门沟通的时候,通过对网络行为进行分析,也可以提前发现一些窃密的行为,通过历史数据发现这一点,通过这个关联规则我们预测一些窃取的行为。
后面是我们赛思信安针对大数据的产品和解决方案,这块我们还是回来用一页PPT简单总结一下,传统行业我们在大数据时代面临哪些挑战?这个挑战可以总结为PPT几个方面,不同企业面临其中某几个挑战。我企业数据量特别大,达到几十个PB等,面临数据管理的问题。但是有些数据绝对量没有那么大,可能在几个TB级,但是它们其实面临很大问题就是我如何利用这些从里面获取更加的信息这是他们面临的挑战。我们后面相关的一些方案和产品都是针对这些考虑进行不同的设计的。
其实针对刚才提出的问题有很多解决方法,这些解决方法也有传统的一些方法,也有随着互联网行业不断发展一些出现新的解决方法,包括hadoop等一系列的技术,并不是一种技术解决所有的问题,我们可能需要融合传统方法,融合新技术,根据需求做一些工作才能解决目前面临的问题。互联网是针对自己需求开发的技术,并不是针对所有行业提供的解决方案,我们可以做定制化的需求。
我们这块包括三部分,第一大数据的基础平台,第二、上面大数据的分析平台,第三、侧面就是一个管理的平台。我们在大数据基础平台提供几个引擎,包括传统引擎、hadoop引擎、流计算引擎、数据仓库的引擎,这个实现对于复杂数据异构数据很方便的处理和分析,交互式的分析。另外我们提供数据挖掘基础的算法包,让用户利用这些算法包对自己数据进行挖掘分析。
我们利用系统对上面提供展示的工具,让用户通过展示更清晰看到自己数据隐含的趋势或者一个规律。我们最底层采用服务器架构的硬件平台作为我们最底层硬件基础设施,在上面我们可以构建数据管理平台,上面数据分析应用,我们在检索系统这块我们主要是解决海量数据的高效检索的问题,因为数据量非常大,传统的关系性数据库很难满足海量数据的检索,当数据规模达到万亿级PB级的情况下需要检索,这种检索需要对异构数据的检索,可能有文本数据有结构化数据,我们通过自主开发多维检索系统也可以有效解决这个问题。我们通过hadoop里面的框架做很多分析的深度开发。基于流计算引擎我们可以在内存做快速处理,这样可以实现对于异常行为异常事件快速的报警,或者异常规律的发现。还有传统的数据仓库,基于数据仓库我们可以支撑对一些结构性数据做一些有效管理和处理。上面我们可以支撑多种应用,包括内容分析,企业预测管理,还有BI智能报表还有其他的应用。
下面我们具体看一下我们几个核心的产品,第一个我们提供软硬一体的大数据一体机的解决方案,这个解决方案里面首先是X86基础硬件平台,在平台里面我们嵌入我们自己开发的大数据软件,这个大数据软件可以根据客户需求部署不同软件平台在里面。这个系统它的优势,就是它可以做很好的横向扩展,并且这个横向扩展是在线进行的,平滑进行,我们软件这块对外提供加载和处理的功能。从软件层面性能我们可以随着硬件物理节点而线性的进行增加,包括我们数据加载效率,查询的效率,另外我们提供标准化的接口,文件访问接口和SQL的访问接口。
第二即时多维检索系统,解决海量数据的高效检索,这是我们面临用户最早的需求,他们在实际的业务应用系统当中最早采用关系性的数据库,但是随着数据量不断的增加,他们发现关系性数据库可扩展性方面很难满足他们需求,所以我们开发了这套系统。hadoop里面有Symantec,也是互联网公司开发的这个Symantec系统,这个很难支持多维的检索,也不能很好支持文本的检索,也不能支持SQL的接口,所以不太方便。我们这个系统数据库的数据可以导入我们的系统,对于交易日志、话单日志、通行日志都可以放在里面,可以进行消息检索和深度分析。
还有就是我们在整个大数据管理平台里面我们可以单独提供针对小文件管理和检索的单独引擎和管理系统使用。有些应用场景小文件非常多,每个文件只有几十K几百K,这种小数据达到几百亿就很难访问了,我们支持对于文件描述信息的检索。
还有一个我们数据仓库的系统,这个系统也作为一个单独的系统去部署和使用,针对这个系统我们提供了相对于标准化的接口,ODBC、JDBC接口,另外提供相关很丰富的数据管理工具。
这是我们基于大数据管理平台商业智能的系统,对于基础的数据以及融合的一些其他的运行日志数据我们进一步数据可以通过我们Bigfuain抽取、转换、加载,然后我们切片切换,上钻下钻同比环比,指标预售之后是分类、预测、关联、通过报表进行一个很形象化的展示。
我们整体大数据管理平台可以整体使用,我们融合了一些异构化的数据,这些数据可能有短小的记录性的数据,还有文本性的数据,还有邮件比较复杂,里面带附件带内容到标题很信息的数据信息,我们可以提供整体一体化存储和管理,对外提供标准化的访问接口。这个基础之上我们提供检索和数据抽取包括做关联分析一些基础的算法库。上面用户可以做很多种业务,我们这个实际上支撑网络安全,包括网络安全应用中都采用了这套系统进行有效的支撑了。通过这个平台我们可以对数据做并行化的数据分析,通过我们提供的算组,我们通过分析发现数据中隐含的模式和规律。其实大数据最关键一点或者最核心的一点也就是通过我们工具,可能是不同的工具发现隐含的模式,基于这个模式我们可以监控这个模式进行预测,这是大数据里面很重要一点。
总体来说我们赛思信安的大数据具有哪些优势?第一我们整体的方案也都是全部通过我们或者是自主研发或者像开源hadoop我们对代码做深度研究和分析也可以做修改的能力,整体方案我们自主可控,可以根据用户需求我们定制提供比较符合用户需求的解决方案。
另外我们这个系统适用于融合异构化的数据资源,这个数据包括结构化数据、非结构化数据甚至多媒体数据都可以融合到这个里面,融合之后上面可以提供丰富数据处理模式。
我们提供实时流处理能力,可以进行实时分析发现一些套牌车辆等。我们帮助医疗等提供一些基础的算法模型,方便它对数据进行利用和处理。
下面有几个案例简单分享一下。实际上这个是我们相关的一些合作伙伴。我们相关的一些用户,这个是我们其中的一个案例,这个应用场景需求这个数据量非常大确实是大数据,量非常大,达到上PB级,整个系统上面在物理上也到了上百个数据节点我们也是采用服务器架构作为硬件基础设施,这里面很多是结构化小的基础性数据,但是量非常大,懂得规模超过五千多亿条数据,最早采用关系性数据库进行检索,我们针对这个提供大数据管理系统。我们大数据管理系统对他们五千亿,运行中接近上万亿的数据包括检索我们都可以在秒内解决,有效解决客户的问题,用户可以基于这个平台进行深入的分析,像APP攻击建立这个模型就可以进行有效的分析。
这个是一个智能交通的相关案例,因为现在在智能交通系统里面兼顾的数据包括视频,但是对视频实时分析之后对于他们车辆运行的日志情况也会进行留存和汇总,在市内摄像采集点都有这些,还有高速公路的卡口,这个数据量也是非常大的,这里面要求能够对进行实时在线处理,所以针对这个我们也提供了在线实时处理的引擎,也是定义了一些模型,例如说可以在一个时间范围之内如果发现在不同的一定距离地点都发现了统一辆车,我们定义为一个检测模型,发现这个车可以知道这是套牌车辆违规的行为,可以进行及时报警我们还提供其他实时检测预测模型。另外我们系统也可以有效的满足了这个数据一个实时落地存储的一个需求,并且在检索前面我们也讲在千亿级对数据检索进行有效支撑。
这个是我们对于公安指挥中心的一个大数据的解决方案,其实在这个解决中心最早有很多信息化的系统,也产生了很多数据,但是数据每个业务系统自己进行整理,没有整合,我们通过大数据管理平台对数据有效的融合整合处理,处理之后我们对外提供统一的移动数据访问,访问这个接口的方式也有效的解决用户存在数据融合的问题。基于这之后我们可以基于这个数据做一些深度的数据分析和数据挖掘的工作。这是今天我借这个机会跟大家分享我们大数据在传统行业当中解决方案的一些思考,谢谢大家!