京东大数据的创新之路上有英特尔

作为国内唯一能与阿里分庭抗礼的电商平台,京东在大力发展自己的技术路线,越来越强调技术的重要性,刘强东公开表示京东未来12年只有技术,确实,京东也是这么做的,不久前,京东公布的一份财报显示,京东用于技术研发的投入为27.81亿元,同比猛增79.8%,京东连续3个季度技术研发投入增速超过70%,对技术的重视程度可见一斑。

近来,英特尔先后与多个科技企业成立联合创新实验室,包括今日头条,百度,更早以前,英特尔还与联通,腾讯成立了类似性质的合作创新关系,最近,英特尔与京东成立数据计算联合实验室,主要集中在大数据方面的合作。

京东与英特尔成立数据计算联合实验室

早在2014年,京东就与英特尔建立了联合实验室,合作的方向主要是开发京东要研发的虚拟试衣试戴、3D物品展示等服务,非常值得注意的双方从此时开始研发定制服务器。定制服务器是每个大型互联网公司都在做的业务,谷歌就是一家服务器公司,不过服务器只给自己用,超大规模数据中心普遍在使用ODM的白牌机,而非一般的商用标准服务器。

包括京东在内的超大规模数据中心,定制服务器的初衷都是为了降低基础设施的运营成本,但在过程中,为了满足业务的需求而做的调整在不知不觉间锻炼了自身的技术水平,也有了跟像英特尔这样的科技公司进行合作的技术基础。

如京东集团副总裁,大数据与智能供应链事业部总裁裴健所言,英特尔提供了最新的硬件以及相应的软件解决方案,让京东及时用这些新技术研发出了行业解决方案,而反过来,英特尔作为一家技术服务商,也收获了行业实践经验。

数据是互联网公司业务的核心资产,而京东大数据平台承载着这些核心资产,许多非常重要的业务都要依靠于大数据平台的服务,数据平台上的业务规模非常大,包括供应链数据、交易数据、物流、舆情、政策等数据都要汇聚于此,据了解,京东的大数据平台上约有4万台服务器,每天处理超过100万任务,数据总量超过800PB,而且以每天1PB的规模增长。

在京东与英特尔大数据合作备忘录签约仪式上,京东集团副总裁,大数据平台负责人翁志谈起与英特尔合作的过往。

翁志对于与英特尔合作的第一个项目记忆犹新,那是一个加速HAProxy(一个应用非常普遍的负载均衡方案)数据加解密的技术合作,在英特尔的帮助下,最终用上百块处理器卡使得数据传输的效率大大提高,使京东整个数据流量得到了一个很好的提升。

Spark是一个非常流行的大数据分析处理框架,京东大数据平台主要的流计算、离线计算都是由它来完成的,英特尔在Spark上以及许多相关的工具上也有很多贡献,简而言之,就是因为英特尔也非常懂Spark,所以,合作中出现了很多成果丰硕的项目。

Adaptive Execution可以用来优化Spark的工作负载,英特尔有这方面的专家,在英特尔的帮助下,京东大数据平台的数据存取效率得到了大幅提升,能在较短的时间内完成一些数据的存储任务,从而更好满足业务需求。

BigDL是一个基于Spark的分布式深度学习框架,可以基于现有的Spark进行计算,在英特尔提供的数学函数库的帮助下,京东大数据平台提升了硬件的利用能力,而且,Spark技术在京东大数据平台的整个技术平台的应用也越来越多。

英特尔有一系列基于硬件的创新产品方案,除了至强可扩展处理器,英特尔的NvMe SSD以及最新的基于3D Xpoint的Optane(傲腾)也在京东大数据得到了应用,英特尔的傲腾技术既可以作为比DRAM慢的内存来用,也可以用作存储比NAND介质SSD快的SSD来用。

傲腾用作内存的时候,虽然一些性能比DRAM差一截,但它非常适用于内存计算的场景,能突破系统识别内存容量的限制,翁志表示非常适用于聚和计算,在海量计算方面也有发挥的价值。当用作SSD的时候,傲腾在高负载下的稳定表现能提供普通SSD难以企及的价值,这些优点京东大数据平台都看在眼里。

说到底英特尔是一家硬件平台公司,但为了让新的工作负载更好地运行在这些平台上,需要做许多工作,从一定程度上来讲,英特尔也是一家软件公司,而且软件工程师涉猎的范围还都比较多,只要是英特尔硬件涉及到的领域,响应的就会有做这方面软件方案的软件工程师,无论大数据、人工智能、IoT、区块链,所有涉及的领域都有英特尔工程师的身影。

英特尔公司软件和服务部门副总裁,数据分析部门负责人马子雅在谈及与京东的合作时表达出这样一层意思,因为双方对于技术创新有着共同的追求,才有了种种深度的合作,作为用户,京东对技术的态度是实际行动也收获了许多业内的最佳实践,走在了业内同行前面,而英特尔,也在服务于类似于京东这样的客户的时候累计了丰富的经验。

目前,京东正在着力打造下一代可扩展的大数据平台,该平台具备建立高级数据分析能力,为此,京东和英特尔除了在软件领域展开深入合作外,京东大数据也在计算、存储、网络等领域充分利用英特尔下一代硬件产品。