7月30日,2022全球闪存峰会(Flash Memory World)在线上盛大召开。峰会特邀后摩智能联合创始人、战略副总裁项之初以“算力与文明:存算一体大算力芯片的落地与未来”为题,从算力与文明的关系展开,阐述在算力需求爆炸的时代,存算一体芯片所能解决的实际问题;结合后摩智能在存算一体大算力AI芯片领域的布局和进展,展望未来在算力需求不断提升下,后摩智能在算力、能效比和成本控制等方面的独特优势。
下面是项之初的演讲摘录:
算力与文明的关系
我们先来看下算力发展的历史,在远古时代,人类不但会利用工具去拓展体力,也会利用工具去拓展人的智力。古代人类能利用的算力只有自己的大脑,逐渐地人们开始会用小绳子、小木棍,去做一些计算,扩充人脑的算力,算盘是中国古代人机结合算力的一个顶点,至此之后就没有再出现一个更大的变化,它只是衍生了更多类算盘的衍生品。而西方就走了一个完全不同的道路,它从计算尺,机械式计算机到差分机、解析机,那个时候和算盘计算没有太大的差距,但是从1945年冯诺依曼的第一台现代意义上的计算机开始,就拉开了双方的差距,至此一发不可收拾,出现了个人计算机、手机,以及到现在的超算中心。美国从1945年第一台冯诺依曼计算机开始,就奠定了其在第三次工业革命中的领导地位,到今天不管是个PC还是手机,都是沿着原来计算机的模型继续延伸,未来不知道会再延伸出怎样的新的事物,但从现在看来,还是没有跳脱原来的框架。
在这个过程中,我们发现一个很有意思的现象,在东方计算的过程中,不管是算盘还是算筹,都是人的手高度参与计算过程。但西方从很早开始,就不希望人力参与计算过程,你只需有一个输入,得到一个结果,这个可能是西方产生现代意义上的计算机的重要一点。当电子系统成熟的时候,它就完全可以依靠外力去完成更大算力的计算,人如果要参与的话,计算瓶颈就变成人手的速度,而人手速度永远无法实现百万亿次的计算量级。
另外一个角度,文明的发展,其实是会让算力变得更强大,更强大的算力,就可以处理更多的信息,让整个社会运行得更高效,去回哺文明的发展,我觉得在算力和文明之间,是互相交互促进的关系。
存算一体:解锁“算力”和“功耗”难题的金钥匙
数据中心、自动驾驶,物联网等应用场景,都对算力产生了一个极大的需求。首先,新的算法模型对算力的需求每3.5个月就翻一倍,摩尔定律只能每18个月翻一番,正在逐渐失效。另外,因为存储的发展速度一直小于计算的发展速度,存储墙的存在限制了真实有效的算力提升,我们预测在未来很长一段时间内,算力的供给,会远远小于算力的需求。其次,当前的芯片能效比,远不能支撑算力继续大步往前发展。比如著名的李世石与AlphGo下棋案例,虽说李世石输给了AlphGo,但是李世石的大脑能效比AlphGo要高很多,他下一盘棋大概需要2碗米饭的能量,但是AlphGo下一盘棋需要2万美元的电费,两者完全不在一个量级上。如果要用更多AI取代人脑计算,就不能是现在的能效比水平,所需要的能效比,至少是更接近于人脑的水平。
存算一体,是目前能够解决算力和功耗问题的金钥匙。存算一体的原理,大家也都比较了解了,它可以在电路层面把存储和计算融合在一起,同时解决这两个问题,我们发现它一系列的优势,也非常适用于自动驾驶领域。
自动驾驶的三个要素,第一是强智能,它是由算力、算法、数据三个要素决定的,会提升驾车及乘车的体验。第二是安全性,包括器件的功能安全,以及可靠性,低延时。第三是低成本,如英伟达最近发布的H100,功耗达到700 W,并采用HBM等封昂贵的封装方案,让芯片的成本动辄上千美元,这在自动驾驶端无法普及。
这些要素也对自动驾驶芯片提出了更高的要求,需要更大的算力去映射强智能,需要更低的功耗去映射安全性以及更低的成本。
下面介绍一个存算一体的具体实现案例,大家都知道,自然风冷是整车厂最喜欢的散热方式。一般在15W以下,可以用自然风冷,但是到80W以上就需要液冷,15W—80W会用风扇的散热。对整车厂的工程师来说,最喜欢自然散热,不管是本身散热系统的成本、可靠性,以及维护成本,它都是最优的方式。如采用自然风冷,在传统的冯诺依曼架构下,算力只能达到约20TOPS(16nm工艺),如果用存算一体技术,可以做到超过60TOPS以上的算力。这个对于传统架构的产品,会有一个碾压性的优势。
后摩智能的落地与展望
后摩智能成立于2020年,经过一年多时间,首款存算一体芯片今年年初点亮后成功跑通了一些经典的自动驾驶算法模型,这款芯片可实现几十TOPS的算力,能效比高达20TOPS/W。这是全球意义上的首款存算一体大算力芯片,它是完全按照商业量产的精度、容量,以及良率去设计的。后摩智能第一代芯片基于SRAM实现,它与传统冯诺依曼架构芯片相比有约10倍的能效比优势,算力可以突破到大几百TOPS的范畴。到2025年以后,随着先进存储MRAM、RRAM等落地,我们会进一步提升算力的上限,同时能效比还可以做得更高,最终实现单芯片1000-2000TOPS的水准。
很多朋友会问我,存算一体芯片因为在底层做了颠覆性的架构创新,它的使用成本是否会很高,或者不好用?这个其实是一个错误的理解,对工程师来说,底层芯片架构,是透明的,你不用在乎它是存算一体、近存,还是冯诺依曼架构,你在乎的是工具链软件层是不是好用。因此,我们特地自研了编译器和工具链,它是一个更像英伟达的开放的平台,可以适应不同的算法,比如在 TensoFlow、PyTorch上训练的模型,都可以在我们的芯片上得到支持。所以对工程师来说,他不需要改变原有的编程习惯,也没有额外的学习成本,我们也会提供一个类CUDA的编程模式,让工程师使用起来更偏向于他们原来的习惯。
中国汽车在电气化和智能化时代的崛起,将带动优秀本土供应链公司做大做强
我们发现一个很有趣的规律,也是对产业的一个思考,在一个国家或区域发生大的产业变革的时候,通常都会孵化出很好的上游供应链公司。比如上世纪80年代的日本消费电子时代,Walkman,摄像机和照相机等风靡全球,这种繁荣拉动了本土产业链上游公司的崛起,诞生了松下,索尼等优秀的半导体公司。美国主导的PC产业,戴尔、苹果等个人PC热卖也带动了Intel,AMD等公司成长为世界级的半导体公司。同样在欧洲,汽车领域的强势,也使得汽车电子芯片的主要供应商也主要集中在欧洲。
这一系列的案例,都指向了今天的中国,今天的中国已经成为了最大的消费电子以及新能源车的市场,我们判断,它一定会诞生出世界级的半导体公司,不止一个,应该会有数个世界级的半导体公司。本地化的需求,本地公司会有更快的相应时间,其次,它会对于本土的需求更敏感。现在国内的新能源车企竞争非常激烈,大家都希望用差异化的供应链,去提供差异化的用户体验,因此他们非常有愿意去使用创新供应链产品。这对于一个半导体公司来说,是非常友好的一个环节,大家都会给你机会试用初创公司的产品。我们也希望在这样一个天时地利人和的时代把产品做好,可以更好地去fit in这些供应链,做产品的迭代。
后摩智能的愿景是成为AI时代的算力平台
最后,再跟大家分享下能效比和计算形态演进的关系。在人类计算历史上,能效比有千倍提升,通常会衍生出一种新的计算形态,从最早的超算中心开始,到小型机、个人PC、手机,都是这个趋势。手机的能效比大概是1P/W的水准,但是这个水准不足以支撑万物智能的时代,今天的数据量,已经到了大几十ZB的量级,未来当数据量变得更大,会用什么样的架构去适应这个变化,我们觉得存算一体是个解决方案,后摩智能也希望在这个过程中贡献自己的一份力量。
我们的愿景是希望成为AI时代的算力平台,从无人车、机器人落地,到乘用车,到人型机器人、元宇宙等。再到未来能效比变得更高的时候,会出现什么样的应用场景以及怎样的一个强人工智能,让我们拭目以待!
希望未来更快到来!
【关于后摩智能:后摩智能创立于2020年底,由吴强博士与多位国际顶尖学者和芯片工业界资深专家联合组建,是国内首家专注于存算一体技术的大算力AI芯片公司。后摩智能以国际前瞻的存算一体技术和存储工艺,致力于突破智能计算芯片性能及功耗瓶颈,加速人工智能普惠落地。其提供的大算力、低功耗的高能效比芯片及解决方案,可应用于智能驾驶、泛机器人等边缘端,以及云端推理场景。】