百度人工智能基准测试成绩超越微软和谷歌

百度人工智能取得突破进展

据《华尔街日报》网络版报道,百度表示,其超级计算机Minwa在一项备受关注的人工智能基准测试中取得了世界最好成绩,错误率仅4.58%,超越了微软和谷歌的超级计算机。

百度超级计算机Minwa对包含100万张图片的ImageNet数据库进行扫描,然后自己学习如何将这些图片分成大约1000个不同的预定义类别。这就意味着,Minwa要学习法式面包和烘肉卷之间的差别,还要面临从硬毛猎狐梗中区分湖畔梗的棘手挑战。

报道称,人类对ImageNet图像的识别错误率大约在5%。相比之下,微软的人工智能系统的错误率为4.94%,谷歌为4.8%。百度如今已将这一错误率进一步降至4.58%。


百度首席科学家吴恩达

百度和其他公司之所以能够在ImageNet测试中取得佳绩,依靠的是一种名为“深度学习”的算法。这种算法近期才从学术界引入到硅谷,但已开始对人们日常生活产生影响。两年前,谷歌使用深度学习算法来大幅提升Android语音识别系统的准确率。

报道称,百度正使用一种更大型超级计算机对1.4万个小时的语音数据进行分析,旨在提升百度在中文和英文语音识别上的准确率。

“对于整个行业在计算机视觉领域取得的所有进步,我感到十分激动,”百度首席科学家吴恩达表示,“计算机能够显著提升图像理解的准确率,做这么多它们在一年前还无法做的事情。”

百度计划在未来18个月开发一款更大型计算机,每秒可执行1千万亿次(quadrillion)运算,这一运算能力足以让该计算机排进全球超级计算机性能榜的前十,尽管其计算复杂度不及世界顶尖超级计算机。

吴恩达称:“有趣的是,排在ImageNet图像识别测试前三的计算机都来自拥有重大计算资源的大型科技公司。”他表示,百度利用从中国及其硅谷实验室获取的超级计算专业知识来开发Minwa。

Facebook人工智能项目负责人、著名人工智能研究员Yann LeCun也已表示,Facebook正在部署一流计算资源,但他不愿透露Facebook计算机系统的规模。

微软首次超越人类识别能力

一直以来,计算科学家一直在为建立世界上最精确的计算机视觉系统孜孜不倦地努力着,但取得进展的过程却一直如马拉松竞赛般漫长而艰辛。

早些时候,微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的计算机视觉系统,在ImageNet 1000挑战中首次超越了人类进行对象识别分类的能力,将错误率降低至4.94%。此前同样的实验中,人眼辨识的错误率大概为5.1%。这个数据集包含约120万张训练图像、5万张验证图像和10万张测试图像,分为1000个不同的类别。

该研究团队由微软亚洲研究院研究员孙剑、何恺明以及来自西安交通大学和中国科学技术大学的实习生张祥雨和任少卿组成。孙剑已在微软亚洲研究院工作了十二年,现任视觉计算组首席研究员。

孙剑将团队取得的最新成果归功于以下两项关键突破:一是开发了适应性更强的非线性神经元,二是改进训练算法,使得神经网络更为强大。微软研究员在论文中指出,修正神经元 (rectifier neuron)是近期将深度神经网络应用于计算机视觉挑战时取得成功的关键要素之一。

研究团队成员也强调,计算机视觉目前从根本上仍无法与人类视觉相比。计算机系统在识别物体、理解图像上下文及场景高级信息等领域仍面临诸多挑战。

“人类可以毫不费力地区分出一只羊和一头牛。但计算机在执行这些简单任务时却不尽完美,”孙剑解释道。“但是,当涉及到不同品种的羊的区分时,计算机可超越人类。通过训练,计算机可观察图像的细节、纹理、形状及环境,并发现人类无法察觉出的区别。”

“我们的目标是在众多应用上开发出能与人类视觉媲美,甚至比人类更准确的计算机视觉系统,”孙剑说道。“如要实现这一目标,我们需要更多的训练数据和更加真实的测试场景。我们在必应、OneDrive和其他服务平台上的工作将帮助我们进一步改善算法的鲁棒性。”

微软研究团队的工作并不仅仅局限于基础研究,其多项成果已被应用到微软的产品和服务中,包括必应图片搜索及微软云存储解决方案OneDrive。在OneDrive近期一篇的一片官方博文中,微软OneDrive项目经理Douglas Pearce介绍了 OneDrive自动识别照片内容的功能。

“OneDrive会自动为用户上传的照片创建标签,比如人、狗、沙滩、落日等等,使用户借助标签能够更轻松地寻找到自己的图片。有了这项功能,我们向演示项目中添加照片、与家人重温特殊回忆,或与Facebook好友分享重要时刻就变得轻而易举。”Pearce如是说。

2010年,来自斯坦福大学、普林斯顿大学及哥伦比亚大学的科学家们启动大规模视觉识别挑战赛(Large Scale Visual Recognition Challenge),推动了计算机视觉识别挑战的持续发展。科技行业知名记者John Markoff于2014年8月在《纽约时报》上刊登文章指出,到2014年计算机识别挑战的目标识别准确率几乎提升了一倍,图像分类错误率也减少了一半。