王雪杨 发表于:14年01月24日 12:55 [翻译] DOIT.com.cn
IBM公司正式推出这个系统的决策引擎和先进自然语言处理技术,并将其作为一个新的营销卖点。到目前为止,这台智能主机似乎已被证明并不是解决IBM公司所面临问题的灵丹妙药,倒反而是IBM公司的在背芒刺。2013年作为Watson的概念被提出之后的第七个年头,虽然它在这一年的表现不俗,但是相关收入却连1亿美元都不到。华尔街日报认为,其中部分项目还处于低谷中,但是IBM公司的CEO Virginia Rometty希望这项技术在未来十年内的每一年都能够为公司带来一百亿美元的收入。
但是,Watson的表现却并不尽如人意。华尔街日报称,建立新任务和进行相关训练都需要花费较长的时间,而当它们开始提供预测时,其预测的可参考性却非常值得商榷。如果仔细分析一下这个超级计算机的底层架构,我们可能就会从中发现个中原委:
底层软件引擎
Watson的强大功能源于其DeepQA的分析引擎,这个软件引擎整合了Hadoop、Apache UIMA以及其他的工具以实现机器学习的功能:这个功能可允许机器提取大量的结构化和非结构化的信息、分析事件之间的关系、提出对应相关问题的可能答案,并最终以置信度参数给出答案的排名。
“DeepQA的主要技术手段就是大规模并行处理、专家知识、置信估计以及深浅知识集成等,”2010年IBM公司在其科技研讨会上发表的一篇人工智能论文中如此写道。
DeepQA要求IBM公司在诸多的领域进行基础性研究,例如问题处理、关系提取、语言框架提取、段匹配整合以及根据提取的数据进行知识提取。经过蓝色巨人不断的努力,所有这些非常棘手的问题的解决都已实现了长足的进步。
这些进步意味着Watson可以提供足够多的训练和足够好的数据,对举措实施的最佳步骤提出了有效的预测。但是,这里需要指出的是,知识提取的质量高低受制于所提供数据的数量。
出于这个原因的考虑,每一个Watson的内部项目都需要大量的新鲜数据、再训练以及一个长期的时间投入才能让发出嗡嗡声的硅质大脑正确地解决问题。 IBM公司在一篇学术论文中详细阐述了Watson从Jeopardy!赢家到商品所需面临的挑战:
针对任何新领域申请DeepQA都要求在三个方面的适应:
· 内容适应涉及组织用于假说和验证生成、建模上下文背景的领域内容,在这个过程中将产生问题
· 训练适应涉及通过样本训练问题和源于目标域正确答案的形式增加数据,以便于这个系统能够在估计答案置信度时对其分量学习合适的权重。
· 功能适应涉及增加新的特定域问题分析、候选答案的生成、假设得分以及其他的分量。
你可以把它想象成为一台主机。Watson似乎具有以下的若干特征:非常热衷于长期运行、不公开的财务支出、默认设置为锁定,而这项技术是唯一由IBM公司拥有的。
这并不是一个非常可怕的坏事情,因为某些企业诸如此类的工具可能是有用的。但是,这确实意味着你可能会不相信,IBM公司开始把Watson模式成为易于上手的云计算产品。
正是出于这个原因,蓝色巨人经过缜密规划以提供Watson令人印象深刻内核计算能力,而基于云计算的服务是具有欺骗性的。
无论任何,那是谁的缓存线?
毫无疑问,Watson将通过在中央存储库中存储更多数据而受益。我们知道DeepQA并不是以简单分割至单个域的方法进行开发的,所以IBM公司将必须把数据规整至相关域以便于在系统中实现最大置信度。
在一定程度上,IBM公司基于云计算服务生成知识的数据要远大于单个开发人员贡献数据的总和,似乎蓝色巨人将不得不增加一个分层系统以便于为所解决的特定问题选择相关信息库。硬件王道,这是完全可以实现的(它需要2,880个 Power7 内核,外加存储在15TB RAM中的维基百科和其他文本,在2011年赢得Jeopardy! ),但是目前还不清楚这个软件是否存在。
有一件事是肯定的——在其当前的状态下,以Watson为核心的项目需要IBM公司和潜在客户投入大量的开发资源,尽管IBM公司正在建立一个实验室以帮助硅谷企业开发Watson应用程序,但这似乎是一条困难重重的道路。