摒弃关键字搜索 概念搜索技术正当时

概念搜索并非是指替换常规关键字搜索和逻辑搜索,而是扩展搜索的能力。大多数电子发现产品和搜索产品都支持概念搜索,只是在具体细节上可能略有不同。问题是,由于大多数的会晤商谈(meet-and-confer)仍集中在关键字搜索上,是否值得对概念搜索进行投资呢? 如果你知道你在做什么的话,那么答案是肯定的。

概念搜索有用吗? 是的,当然有用。《新泽西州法律日报》曾报道过一个关于涉嫌挪用公款的内部调查的生动案例。 公司怀疑有人挪用公款,但是利用与银行、账户和存款有关的词汇进行关键字搜索却找不到一点有用的信息。然后公司用关键字群和相关线索关键字进行搜索。 结果发现公司里的两个并不喜欢篮球运动的员工进行了大量关于篮球的讨论。公司将他们讨论的内容和电子邮件收发日期与银行转帐的日期进行核对,最终找出了挪用公款的人。

然而,这个案例并不是使用概念搜索的主要理由。关键字搜索和逻辑搜索面临的一个难题是某一方可能会坚持要去另一方使用几十个甚至几百个关键字进行搜索。 人们原以为这种搜索很简单。但是实际上,搜索得出的数据组却非常多。 这耗费了大量存储资源和处理能力资源,但是最重要的是,这进一步加重了原本就已经非常繁重的人工审核过程的负担。概念搜索可以通过显著改善搜索准确度的方式完美地解决这个问题,概念搜索可以将无关的信息剔除,减少搜索获得的数据量,并提高数据的相关性。 律师们去审核搜索结果的时候,他们需要处理的数据集就会小得多,而且那些数据的准确性将更高。

其他搜索工具可以为关键字搜索和逻辑搜索技术提供有益的补充。这些搜索工具包括:利用模糊逻辑来获得关键字的变体,利用基于语言学家组合的分类法和本体论的概念搜索,以及利用基于数学概率的其他机器学习和文本查找工具。

听起来不错。问题是什么? 问题是人们经常会将两个不同的概念评述技术搞混,即概念搜索和概念分类。它们都很有用,我建议你同时使用它们,但是它们并不是同一个东西。 你必须了解其中的差异,同时也要让你的厂商了解其中的差异。

与概念分类相比,概念搜索会进行一连串的搜索,并通过相关的词汇来扩展搜索。例如,律师在进行传统关键字搜索时需要输入"银行"和"账户"两个关键字。他们可以在"银行"一词上添加通配符,从而获得"banking"和"banks"等更多的关键字,但是"bank*"绝对不会引申出"账户"或"存款"。概念搜索可以从词典中得出"银行"以及一系列与关键字有关的词汇,而且还会根据搜索参数的不同而得出"存款"、"账户"、"基金"、"取款"、"转账"等其他相关词汇。 (许多词典都可以按行业类别进行定制。)

概念分类是不同的。分类技术会检视独立文件的所有内容,然后根据相似概念和词汇的比率对它们进行分组。 这是一个复杂的过程,因为不同的技术提供的功能是不同的。例如,用贝叶斯定理或其他统计算法来分析关键字频率、位置和它们之间的关系,整个过程就非常复杂。 另一种常见方法是为数据集建立索引,从而找出相关内容的本体。

在概念搜索和/或概念分类上具有较强实力的厂商包括Clearwell、StoredIQ、Kazeon和Inference。它们各自擅长不同的领域,但是都能提供高级概念搜索功能。