近日,首届1024国际智能投研开发者大会在上海举行,虎博科技技术副总裁谭悦受邀出席,进行了《理解金融语义的智能搜索引擎应用实践》的主题分享。虎博科技以NLP自然语言处理为基础的智能搜索技术,已经开始应用于不同的业务场景,帮助人们更高效地获取信息,提高工作效率。特别在金融领域中的投研场景,通过虎博科技的智能搜索技术有效解决了标的数据信息获取效率低、成本高等问题。
虎博科技技术副总裁谭悦从底层逻辑、技术架构、应用效果等方面,对智能搜索在投研场景的应用做出了详尽的阐释,并以虎博科技旗舰产品虎博搜索为例,介绍了券商客户实际应用智能搜索技术所取得的成效。
以下为演讲精彩回顾:
一、智能投研需要智能搜索的加持
现阶段投研数据信息的获取主要通过传统搜索引擎和金融数据终端软件两种主流方式,但都存在着不同的弊端:
1、传统搜索引擎主要针对网页、图片、音频等数据进行单一、浅层次的搜索,难以满足投研所需的复合性深度信息检索需求。
2、专业金融数据终端软件的数据加工模式往往是半自动化半人工的方式,难以第一时间给到用户时效性强的一手数据信息。
3、专业金融数据终端软件中的数据信息展示是货架式形式,需要逐级菜单点选才能找到所需数据,使用体验较差。
4、专业金融数据终端软件使用成本高,成本一方面来自软件或软件账号的购买成本,另一方面来自使用软件的学习成本。
因此,一款能够快速、准确获取标的数据信息的搜索引擎,就显得十分必要。对于争分夺秒的投研来说,一秒钟的差距,可能就会错失一个千载难逢的投资机会。
二、服务智能投研的搜索需要具备三种能力:
1、 全局搜索能力
全局搜索即支持包括网页、资讯、文档、图片等结构化和非机构化数据在内的搜索能力。人能查阅的信息量是有限的,不可能为查询一个数据翻阅上百页的文档,或阅读几十篇资讯,这样的效率十分低下。这就要求智能搜索需要具备全局搜索能力,从各种类型的海量信息中,把用户最关心的数据找出来,同时又能挖掘出数据的亮点。
2、 智能搜索能力
应用于投研的智能搜索引擎既要兼容传统的结构化数据库,还要包括金融领域的各类文档、公告等非结构化数据以及另类数据,并能够进行自动计算、数据穿透、知识图谱推理以及可视化的数据信息展示。
3、语义理解能力
智能搜索获取信息的过程不同于传统金融数据终端,需要菜单一个一个点选,而是直接通过提问来获取;当然也不同于传统的搜索引擎,在提问后只是简单的把所有与提问关键词匹配的网页链接丢给你。智能搜索要具备理解用户意图的能力,解析出用户提问中的主体是谁,所需数据与主体的关系如何等等,只有真正知道用户需要的是什么,才能高效的反馈精准的结果。
三、一个例子说明智能搜索如何快速反馈精准的数据
如果想知道“学而思的学校数量”,传统的搜索引擎很难直接给到答案,得到的往往是一页又一页的新闻报道和网页链接,当真正找到所需要的数据时,可能已经浪费掉了几十分钟的时间。因为它是针对你所提出问题中的关键词来进行结果匹配,并不理解你所需要的数据是什么。
(传统搜索引擎获取的结果)
智能搜索引擎则会首先会理解你想知道的是“学而思”这个教育品牌的学校数量,同时解析出“学而思”这一教育品牌已经更名为了“好未来”,进而会从好未来的财报这一权威来源提取对应的数据,并结构化的展示出来,让用户一眼看到自己所要的数字是多少,从输入搜索文字到获取结果,只需要两到三秒。
(智能搜索引擎虎博搜索获取的结果,【展开】即可查看更多城市分布和数量)
目前,虎博科技推出的智能搜索引擎虎博搜索(含PC版和App版)即能实现上述的投研信息数据获取服务,同时,虎博搜索的底层搜索技术也可以实现复用,嵌入到券商、基金公司的内部系统或产品中,让他们的员工、用户也能够享受到同样的智能搜索服务和体验。
四、虎博科技针对投研的其他技术服务
1、NLP内容算法中台
虎博科技把NLP自然语言处理相关的算法包装成一个个中台化的算法能力,比如机器翻译、NER命名实体识别、智能标签、情感分析等等,并针对不同类型使用场景进行优化。以智能标签为例,针对风险类的标签,虎博科技已经归纳了7大类,近90项不同的类型,当某个公司出现类似的风险事件,虎博科技能够第一时间可以把最准确的标签打到特定的内容上,为用户提供颗粒度更细的投研资讯服务,辅助做出更精准的投研判断。
(虎博科技部分NLP算法能力)
2、用户感知与个性化
针对金融领域的个性化推荐,要考虑到投研工作者关注的行业标的、风险偏好以及标的对应领域的各方面信息。虎博科技能够根据用户感兴趣的长期及短期兴趣内容,快速进行个性化内容的推荐或者预警,让用户实时掌握与标的相关的变化情况,保障投研的时效和精准。
(根据用户的不同属性精准推荐信息)
3、另类数据和知识图谱
智能搜索需要大量的数据采集和知识图谱构建的基础,才能更好地解决用户的数据信息需求。特别在金融领域,需要做大量的数据采集工作,其中包括另类数据,例如企业的招聘信息,二手车、二手房交易数据,电商数据等。这些数据往往分散在全网的不同平台,传统的金融数据终端受限于技术无法提供,但这些数据往往又对标的的研究起到关键性的作用。
(虎博科技部分另类数据示意)
知识图谱的构建也同样重要,例如在半导体领域,如果某一家企业被列入黑名单,可能会导致整个供应链断链,那供应链中的上下游供应商,有哪些企业会受影响,哪些企业是可以被替代的,在虎博的知识图谱产品中可一一查看,如果没有一个完善的产业链和供应链的图谱,用户在进行投研的时候,很多问题就无法得到答案,导致决策时的不确定性大大增加。