当前位置：文档之家› 基于检索和深度学习模型的问答机器人设计与实现

基于检索和深度学习模型的问答机器人设计与实现

摘要: 问答机器人不仅可以降低人工成本，还能大大提高企业的工作效率，在运

营商、电商等领域发挥着重要的作用。目前，问答机器人的技术一般是基于检索

模型进行构建，在复杂多变的场景下存在反应慢、理解能力差、机械式回答等缺陷。本文本文创新性的提出使用深度学习模型与检索模型相结合的方案，解决了

目前方案存在的实体提取失败的场景及长尾问题，提高了问答机器人回答问题的

准确度。

关键字:人工智能;问答机器人；自然语言

1.引言

近几年，随着人工智能领域的迅速发展，各种聊天机器人、智能助手、问答

机器人、智能客服等产品层出不穷，帮助用户在各个领域完成任务。聊天机器人

是希望通过人工智能的方法模拟人类对话的计算机程序。

“人工智能之父”图灵对于机器能否思考的设问开启了人们对于聊天机器人相

关的研究工作，由他提出的经典的图灵测试也被认为是人工智能的终极目标。一

般来说，聊天机器人可以分为两类：问答机器人和闲聊机器人两种。闲聊机器人

比较具有代表类型的有微软小冰、苹果siri、小黄鸡、百度小度等等，主要的目

的是通过聊天的方式满足用户的沟通、情感的需求；而问答机器人主要的目的是

理解并回答用户提出的问题，这些问题通常属于特定领域和特定场景，侧重于事

实性问题或者需要计算和推理类型的问题。

问答机器人的技术一般是基于检索模型进行构建，即：给定一个问题检索模

型会从问答知识库中检索最相近的问题，然后找出对应的答案。但是当检索模型

遇到未登录词、歧义词、同义词、停用词去除不完全等情况时，就会无法匹配到

答案。为了解决上述问题，本文创新性的提出使用深度学习模型与检索模型相结

合的方案。该方案主要包括两个部分：基于检索模型和基于迁移学习的神经网络

模型。

2.整体架构与具体算法

从应用领域上，聊天机器人划分为封闭域和开放域，即问答机器人和闲聊机

器人。闲聊机器人主要应用在情感陪护类场景，主要使用生成算法进行答案的生成。生成算法是通过学习问答对中每个词的出现概率，得到预测生成文本的概率，常见的算法如seq2seq、seqGAN等。由于闲聊场景对于回答精度的要求并不是很高，适用于生成算法去生成答案，但是该方法对于封闭领域，需要准确回答问题

的场景来说并不适用。本文主要是针对封闭领域的问答机器人在实际应用中遇到

的瓶颈和问题进行优化。

2.1 整体框架

目前对于问答机器人来说，一般方法是基于检索模型与知识图谱相结合的方法：检索模型主要用于在知识图谱中搜索出与原始问题最为相近的k个问题。为

了实现这个功能，首先需要对知识图谱的问题进行分词处理。然后需要创建一个

单词到问题的反向索引。当接受到用户提出的问题时，首先需要分词，然后去除

停止词，扩展同义词，然后用这个新的集合来检索答案。这里实际问题与知识库

中问题的相似度计算采用了BM25或者tf-idf算法，最后将相似度最高的答案，

作为最终结果输出。

文档之家