且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《中国人工智能学会通讯》——1.28 智能助手背后的技术

更新时间:2022-09-30 10:41:33

1.28 智能助手背后的技术

呈现在人们眼前的智能助手几乎都是“小而美”的,但其背后却是一个十分复杂的系统,需要多种技术的集成和联动。本文将智能助手背后的技术归为四类,分别是需求理解技术,需求满足技术,推荐引导技术,以及交互技术。接下来,将分别介绍这四大类所涵盖的具体内容。

需求理解技术

准确理解用户需求是智能助手提供服务的基本前提。对于智能助手,人们更倾向于使用自然语言句子来表达需求,而非简单的关键词,这给需求理解增大了难度。这里所说的需求理解是一系列处理技术的总称,包括基本的分词、词性标注、实体识别,以及句法分析、语义分析(见图 2)和意图理解。首先,由于智能助手收到的相当一部分需求来自语音输入,语音识别错误会给需求理解增加难度,因此专门针对语音识别错误的纠错技术在前处理环节是必不可少的。而对于需求理解的各项技术,由于智能助手接收到的输入句子往往是口语化的,结构灵活不规范,且含有某些垂直领域的新词和实体,因此,需要面向这类句子重新构造和标注语料,并训练模型。此外,还要基于搜索日志、网页库、百科等大数据挖掘网上出现的新词和新实体,并保持高频更新。 同时,人们在智能助手中表达需求的另一大特色是上下文相关性,例如一个人可能先询问智能助手“今天天气怎么样”,接下来询问“明天呢”以及“适合外出散步吗”。这种多轮交互中的省略和上下文依赖的现象,使得需求分析必须对整个交互内容做全局考虑,而非仅仅处理当前的一句话。对轮对话场景下的指代消解和省略补全技术也变的至关重要。
《中国人工智能学会通讯》——1.28 智能助手背后的技术
需求满足技术

由于人们的需求千差万别,因此智能助手需要具备多种需求满足能力,并能针对用户的当前需求找到最匹配的满足方法。对于信息类需求而言,精准答案是一种理想的满足方式,因此深度问答(deep questionanswering)技术近年来成为研究的焦点。深度问答技术所要回答的问题可以是实体型问题(如“补钙的食物有哪些”)、观点型问题(如“孕妇可以吃西瓜吗”),也可以是描述型问题(如“孩子打嗝怎么办”)。对于上述各类问题,深度问答技术都是综合使用知识图谱和互联网大数据进行答案的抽取、汇总和排序。分
解下来看,这其中又会应用到情感分析技术,以及自动文摘技术。其中,情感分析技术用于回答人们的主观评论类问题。如用户问“起亚 K5 怎么样”,智能助手便可以基于情感分析技术从网上针对起亚 K5 这款车的大量评论数据中,分析出其整体以及各个具体方面的优缺点,并将结论汇总返回给用户。而自动文摘技术则可应用于对描述型问题的回答。对于作为问题答案的篇章或者长段落,基于文摘技术从中抽取出要点内容,从而可以为用户提供更凝练的答案。

而另一方面,对于服务类需求而言,为了更精准地搜索和使用服务,便需要首先对服务有深入的理解,因此需要服务建模技术。以美食垂类为例,为满足用户搜索餐馆的需求,需要为每一家餐馆建立模型,这里不仅包括餐馆的基本属性,如菜系、地址、特色菜等,还需要为其注明更细粒度、更有区分度的特色标签,如“装修考究”、“适合生日聚会”、“园林风格”等。以这些标签为索引,待用户搜索例如“五道口附近有桌游的饭店”这样的需求的时候,智能助手才能准确地为其找到所需餐厅,并进而预订下单。

推荐引导技术

作为人们的“伙伴”,智能助手不能止步于被动响应用户请求,而是要更进一步,向用户主动提供服务,这便需要具备主动推荐和引导的能力。而主动服务的前提则是个性化和场景化建模。所谓个性化建模,是指针对每个人的属性、状态、兴趣等方面建立模型;而场景化建模则是指针对时间、地点、上下文语境、甚至输入终端等条件建立模型。个性化和场景化建模是实现服务差异化的基本保证。举例来讲(见图 3),同样是向用户推荐一家餐厅,对于一位坐在客厅沙发上用手机上网筹划老伴寿宴的老奶奶,以及一位坐在办公桌前预备中午约见客户的年轻销售经理,智能助手推荐的餐厅应该是不同的。
《中国人工智能学会通讯》——1.28 智能助手背后的技术
智能助手推荐的形式和对象也截然不同,可以是商品推荐、资讯推荐、娱乐推荐等。还可以探索其他创新的推荐形式,如延迟满足。具体来讲,延迟满足是指当用户通过智能助手搜索某种信息和服务的时候,智能助手并未掌握相关信息或服务资源,但它可以记录下来用户需求,并在资源具备的时候第一时间通知和提醒用户。举个例子,用户希望通过智能助手买《星球大战 7》的电影票,但这部电影尚未公映,那么智能助手便可记录下来用户的需求,并在电影开始公映的时候提醒用户可以买票了。除了推荐技术之外,提
醒技术往往也是智能助手必不可少的技能,人们可以在智能助手上通过自然语言设定诸如“提醒我晚上 6点约了客户在楼下西餐厅吃饭”这样的提醒,而不再需要像传统提醒工具那般在表单中逐项填写时间、地点和提醒事项。

交互技术

智能助手在人机交互方式上与传统软件或互联网产品相比也有很大不同,简单来讲,可以概括为两个“多”,即多模交互和多轮交互。所谓的多模交互是指多种交互模态,既包括传统的键盘交互,也包括语音、图像交互等。多模交互对于移动场景下的应用显得尤为重要,例如在路边搜索一家餐厅或者开车途中希望找一家最近的加油站,语音输入都是比键盘输入更理想的选择。同时对于老人和孩子等不熟悉键盘操作的人们而言,语言交互也更加便捷。图像交互也是一样,人们在日常生活中遇到不认识的文字、符号、图案等,
都可以通过手机拍照并上传图像给智能助手来获取相关的信息和服务。当然,语音交互和图像交互所依赖的是语音识别、图像识别等更为基础的底层技术,包括声学模型自适应、候选排序模型个性化、图像知识库的自动构建等具体技术问题。

多轮交互是指智能助手与人们的交互过程不再是简单的一问一答,而是可以“记住”并运用整个交互的过程(见图 4)。如前所述,多轮交互为用户需求解析带来了困难。除此之外,多轮交互在对话管理、对话状态转移等方面也存在很多技术问题。对于特定垂类而言,多轮交互技术可以通过事先设定垂类下的本体(Ontology),在交互过程中基于用户输入进行对话状态的识别,并进而生成下一轮的对话动作。在模型训练过程中可基于真实人机交互数据,采用增强学习(Reinforcement Learning),目标是使得交互收益(Reward)最大化。
《中国人工智能学会通讯》——1.28 智能助手背后的技术
智能人机系统

尽管有了上述种种技术,但完全依赖一个全自动的人工智能系统来提供服务,这在当前阶段还是无法达到实用化的要求。对此,美国的一家名为 Magic 的公司另辟蹊径,探索了一条“人肉智能”的模式,即完全由人工客服来分析和满足用户的需求。这一模式迅速引起了大家的兴趣,包括 Facebook 等在内的多家公司跟进仿效。然而“人肉智能”只是 Magic 们的初级阶段,他们的长远计划是通过人肉智能的服务不断积累交互数据,并基于这些数据训练人工智能模型,最终由人工智能系统越来越多地覆盖用户需求。我们将这种人机融合的模式称作智能人机系统(见图 5),它讲究人机互补,人工客服擅长复杂语义的理解和复杂决策,而计算机则擅长大数据分析和计算,人与计算机相结合可以发挥各自优势;同时还讲究人机互助,客服人员积累下来的服务记录可以作为计算机训练人工智能模型的数据,反过来人工智能模型可以为客服人员自动提供决策的候选项,从而提高客服的服务效率。因此概括起来可以说“人让机器更聪明,机器使人更高效”。
《中国人工智能学会通讯》——1.28 智能助手背后的技术