以下是本文的思路框架与概览。
一、行业背景概况
在介绍对话产品设计之前,先介绍一下行业的业务背景。
笔者所面对的行业,为某垂直领域的行业。该行业中,又有更进一步的行业细分,分为行业1,行业2,行业3,等等。行业间有如下特点:
整个大行业有共通的业务特性、业务场景与用户诉求点;
细分行业间,有部分共同的行业知识,但每个细分行业,又有各自单独的行业知识;
人工客服接待对话的场景,细分行业间有共通的对话技巧与思路,但同时每个细分行业又有各自的独特性;
不同的细分行业,售前对话思路有所差异。根据对售前客服接待的难易程度,可将对话复杂度分为:高、中、低 3个层级。各细分行业的分布占比大致为 高:中:低 =1:7:2;
目前由于业务线处于初步阶段与持续完善阶段,本文先从业务 对话复杂度等级为高 的细分行业为例,具体阐释对话产品设计的流程与思路。
二、对话设计流程
1. 业务分析
业务分析主要是对细分行业的整体情况做分析,目的是为对话产品设计提供对话知识框架和对话设计思路。主要包括2个方向:行业特性分析 和 对话场景分析。
1.1 行业特性分析
行业特性分析,指的是对该行业的知识体系做梳理,并对现有人工客服接待的对话访客特征做分析。
1.1.1 知识体系梳理
重要性
每个行业内,都有其独有的知识体系。知识体系分析,对于对话产品设计来说至关重要。它决定了整个对话机器人的应答语料话术库的整体方向与内容,起了方向性的作用。
如何做
一般AI PM需要根据业务需要,与数据工程师配合,进行相关信息的获取与梳理。主要通过以下几种方式:
1)人工对话数据抽取分析
从已有的人工客服接待对话数据中,抽取行业知识框架体系中的关键信息,从而梳理构建行业知识框架。包括不限于实体关键信息的抽取,通过无监督学习的聚类(如K-means聚类等)等方式获取信息分类,等等。
抽取之后的数据,需要进行人工筛选和梳理,输出相应的知识框架结构。
2)用户调研
用户调研的方式是从另一个维度去考量分析行业知识。主要通过与行业专家(通常是客户)做用户访谈的形式来进行。
行业专家是对该行业有深刻理解且有深厚的知识沉淀的专家,TA会对行业有一套抽象归纳的知识结果。这是对1)点中数据抽取方式的有效补充。数据抽取的角度,主要是基于数据特性的归类与抽象,用户调研可从业务角度进行补充和方向调优。避免出现技术实现的数据分析,与业务脱轨、偏离方向的各类情况。
3)其他各方资料信息搜集
资料信息搜集,包括各种网上资料、线下书籍等,作为知识查询的补充。通常在各类的行业领域资讯网会有相应的资料可查询,有必要可安排数据工程师做数据爬虫。但得到的数据也仅供知识框架分析用,若要作为话术语料,则需进一步清洗和筛选。
1.1.2 访客特征分析
笔者在做AI PM之前,做过2年的互联网PM。在做AI产品设计时,其实很多时候都会运用到做互联网设计的方法论,即使实际的工作内容不同,但是思维是一致的。比如访客特征分析下,主要是对进入对话的访客做特征分析,即访客用户画像。目的是为了形成对话产品服务的C端用户的关键信息特征与需求分析,进而做相应的对话设计。
访客特征分析主要对以下几个特征进行分析与归类:
角色
基本信息(性别、年龄、主诉载体、来源渠道)
对话目的(为什么/会怎样/怎么办/可做什么)
表达方式
用户情绪
用户预期
访客留联意愿度
(根据业务需要,会进行标签维度的新增)
访客用户画像的理想方式是通过大数据/深度学习的方式做数据分析,但基于现实情况(产品线人力物力等因素)还未能做到如此精细化,前期我们会通过AI PM与数据工程师配合的方式来实行。
1.1.3 人工对话思路分析
弱人工智能时代,我们基于的假设是,机器人还无法超越人工。人工客服的行为是给机器人的一个目标和方向。所以在这样的假设前提下,我们对于对话机器人的设定主要在于“仿真”,即模拟优秀人工客服对话的方式进行对话。我们通过对优秀人工客服对话语料的分析,提取出对话思路与对话语料,作为机器人答疑和引导的方向和素材。
1.2 对话场景分析
除了做行业特性分析,业务分析另一大重要内容是对话场景分析,旨在确定和拆解访客进入对话的场景,为后续的对话设计做基础准备。
1.2.1 场景划分
主要进行场景的确定,梳理出场景列表。同时分析统计出各场景在该行业对话咨询中的占比,进而统计出,各场景覆盖业务范围。这样我们就可以得到,哪些场景是我们需要重点关注设计的场景,哪些场景是可以无需花太多精力来设计准备。
1.2.2 场景详情分析
场景详情包括:场景访客特征、场景访客问题、场景客服引导思路、场景对话特征 的分析。
场景访客特征:该场景下的访客的访客特征分析,具体分析维度的思路与“1.1.2 访客特征分析” 同,输出结果是该场景的访客特征标签;
场景访客问题:该场景下访客问题的统计,基本可以归纳为:为什么/会怎样/怎么办/可做什么;
场景客服引导思路:总结归纳该场景下客服引导思路,包括对话流程思路与话术,作为后续设计的指导素材。
1.2.3 分析方式
分析方式主要为两种:人工对话数据分析 和 用户访谈。基本方式与上文介绍同。值得说明的是,场景详情分析重要性极高,价值主要在于为对话产品设计提供方向和业务参考,保证后续设计和开发的方向不至于走偏,是指导性的调研分析。
2. 机器人产品定义
在了解了行业知识体系框架与优秀人工客服对话思路后,我们对要设计的对话机器人就有了方向和框架性的认知。即:对于我们要设计怎样的机器人,这样的机器人如何去满足业务要求,机器人的能力/功能要达到什么样的程度,有了基本的了解和认知。接下去我们就可以对机器人产品做定义。
机器人产品定义可以分为2部分:机器人人物形象设定 与 机器人能力界定。
2.1 机器人人物形象设定
对访客而言,在对话过程中,人工客服/机器人的接待是有人物特性的,体现在对话的多个方面:人物形象、对话语言、对话节奏等等。同时,人物特征对于对话引导效果,是在潜移默化中的,一句话术、一个间隔等,都是人物特征的表征形式。所以需要对机器人做人物形象设定。
主要从以下几个层面:
视觉形象:
主要包括机器人头像、昵称、对话框信息展示与交互效果。该行业默认设定的客服是亲切地、富有亲和力的、体贴的等等,可以建立标签来衡量。
人物个性:
主要包括语言风格和对话节奏风格。
1)语言风格 指的是机器人使用话术的风格,将会贯穿对话始终,涉及后续话术库的建立和审核,需根据话术风格建立标准;
2)对话节奏风格 指的是在对话过程中,机器人发送话术的节奏,以及在等待应答阶段的对话交互。机器人发送话术的节奏,涉及到对话序列策略的设计,比如每间隔N秒发送一句话术,或者根据话术长度决定发送等待时长。
当然,具体的设计涉及诸多异常情况的设计需要考虑,如访客在等待时间内连续发送多条话术的处理等待。等待应答阶段的对话交互,有针对性的设计会让访客对话体验更像是在跟真人对话一样,如我们会在访客等待机器人发送话术的间隔时间内,在前端显示“正在输入…”的提示,让“仿真”更加“仿真”。
2.2 机器人能力界定
根据机器人在对话中所需承担的业务价值,可将机器人进行能力拆分。在互联网产品设计中,PM需要根据业务需求规划产品功能,并做功能拆解。AI PM也一样,根据业务需求划定机器人的能力边界,并做能力拆分。
我们会先划定,基于业务背景,结合现有的AI技术,机器人需要达到怎样的能力,才能满足业务需求。需要实现什么能力?什么能力是必要的;什么能力是选要的;什么能力是没有必要的。
根据划定的能力范围,我们又会根据场景,拆解细分的机器人能力。比如,场景1中,机器人的答疑能力、引导能力、暖和对话能力的细分拆解;场景2中……需穷举所有场景的机器人所有能力,可定量的需定量描述;不可定量的需定性描述,并附上相应的评估指标(若无指标,需附上评估指标策略建议)。
机器人能力的界定,可以为整个对话产品的研发测试工作起到关键作用。换言之,即需求定义明确且可量化。对话产品的几个特点就是,不好评估、衡量主观性大,对话未能覆盖的业务范围会比预期更大。在前期作用能力界定是非常重要的,同时也避免开发团队内部与外部沟通对接、与客户对接的诸多问题。机器人能力的界定,也为产品设计开发测试完成之后的产品验收做基础准备。
3. 机器人框架确定
在该行业中,访客一般是带着自身的问题/疑惑进入到对话的(除了骚扰的访客),即我们可以默认访客都是带着目的进入对话的(可参见上文 访客特征分析),这同时也是我们的 任务型对话 所要解决的问题。
所以我们根据访客的场景主题和在该场景下的访客各类意图,来框定机器人的对话内容框架。
主题:根据对话场景分析的结果,可将对话主题进行拆分。(注:不同于NLP行业内主流的任务型对话机器人,笔者产品所面对的行业,不同的主题间界限较不明确,且存在众多主题跳转的情况。这对于后续对话流程的设计,是一大考验难点。)主题确定和拆分主要考虑几个点:主题覆盖率、主题颗粒度、主题下答疑与引导的预设。同时,在完成这一步后,需要确定和撰写主题标注规范,让后续的数据标注与对话测试,都有一个参照标准。
意图:意图是每个对话场景主题下,访客的对话目的。我们会汇总所有场景下的意图,做整理和分析,并框定对话中的意图。作为NLU的主要成分,机器人识别的意图在对话中的角色至关重要,将主导对话的进展与聊天的方向。而意图的框定又是其根源的决策,所以需要考虑诸多影响因素。与主题的方法类似,意图确定和拆分也会考虑相同的几个点:主题覆盖率、主题颗粒度、主题下答疑与引导的预设。同时,也会确定和撰写意图标注规范,方法同上。
4. 对话产品设计与开发
做了前期的分析与准备之后,下一步就进入了从0到1搭建售前机器人的核心环节:对话产品设计与开发。在阐释具体的方法论之前,我们先看机器人的对话整体框架是如何的,相信这张图在诸多文章中都出现过:
这也是当前NLP领域对话机器人通用的处理逻辑,即:
NLU(自然语言理解):访客输入信息,通过NLU的解析,将自然语言转化为机器人可理解的语言。
DM(对话管理):NLU的识别结果,通过对话管理的处理,输出相应的信息回应。对话管理的过程,可理解为机器人的“脑处理”机制,类比于人类的大脑。
NLG(自然语言生成):根据对话管理处理的结果,进行语言生成。这部分的处理,目前我们暂时用话术库话术直接调用的方式来代替,未做语言生成的处理。
区别于互联网产品的设计与开发,对话机器人的设计,主要在于对话策略的设计。产品功能的载体,如对话界面展示,交互形式等,在对话产品设计中,只占一小部分的工作内容。所以在某种意义上,对话产品的设计,与“策略产品经理”的工作思维较为相像。
在对话产品设计中,AI PM不仅要了解业务,同时要对AI技术有充分的了解认知,需要知道AI技术的实现效果边界,以及AI技术实现的难度等等。通常需要与算法工程师配合,在对话产品设计与开发间,做尽可能多的无缝衔接。
4.1 NLU(自然语言理解)设计
NLU的设计,主要由AI PM主导对话需求和效果要求,实现层面由算法工程师负责。值得一提的是,现有的人工智能的核心虽然是各类AI算法,但是算法并不能解决所有问题。实际上在应用中,AI算法在对话产品中可能占比不到50%的功能实现,其他的部分需要算法之外的策略设计来实现,比如人为设定各式各样的规则处理等待。
基于行业业务形态,NLU的设计主要分为3部分:主题识别设计、意图识别设计、实体识别设计。
4.1.1 主题识别设计
在实际对话中,对话主题常常因为访客提供信息的变化,需发生相应的主题变化。基于现有的AI算法水平(还未到达会话级识别的能力),在主题识别上,需做一套可控的完备的规则进行相应的主题识别。
主题识别的设计,主要包括 主题映射设计 与 主题跳转设计 。
主题识别的机制,在算法能力不成熟的情况,主要通过人工制定规则的方式来实现。在效果上,可以暂时达到相应的业务需求,但是,随着业务复杂度上升,规则的局限性便会暴露出来。
规则的优势在于,可量化、可控,且容易直接地达到人的预期。但是劣势同样也明显,规则不具有泛化能力,规则覆盖不到的范围,基本上属于“人工智障”的范畴。并且,一旦规则越来越多后,规则间就会出现重叠、互斥等问题,会超出预想的结果预期。同时这也为后面的异常流程设计、兜底话术等的设计,又提高了难度要求。
4.1.2 意图识别设计
意图识别方面,对AI PM来说,主要是做意图识别规则的设计,体现在与算法模型训练的结合上。如:算法识别结果是单意图 or 多意图,识别优先级如何确定,识别结果如何使用,等等。相应的规则需确定并落成文档,方便在后续的对话流程设计中使用。
同时,意图识别的模型训练,目前主要使用的是有监督学习的算法,需要数据标注团队进行数据的标注,给到算法模型训练。所以在意图确认后,就需要有意图标注规范,目前由AI PM根据业务来撰写。
当算法模型训练完成后,AI PM需要进行验收,需要关注几个AI基础指标:P值(准确率)、R值(召回率)、F1值。当然,单纯的技术指标并不能完全说明对话效果,还需在后续的对话测试中,验证对话的体验效果。
4.1.3 实体识别设计
实体指的是访客发送信息中抽取的有实际意义的信息,基本可以代表信息传递的有价值内容。算法工程师会根据行业特征,抽取所有细分行业中通用的实体信息,并做相应的 实体对齐(归一化)。
举个例子,比如实体“电话号码”,其他的表述方式如“手机号”、“联系方式”、“手机号码”等等多种表述方式,都会归一化为“电话号码”,这样可提高机器人识别的泛化能力,而不是仅限于“关键词”。
AI PM的职责是审核实体列表与实体归一化结果。通常来讲,技术实现的只是基于数据特征的抽象,可能符合/不符合业务需求。笔者的做法是,找行业专家审核一遍训练结果,让行业专家通过专业角度来判别与提供建议,并进行相应的调整优化。
同样的,实体识别模型训练后,我们也会关注几个AI基础指标:P值(准确率)、R值(召回率)、F1值,来衡量模型训练的效果。
4.2 DM(对话管理)设计
对话管理是机器人的“大脑”,是机器人行为的处理枢纽,可见其在对话机器人中的核心地位。对话管理主要分为DP(对话策略)设计 和 DST(对话状态追踪)设计。
4.2.1 DP(对话策略)设计
DP(对话策略)即机器人的对话逻辑处理机制,也就是机器人如何利用识别到的访客对话信息,做机器人的应答逻辑处理。在DP中,包含大量的流程逻辑处理,以及话术库调用机制。
4.2.1.1 对话流程框架
设计初期,需要构建对话流程的总体框架。包括几大功能模块,以及模块间是如何的逻辑处理方式。一般输出结果为对话逻辑流程图。当然,这需要与应用层开发工程师沟通协商实际实现难度与效果。
4.2.1.2 对话主功能模块
对于该行业对话机器人来讲,对话主功能模块主要有2大部分:答疑模块和引导模块。答疑主要解决的是访客疑惑解答的问题;引导主要解决的是用户(B端)营销获联的问题。
答疑模块:
根据条件触发机制的不同,我们将机器人所调用的话术,划分为几个话术库,分别承担不同的答疑任务,覆盖不同方面的访客问题。话术库包括:知识图谱、FAQ话术库、兜底话术库。
知识图谱:知识图谱本质上是解决实体架构与实体之间联系的组织,它可通过一个实体指向与它有关联的任一实体,在对话机器人答疑中,起到无法替代的作用。知识图谱的复杂程度,决定了对话应答的智能程度。同时,知识图谱对应的话术,需要通过数据抽取的方式,从各种资源中获取,如:人工对话数据、网站爬虫等,通过数据清洗,构建相应的话术库。
FAQ话术库:FAQ是基于语义相似度计算匹配的问答对,本质上与对话主题、访客意图等,无太大关联。所以如何与之建立关联并让对话流程进行,是设计的难点。同时,AI PM一般也需要关注语义相似度计算匹配所使用AI技术实现效果的差一点。比如使用Bert与使用word2vec的差异点是什么?如何做取舍,如何对算法工程师提要求和优化点,等等。这个要求AI PM对各类常用的算法有足够深度的了解。
兜底话术库:兜底话术库的定位,即“兜底话术”。当机器人主要的话术库(上述3种)无法应答的问题出现时,只能使用兜底话术库来做应答。兜底话术特点,在于“通用”,它是普适性的。所以意味着这些话术答疑,回答得不会具有针对性。在对话中只可作为暂时性的过渡用,当兜底话术库出现次数增多后,用户体验将会大大降低。作为售前营销机器人,这是很影响访客留联意愿度的。反过来说,我们也可以通过统计对话中兜底话术出现的频次,来衡量对话效果。通用话术越多,表示机器人应答效果值越低。
引导模块:
引导模块主要体现为对话主题流程的设计,分为 主题引导 和 非主题引导 的设计。
主题引导:主要是各个主题的对话流程设计,旨在机器人可顺畅地、有递进层次关系地进行引导,最后促成访客留联的结果。包括几个组成部分:主题常规流程设计、引导action设计、重复问诊规避设计、主题跳转后流程设计。
非主题引导:非主题引导指的是,未进入主题流程的访客对话,需进行相应的引导。由于前期做了充分的主题分析,所以一般认定未落在预设主题范围内的访客问题,通常也是营销价值不大的访客,甚至是骚扰访客。基于这样的假设,非主题引导一般会讲该类访客,引导到主题引导流程中,同时保持对话顺畅,不至于出现对话断层的情况。
4.2.1.3 对话其他功能模块
在对话主要功能模块之外,我们还对对话进行补充功能设计,包括:欢迎语&引导语模块、暖场模块,以及其他根据行业需要新增的功能模块。
4.2.1.4 对话序列发送机制
对话序列发送机制,通俗讲即,机器人每间隔多长时间发送话术,每次发送几句话术;当间隔时间内,访客联系发送消息,机器人应做如何的处理,未发出的话术序列应做如何取舍和优先级排序,等等。对话序列发送机制,旨在让机器人的对话应答,与人的应答更相像,在“仿真”程度上尽可能地接近人工,降低访客对“机器”的感知程度。
4.2.2 DST(对话状态追踪)
对话状态追踪,指的是在对话进行过程中,机器人自动记录的对话关键信息。信息包括访客信息、对话状态信息,以及机器人动作信息的记录。用于保证对话进行中的信息记录和信息更新,为机器人应答提供必要的信息来源。
DST 对话状态追踪的设计,主要包括:DST信息字典设计 和 DST信息更新规则 设计。
4.3 NLG(自然语言生成)
NLG主要是通过语言素材进行自动生成的过程。鉴于现有业务暂未使用相关的技术与设计,这里暂不赘述。我们的替代方式是,直接使用不同话术库中的话术,作为机器人应答输出的内容。
5. 机器人能力界定
当对话产品设计与开发进行到这时,整个机器人的构建已达到规模。我们可以根据前期预设定的机器人能力预期值与划分,拆解出每个机器人能力的实现程度,并根据每一条能力,设定能力界限。即:机器人能做什么,不能做什么。从而为下一步的机器人整体效果评估指标做准备。
6. 机器人整体效果评估指标
基于现有的行业,衡量机器人的对话效果并不简单。我们尽量做到定量分析评估,若实在无法定量,则做定性分析评估。现有的评估方式可分为 上线前测试评估 和 上线后验证评估。
上线前测试评估:
上线前的效果评估,可以分为2方面,一方面为技术指标,另一方面为业务指标。
技术指标 即考量每个对话功能模块中,应用到的AI算法效果指标。最常用的还是3个基础衡量指标:P值(准确率)、R值(召回率)、F1值。优点在于数据直观,易衡量;缺点是技术指标未必指向业务效果,需要业务指标的补充验证。
业务指标 即通过对话效果评估,来衡量机器人的功能模块/整体效果。常用的方式是通过人工打分的方式。分为:单轮打分、会话级打分、对话功能打分等。优点在于可透过人工视角来检验机器人真正的表现如何,这也是最接近用户视角的检验方式;缺点在于,需投入的人力成本大,且参与测试的人员,与实际访客始终有差别,会造成一定程度的偏误。当然,测试验证的手段也会在实践中一步步改进,尽力去减少尽可能多的偏差。
上线后验证评估:
上线后的评估,通常直接与业务挂钩,用户也通常重点关注业务相关的关键性指标,包括:留联率、对话有效率、对话转化率、访客留存量等等。作为一款SaaS产品,这几个关键性指标也决定了用户付费的意愿度。基于实际线上流量跑出的机器人效果,我们会通过聊天记录,分析存在的改善点,进一步改善对话。
7. 机器人对话效果管理
对话产品的设计与开发,主要针对机器人对话本身的设计。但是在用户侧,需要直观地了解到对话的效果统计,以及需进行对话个性化的配置,以满足每个用户不同的需求。根据对话配置开放权限对象的不同,可分为对内配置与对外配置系统。
对话效果统计:
对话效果的统计,主要参照机器人整体验证的指标参数,分为以下两部分:
机器人对话配置:
根据配置的内容,可分为答疑模块、引导模块的配置。通常来讲,答疑模块的话术库,会给予用户充分的配置自主性,因为根据每家用户的业务点不同、时间点不同,会对话术做相应的修改;引导模块,通常会将流程模块化。底层的逻辑、机器人主框架逻辑,是我们会预设好的,开放给用户的主要是主题引导到流程。这样可以实现流程标准化与自定义化的结合,充分保证对话效果。
根据配置的对象,可分为内部团队与外部用户。内部团队主要指团队内的实施团队,他们会帮助用户,基于用户的业务特性,做对话的相应调整。所以会开放一定的权限给到内部团队修改机器人。外部用户指的是我们产品的用户,开放给用户的部分,是可保证其修改在我们的可控范围之内,可让用户自行修改。
机器人应用管理配置:
机器人应用管理配置主要指机器人的套餐管理,机器人的对话主题管理、意图管理等,主要面向内部团队使用。
总结
对话产品的设计与开发,需要有一套系统的方法论与实践经验指导。看似简单的对话,背后蕴藏着复杂的构思与逻辑。这就要求AI PM不仅需要深入了解业务、深入了解AI算法,也需要深入设计与开发的链路中,建立标准和坚持不懈地为问题寻求解决方案。
AI是个新兴的行业,目前行业的痛点在于AI技术如何落地。在很多场景下,经常出现技术负责人不懂业务,业务负责人不懂技术的情况,造成AI产品开发偏离真正的需求痛点的方向。AI PM需要作为业务和AI技术的枢纽,统筹规划与设计解决方案。在探索中逐步搭建AI产品方法论。
本文主要概览了售前营销机器人从0到1搭建设计的过程,鉴于文章篇幅有限,每个环节中的细节与具体方法论未展开,笔者将会在后续的文章中拆分讲解。希望本文可以帮得到你。
CIO之家 www.ciozj.com 公众号:imciow