andrea corr()


任务导向型对话系统,简称任务型对话系统,旨在通过多轮对话来帮助用户实现特定场景下的目标,例如餐馆查询、火车票预订等。为了达到此目的,系统通常需要对用户输入的自然语言进行理解,做出智能的决策,并生成恰当的回复。


图1展示了任务型对话系统的通用流水线架构[1],它包含有自然语言理解、对话管理和自然语言生成三个模块。自然语言理解(Natural Language Understanding)模块负责处理用户输入的语句并分析其行为和目标。对话管理模块(Dialog Manager)负责追踪用户目标为对话状态(Dialog State Tracking),并利用对话状态查询外部知识库(KB),生成恰当的对话策略(Dialog Policy)。自然语言生成(Natural Language Generation)模块最终根据对话策略和对话上下文生成系统回复。为了降低部署成本并避免误差传播,端到端任务型对话系统[2]在近些年来得到了广泛的研究,用以统一处理上述各个模块的任务。


图1 任务导向型对话系统的通用流水线架构


任务型对话系统目前主要通过管理结构化知识(如表格、数据库等)来引导对话的进行。如图2的第一轮对话所示,系统利用用户语句中的关键信息查询结构化知识,再根据查询结果以及对话上下文生成回复。


然而,现实生活中的任务型对话也经常会涉及到非结构化知识(如评论、文档等)。例如,在图2的第二轮对话中,用户询问系统推荐的餐馆中最受顾客欢迎的菜是什么,而这与顾客对这家餐馆的评论密切相关。由于缺乏对非结构化知识的管理,现阶段的任务型对话系统不能很好的处理诸如上述的对话轮次。这种缺陷往往会导致对话流程的中断,为用户目标的追踪以及系统回复的生成带来困难。因此,如何同时管理结构化和非结构化两种知识,成为了现阶段任务型对话系统研究的一个值得思考和解决的问题。


图2 基于结构化和非结构化知识的任务导向型对话示例


本文将先后介绍两种同时管理结构化和非结构化知识的端到端任务型对话系统:HyKnow与SeKnow。HyKnow提出了一种基于混合知识管理的任务型对话建模,将结构化和非结构化知识同时融入了端到端系统;SeKnow则提出了一种更一般的基于半结构化知识管理的任务型对话建模,并对HyKnow的系统实现进行了改进与扩展。


HyKnow

01 基于混合知识管理的任务型对话


HyKnow提出了一种基于混合知识管理的任务型对话建模任务,该任务假定每一轮对话的建模都是基于结构化或非结构化知识中的一种。


在基于结构化知识的对话轮次(例如图3左下对话示例),系统首先需要追踪用户目标并将其表示为对话状态(dialog/belief state) Bt 中的领域-槽-值(domain-slot-value)三元组,如餐馆-地区:中心 (restaurant-area: center)。之后,系统根据对话状态查询结构化数据库(structured database),再根据数据库匹配结果 mt 和对话上下文(dialog context) Ct 生成回复 Rt 。


在基于非结构化知识的对话轮次(例如图3右下对话示例),系统需要搜索一个按照不同领域和实体组织的非结构化文档库(unstructured document base),查找与当前对话相关的文档 Dt ,再依据相关文档内容和对话上下文 Ct 生成回复 Rt 。


02 系统实现


图3 基于混合知识管理的端到端任务型对话系统HyKnow的实现 (上) 及其对话示例 (下)


HyKnow采用序列到序列(sequence-to-sequence)的架构,通过三个步骤来实现基于混合知识管理的任务型对话建模,分别为:扩展的对话状态跟踪(extended belief tracking),混合知识操作(hybrid knowledge operations),基于知识的回复生成(knowledge-grounded response generation)。图3展示了HyKnow的整体系统实现及其对话示例。


扩展的对话状态跟踪


HyKnow通过定义一种扩展的对话状态 B ̃t 来实现涉及混合知识的用户目标跟踪。在基于结构化知识的对话轮次,B ̃t 与一般的对话状态 Bt 相同。而在基于非结构化知识的对话轮次,B ̃t 引入了一个额外的槽(slot) ruk来表示当前的对话需要非结构化的知识(requiring unstructured knowledge),它的前缀与值(value)分别代表了与当前对话相关的领域(domain)和实体(entity),如图3右下部分红色文字所示。DSVt 用以代表扩展后的所有领域-槽-值三元组。此外,B ̃t 将当前用户语句的主题概括为一段单词序列 Tt ,如图3右下部分蓝色文字所示。

HyKnow首先使用上下文编码器(context encoder)编码对话上下文 Ct ,再根据 Ct 以及上一轮扩展对话状态 B ̃t-1 的隐状态编码(henc)结果,依次解码序列 B ̃t 的各个字符。HyKnow考虑了两种扩展对话状态的解码方式:第一种方式使用单一的对话状态解码器(belief state decoder)解码 B ̃t 的全部内容,而第二种方式使用领域-槽-值解码器(DSV decoder)和主题解码器(topic decoder)分别解码 DSVt 和 Tt 的内容。

对于第一种依赖于单解码器(single decoder)的方式,DSVt 和 Tt 的解码可以通过共享参数实现联合优化:

对于第二种依赖于多解码器(multiple decoders)的方式,DSVt 和 Tt 的解码可以被各自拟合到其更小的解码空间(词汇表)当中,从而使 B ̃t 的解码被拆解为两个更简单的子过程:


混合知识操作


HyKnow根据扩展的对话状态 B ̃t 来完成结构化和非结构化知识操作。在结构化知识操作中,HyKnow以 B ̃t 中原始的领域-槽-值三元组为条件进行数据库查询(database query),并依据匹配到的条目/实体数将查询结果映射为向量 mt 。而在非结构化知识操作中,HyKnow以 B ̃t 中扩展的部分为条件进行文档检索(document retrieval),匹配到相关文档 Dt 作为生成系统回复的参考。对于文档检索,HyKnow首先对文档库进行预处理,提取其中各个文档的主题,如图3右下部分黄色文字所示。之后,HyKnow利用新增槽 ruk 对应的值(代表相关实体)和用户语句的主题 Tt 来分别模糊匹配各个文档所属的实体和其主题,选出匹配度最高的一个作为相关文档 Dt 。


基于知识的回复生成


HyKnow根据对话上下文 Ct 、扩展的对话状态 B ̃t 、以及混合知识操作的结果 mt 与 Dt 生成系统回复 Rt 。具体而言,HyKnow使用与解码 B ̃t 过程中相同的上下文编码器编码 Ct ,并且使用对话状态编码器(belief state encoder)和文档编码器(document encoder)分别编码 B ̃t 与 Dt 。根据 Ct 、B ̃t 、 Dt 的隐状态编码(henc)结果以及结构化查询结果 mt ,HyKnow使用回复解码器(response decoder)依次解码序列 Rt 的各个字符。该过程可表示为如下:


03 实验结果及分析


数据集


实验使用Beyond Domain APIs[3] (BDA) 提出的扩展的MultiWOZ 2.1数据集来测试系统的性能。该数据集在原MultiWOZ对话中新插入了多轮涉及非结构化知识的对话,每一轮新增的对话也被标注了其在文档库中的相关文档,如图4中黄色部分所示。HyKnow利用TF-IDF算法[4]提取文档库中各个文档的主题,并依据每一轮新增对话标注的相关文档的主题和所属实体,扩展其对话状态的标注。最终,扩展的对话状态标签以及系统回复真值(ground truth)被用来监督模型的训练。


图4 扩展的MultiWOZ 2.1数据集的对话示例


端到端评测


表1展示了端到端任务型对话评测的结果。在任务完成率方面,实验按照MultiWOZ[5]提供的方法,测量系统在一段对话中是否能向用户推荐正确的实体(Inform 率),且告知用户所有其想查找的信息(Success 率)。在生成回复的语言质量方面,实验则使用常用的评价指标BLEU、METEOR和ROUGE-L进行评测。最后,参考MultiWOZ 2.1[6],实验计算 BLEU + (Inform + Success) / 2 作为综合得分(Combined score)。

HyKnow打败了现有的轻量级端到端任务型对话系统UniConv[7]、LABES-S2S[8],其性能与使用大规模预训练语言模型(pretrained LM) GPT-2[9]的端到端系统SimpleTOD[10]相近。这表明HyKnow的结构化+半结构化知识管理可以帮助其更好的区分基于不同种类知识的对话,并生成更为恰当的回复。

实验还考虑将现有的端到端任务型对话系统与额外的非结构化知识管理模型Beyond Domain APIs[3]相组合(+ BDA),构造出使用混合知识管理的流水线系统来与HyKnow进行比较,得到的比较结果与未加入BDA时类似。这说明相比于流水线架构,HyKnow的端到端实现可以更好的统一基于结构化和非结构化知识的任务型对话建模,从而取得整体上更优的性能。此外,HyKnow的端到端实现也使其更易于进行系统部署。


表1 端到端任务型对话评测结果 (HyKnow)


知识管理评测


表2和表3分别展示了结构化和非结构化知识管理评测的结果。对于结构化知识管理,实验评测系统在原始对话轮次中的对话状态跟踪性能,因为它直接决定了结构化查询的准确度。具体而言,实验用Joint Goal准确度[11]来衡量系统在每一轮对话中是否能正确的预测出对话状态。而对于非结构化知识管理,实验则采取了标准的信息检索评价指标MRR@5和R@1来评测系统的文档检索性能。


从表2的对话状态跟踪评测结果可以看出,HyKnow打败了现有的轻量级基线系统TRADE[12]、UniConv[7]、LABES-S2S[8],其性能与使用预训练BERT[13]、GPT-2[9]的基线系统TripPy[14]、SimpleTOD[10]相近。这说明非结构化知识的加入可以通过联合训练改善结构化知识的管理。将各个基线系统与非结构化知识管理模型BDA相组合后,实验得到了与组合前相似的比较结果。这表明了HyKnow的端到端系统实现可以消除多轮对话状态跟踪的误差传播,因为HyKnow在每轮对话中可以同时更新原始的对话状态和判断当前涉及的知识种类。


从表3的实验结果可以看出,HyKnow的文档检索性能显著优于标准的信息检索系统TF-IDF[4]、BM25[15],以及更强的基线模型Beyond Domain APIs[3] (BDA)。这得益于HyKnow引入了高度简化的主题(topic),降低了文档检索的复杂度。相比于直接计算文档内容与对话上下文的相关度,主题匹配(topic matching)的文档检索方法更加简洁高效。


表2 原始对话轮次的对话状态跟踪评测结果 (HyKnow)


表3 文档检索评测结果 (HyKnow)


结构化和非结构化知识管理的相关性


在端到端对话和知识管理评测中,实验比较了HyKnow基于单解码器和多解码器的扩展对话状态解码方式,分别表示为HyKnow (Single)与HyKnow (Multiple)。从表1、2和3的比较结果可以看出,基于单解码器的解码方式在各个方面的性能都优于基于多解码器的解码方式。此外,实验考虑训练两个HyKnow模型来分别完成基于结构化和非结构化知识的任务型对话建模,以此消除两种对话建模间的联合优化(- w/o Joint Optim)来研究其作用。从表1、2和3的结果可以看出,移除了联合优化机制后,HyKnow在各个方面的性能均有下降。上述实验结果均表明:在任务型对话建模中,结构化与非结构化知识管理是正相关的,因此基于两种知识管理的任务型对话建模可以通过共享参数联合优化提升。


新增非结构化知识的影响


实验进一步考虑在扩展的MultiWOZ 2.1数据集中,新增的涉及非结构化知识的对话轮次对于原始轮次对话建模的影响。具体而言,实验分别在原始的(original)和扩展的(modified) MultiWOZ 2.1测试集上验证系统的性能(训练和开发集仍使用扩展的),考察其在两种测试集上的对话状态跟踪(DST)和端到端(end-to-end)性能的变化。表4展示了上述实验的结果。可以看出,各个系统在从原始测试集迁移到扩展测试集后,性能都有所下降。这说明新增的涉及非结构化知识的对话轮次会干扰或打断原始对话进程,为对话状态跟踪及端到端对话造成困难。然而,实验观察到HyKnow在迁移到扩展测试集后性能下降较少。这表明HyKnow的端到端系统实现通过统一基于两种知识的对话建模,提升了其在原始和新增对话轮次间切换的灵活性,使其在处理复杂的对话进程方面具有更强的鲁棒性。


表4 在原始和扩展测试集上,对原始轮次对话建模的评测结果 (HyKnow)


人工评测


考虑到自动评测在反映系统真实的端到端对话性能方面仍有不足,实验还从连贯性(Cohe.)、忠实度(Info.)和正确性(Corr.)三个方面对系统生成的回复进行了人工评测。表5展示了原始(Original)对话轮次(基于结构化知识)和新增(newly inserted)对话轮次(基于非结构化知识)上的人工评测结果。可以看出:HyKnow在基于结构化知识的端到端对话方面,性能与使用大规模预训练的基线系统相当;而在基于非结构化知识的端到端对话方面,HyKnow的性能显著优于大规模的基线系统,这得益于其更好的非结构化知识管理性能。

表5 人工评测结果 (HyKnow)


SeKnow

01 基于半结构化知识管理的任务型对话


在HyKnow基于混合知识管理的任务型对话建模中,结构化与非结构化知识从属于相同的任务特异的领域和实体,对于两种知识的管理也被实验证明具有正相关性。注意到上述结构化与非结构化知识的密切关联,SeKnow将两种知识按照其共同的领域和实体进行了融合,并提出了更一般的基于半结构化知识管理的任务型对话建模任务。


具体而言,SeKnow将结构化数据库(structured database)和非结构化文档库(unstructured document base)融合成为了一个统一的半结构化知识库(semi-structured knwoledge base),如图5所示。该知识库按照任务特异的领域(domain)及其实体(entity)进行组织,每个实体都可能同时具有结构化的属性(对应原数据库内容)和非结构化的文档(对应原文档库内容)。在此基础之上,与HyKnow每轮对话都只基于一种类型知识的假设不同,SeKnow假定结构化与非结构化知识可以在一轮任务型对话中被同时涉及,而系统建模这样的对话轮次也需要同时管理知识库中的结构化和非结构化内容。


图5 混合知识管理一般化为半结构化知识管理的示例


02 系统实现


与HyKnow的做法类似,SeKnow也通过三个步骤来完成基于半结构化知识管理的任务型对话建模,分别为:扩展的对话状态跟踪(extended belief tracking),半结构化知识操作(semi-structured knowledge operation),基于知识的回复生成(knowledge-grounded response generation)。且SeKnow采用了两种不同的方式实现上述三个步骤,分别基于序列到序列(sequence-to-sequence, abbr. S2S)架构和预训练语言模型(pretrained language model, abbr. PLM)。


基于序列到序列架构的系统实现 (SeKnow-S2S)


图6上半部分展示了SeKnow基于序列到序列架构的系统实现SeKnow-S2S,它将HyKnow的结构化和非结构化混合知识操作融合成为了统一的半结构化知识操作,使得结构化数据查询能够帮助确定相关的非结构化文档所属的实体,从而缩小文档检索的范围并提升其准确率。


具体而言,SeKnow首先利用扩展的对话状态 B ̃t 中的领域-槽-值三元组 DSVt 来匹配知识库中每个实体的结构化属性,其中:原始的三元组被用来绝对匹配实体的相应属性,而扩展的(槽为ruk的)三元组被用来模糊匹配实体的名称(name)或ID,匹配度最高的实体被选出作为当前对话的相关实体。为了统一知识操作的输出形式,SeKnow将实体匹配(即结构化查询)结果表示为文字段(text span) Mt ,并于回复生成步骤中再将其映射为向量 mt 。在此基础之上,SeKnow的非结构化文档检索仅考虑属于结构化查询确定的相关实体的文档。即SeKnow用扩展的对话状态 B ̃t 中的用户语句主题 Tt 模糊匹配相关实体的文档主题,选出匹配度最高的一个作为相关文档 Dt 。


SeKnow-S2S使用Universal Transformer[16]作为系统的编/解码器,与HyKnow基于GRU[17]网络的系统实现相比,具有更好的序列到序列建模性能。与HyKnow类似,SeKnow-S2S也使用了两种分别基于单解码器和多解码器的对话状态解码方式,表示为SeKnow-S2S (Single)和SeKnow-S2S (Multiple)。(实验也再一次证明了单解码器优于多解码器。)

图6 基于半结构化知识管理的端到端任务型对话系统SeKnow的两种系统实现SeKnow-S2S (上) 与 SeKnow-PLM (下)


基于预训练语言模型的系统实现 (SeKnow-PLM)


图6下半部分展示了SeKnow基于预训练语言模型的系统实现SeKnow-PLM。与HyKnow和SeKnow-S2S序列到序列的解码方式不同,SeKnow-PLM利用预训练语言模型,以从左至右自回归的方式解码扩展的对话状态 B ̃t 以及系统回复 Rt:


受到BERT[13]、SOLOIST[18]等工作的启发,SeKnow考虑在SeKnow-PLM中加入一个额外的一致性检测任务来辅助系统的训练。具体而言,SeKnow遵循AuGPT[19]的做法,随机破坏一半的对话训练样本,以等可能的概率将其 (1) 整个扩展对话状态 B ̃t ,(2) B ̃t 中每个槽(slot)的值(value),或 (3) 系统回复 Rt 替换为另一个不同的内容,并训练系统判断每个对话样本的内容是否前后一致。SeKnow-PLM在对话结束符[eos]的隐状态输出上施加了一个二元分类器来预测对话内容的一致性概率 pc:


SeKnow-PLM使用GPT-2[9]作为系统的预训练语言模型(PLM),并且遵循AuGPT[19]的做法,使用大规模任务型对话语料Taskmaster-1[20]和Schema-Guided Dialogue[21]对系统进行了进一步的预训练。


03 实验结果及分析


端的端对话和知识管理评测


实验按照与评测HyKnow相同的方法,对SeKnow的端到端对话以及知识管理性能进行了评测,并且引入了更强的基线系统来与SeKnow进行比较,包括:端到端任务型对话系统AuGPT[19],Jinhyeon Kim等人提出的End-to-End Document-Grounded Conversation (E2E-DGC)模型[22],David Thulke等人提出的DenseKnowledge Retrieval (DKR)和Hierarchical Knowledge Selection (HKS)模型[23]。


表6、7和8展示了SeKnow的端到端对话及知识管理评测结果。SeKnow-S2S在端到端评测和对话状态跟踪方面打败了所有的轻量级系统及其流水线型扩展(+ BDA/HKS),且在文档检索方面也取得了很好的评测结果,展示出了与HyKnow相同的任务型对话建模优势。而SeKnow-PLM借助预训练语言模型进一步提升了系统的性能,在端到端对话和知识管理方面都取得了现阶段最优的评测结果。


表6 端到端任务型对话评测结果 (SeKnow)


表7 原始对话轮次的对话状态跟踪评测结果 (SeKnow)


表8 文档检索评测结果 (SeKnow)


SeKnow与HyKnow的比较


实验将SeKnow的文档检索、原始对话状态跟踪和端到端对话性能与HyKnow进行了比较,并且考虑:(1) 消除结构化和非结构化知识管理的融合 (- w/o KM Fusion) 或进一步地 (2) 消除基于两种知识的对话建模的联合优化 (- w/o Joint Optim) 来分析它们的作用。此外,实验也比较了SeKnow与HyKnow (1) 预测对话状态扩展部分即带有槽ruk的三元组(triple with ruk)和用户语句主题(topic)的精确率(P)、召回率(R)和F1分数,(2) 进行文档检索前相关实体匹配(entity matching)的准确性(MRR@5和R@1率),以及 (3) 系统开发所需要的计算成本,即模型参数大小(model size)和训练所需时间(training time)。表9和10展示了SeKnow与HyKnow的比较结果。


从比较结果可以看出,SeKnow的实体匹配和文档检索性能显著优于HyKnow,而这主要得益于SeKnow对结构化和非结构化知识管理的融合,即结构化查询可以提供更多约束来帮助非结构化检索确定相关实体,从而缩小了文档检索的范围,避免了一些文档检索的错误。此外,与HyKnow类似,SeKnow中基于结构化和非结构化知识的两种对话建模也可以通过联合优化来使系统达到整体更优的性能。


SeKnow-S2S在对话状态跟踪和端到端评测方面打败了HyKnow,且在使用相同计算资源和更大参数规模的条件下,所需训练时间显著少于HyKnow。这说明了在基于序列到序列的任务型对话建模中,SeKnow-S2S使用的Universal Transformer的性能及训练效率优于HyKnow使用的GRU。


得益于大规模预训练语言模型的应用,SeKnow-PLM在任务型对话建模中各个方面的性能都显著优于HyKnow与SeKnow-S2S。但同时SeKnow-PLM具有更大的参数规模,且需要更多的计算资源来取得与HyKnow相近的训练时间。这说明在基于多种形式知识的任务型对话建模中,模型性能与计算成本之间存在取舍权衡(trade-off)的问题。


表9 SeKnow与HyKnow在文档检索、原始轮次对话状态跟踪和端到端对话方面的比较结果


表10 SeKnow与HyKnow在扩展部分的对话状态跟踪、实体匹配和计算成本方面的比较结果


新增非结构化知识的影响和人工评测


实验按照与评测HyKnow相同的方法,探究了新增的涉及非结构化知识的对话轮次对原始对话建模的影响,并对SeKnow进行了人工评测。表11和12展示了相应的实验结果。与HyKnow相似,SeKnow在原始和新增对话轮次间切换时也展示出了较强的灵活性,在处理复杂对话进程方面鲁棒性较高。对于人工评测,SeKnow-PLM在绝大部分指标上都取得了最优的结果,这与自动评测的结果相符。


表11 在原始和扩展测试集上,对原始轮次对话建模的评测结果 (SeKnow)


表12 人工评测结果 (SeKnow)


对话案例分析


表13展示了一个扩展的MultiWOZ 2.1测试集上的对话案例。可以看到,AuGPT由于缺少对非结构化知识的管理,错误的分析了与非结构化知识相关的用户目标,并给出了不适当的推荐。而AuGPT与HKS组合后,虽然正确判断出了当前对话需要非结构化知识,但也没有真正理解用户的目标,因而查找到了一个无关的文档并给出了与事实不符的回复。HyKnow虽然理解了用户有关早餐的目标,并侥幸给出了恰当的回复,但并没有正确分析出相关实体,导致文档检索发生错误。相比之下,SeKnow-S2S则借助结构化查询的约束(即原始的领域-槽-值三元组)检索到了正确的文档,进而给出了与事实相符的回复。最后,SeKnow-PLM完全正确的分析出了相关实体和用户语句主题,检索到了正确的文档,并给出了信息充足且符合事实的回复。

表13 基于结构化和非结构化知识的任务型对话案例


总结


本文阐述了基于结构化+非结构化知识管理的任务型对话建模任务,并介绍了面向此建模任务的对话系统HyKnow,SeKnow-S2S和SeKnow-PLM。三者分别基于GRU,Transformers和GPT-2进行系统实现,且都采用端到端的方式联合优化基于两种知识管理的对话建模,相比于其它现有的端到端任务型对话系统及其流水线型扩展,取得了较强的性能。


论文链接


HyKnow

题目:HyKnow: End-to-End Task-Oriented Dialog Modeling with Hybrid Knowledge Management

作者:Silin Gao, Ryuichi Takanobu, Wei Peng, Qun Liu, Minlie Huang

论文链接:https://arxiv.org/abs/2105.06041

开源代码:https://github.com/truthless11/HyKnow


SeKnow

题目:End-to-End Task-Oriented Dialog Modeling with Semi-Structured Knowledge Management

作者:Silin Gao, Ryuichi Takanobu, Minlie Huang

论文链接:https://arxiv.org/abs/2106.11796

开源代码:to be released soon...


参考文献


[1] Zheng Zhang, Ryuichi Takanobu, Qi Zhu, Xiaoyan Zhu, and Minlie Huang. Recent Advances and Challenges in Task-Oriented Dialog Systems. In Science China Technological Sciences, 2020.

[2] Wen Tsung-Hsien, David Vandyke, Nikola Mrkšić, Milica Gasic, Lina M. Rojas Barahona, Pei-Hao Su, Stefan Ultes, and Steve Young. A Network-Based End-to-End Trainable Task-Oriented Dialogue System. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, 2017.

[3] Seokhwan Kim, Mihail Eric, Karthik Gopalakrishnan,Behnam Hedayatnia, Yang Liu, and Dilek HakkaniTur. Beyond Domain Apis: Task-Oriented Conversational Modeling with Unstructured KnowledgeAccess. In Proceedings of the 21th Annual Meetingof the Special Interest Group on Discourse and Dialogue, 2020.

[4] Christopher D Manning, Hinrich Schutze, and Prabhakar Raghavan. Introduction to InformationRetrieval. In Cambridge University Press, 2008.

[5] Paweł Budzianowski, Tsung-Hsien Wen, Bo-HsiangTseng, Inigo Casanueva, Stefan Ultes, Osman Ramadan, and Milica Gasic. Multiwoz--A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling. In Proceedings of the2018 Conference on Empirical Methods in NaturalLanguage Processing, 2018.

[6] Mihail Eric, Rahul Goel, Shachi Paul, Abhishek Sethi,Sanchit Agarwal, Shuyang Gao, Adarsh Kumar,Anuj Goyal, Peter Ku, and Dilek Hakkani-Tur. Multiwoz 2.1: A Consolidated Multi-Domain Dialogue Dataset with Dtate Corrections and State Tracking Baselines. In Proceedings of the 12th LanguageResources and Evaluation Conference, 2020.

[7] Hung Le, Doyen Sahoo, Chenghao Liu, Nancy Chen,and Steven CH Hoi. Uniconv: A UnifiedConversational Neural Architecture for Multi-DomainTask-Oriented Dialogues. In Proceedings of the 2020Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020.

[8] Yichi Zhang, Zhijian Ou, Min Hu, and Junlan Feng. A Probabilistic End-to-End Task-Oriented Dialog Model with Latent Belief States Towards Semi-Supervised Learning. In Proceedings of the 2020Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020.

[9] Alec Radford, Jeffrey Wu, Rewon Child, David Luan,Dario Amodei, and Ilya Sutskever. LanguageModels are Unsupervised Multitask Learners. In OpenAIBlog, 2019.

[10] Ehsan Hosseini-Asl, Bryan McCann, Chien-Sheng Wu,Semih Yavuz, and Richard Socher. A SimpleLanguage Model for Task-Oriented Dialogue. In Advances in Neural Information Processing Systems,2020.

[11] Matthew Henderson, Blaise Thomson, and Jason DWilliams. The Second Dialog State TrackingChallenge. In Proceedings of the 15th Annual Meeting of the Special Interest Group on Discourse andDialogue (SIGDIAL), 2014.

[12] Chien-Sheng Wu, Andrea Madotto, Ehsan Hosseini-Asl, Caiming Xiong, Richard Socher, and PascaleFung. Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems. In Proceedings of the 57th Annual Meeting of the Associationfor Computational Linguistics, 2019.

[13] Jacob Devlin, Ming-Wei Chang, Kenton Lee, andKristina Toutanova. Bert: Pre-Training ofDeep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference ofthe North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2019.

[14] Michael Heck, Carel van Niekerk, Nurul Lubis, Christian Geishauser, Hsien-Chin Lin, Marco Moresi, andMilica Gasic. Trippy: A Triple Copy Strategyfor Value Independent Neural Dialog State Tracking.In Proceedings of the 21th Annual Meeting of theSpecial Interest Group on Discourse and Dialogue (SIGDIAL),2020.

[15] Stephen Robertson and Hugo Zaragoza. TheProbabilistic Relevance Framework: BM25 and Beyond. In Foundations and Trends® in Information Retrieval, 2009.

[16] Mostafa Dehghani, Stephan Gouws, Oriol Vinyals, Jakob Uszkoreit, and Łukasz Kaiser. Universal Transformers. In International Conference on Learning Representations, 2018.

[17] Kyunghyun Cho, Bart van Merrienboer, Dzmitry Bahdanau, and Yoshua Bengio. On the Properties of Neural Machine Translation: Encoder-Decoder Approaches. In Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics andStructure in Statistical Translation, 2014.

[18] Baolin Peng, Chunyuan Li, Jinchao Li, Shahin Shayandeh, Lars Liden, and Jianfeng Gao. SOLOIST: Building Task Bots at Scale with Transfer Learning and Machine Teaching. arXiv preprint arXiv:2005.05298, 2020.

[19] Jonáš Kulhánek, Vojtěch Hudeček, Tomáš Nekvinda, and Ondřej Dušek. AuGPT: Dialogue with Pre-trained Language Models and Data Augmentation. arXiv preprintarXiv:2102.05126, 2021.

[20] Bill Byrne, Karthik Krishnamoorthi, Chinnadhurai Sankar, Arvind Neelakantan, Daniel Duckworth, Semih Yavuz, Ben Goodrich, Amit Dubey, Andy Cedilnik, and Kyu-Young Kim. Taskmaster-1: Toward a Realistic and Diverse Dialog Dataset. In Proceedings of the 2019 Conference on Empirical Methods in NaturalLanguage Processing and the 9th International Joint Conference onNatural Language Processing (EMNLP-IJCNLP), 2019.

[21] Abhinav Rastogi, Xiaoxue Zang, Srinivas Sunkara, Raghav Gupta, and Pranav Khaitan. Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset. In Proceedings of the AAAI Conference on ArtificialIntelligence, 2020.

[22] Jinhyeon Kim, Donghoon Ham, Jeong-Gwan Lee, and Kee-Eung Kim. End-to-End Document-Grounded Conversation with Encoder-Decoder Pre-Trained Language Model. 2021.

[23] David Thulke, Nico Daheim, Christian Dugast, and Hermann Ney. Efficient Retrieval Augmented Generation from Unstructured Knowledge for Task-Oriented Dialog. arXiv preprint arXiv:2102.04643, 2021