草庐IT

【对话生成】常见对话生成数据集整理,含下载链接(更新至2022.06.04)

华工陈艺荣 2023-03-28 原文

前言

本文主要整理对话生成领域相关的数据集,尤其是开放域对话生成。当前可以把开放域对话生成任务划分为:传统开放域对话生成、多模态对话生成、情感对话生成、个性化对话生成、策略控制对话生成等。笔者的划分是根据自己对该任务研究进展梳理而得到的理解,并不一定合理。

用于对话理解的对话数据集

IEMOCAP

发布时间:2008年
论文链接:https://link.springer.com/article/10.1007/s10579-008-9076-6
数据集链接:https://sail.usc.edu/iemocap/
数据集语言:英文
数据集模态:视频、音频、文本
数据集描述:IEMOCAP主要用于对话情感识别,包含151个对话、7433个语句、10个对话角色、10种情感标签。

SEMAINE

发布时间:2012年
论文链接:https://ieeexplore.ieee.org/document/5959155
数据集链接:https://semaine-db.eu/
数据集语言:英文
数据集模态:视频、音频、文本
数据集描述:SEMAINE主要用于对话情感识别,由四个固定形象的机器人与人进行对话,标注了4个情感维度:Valence (愉悦度), Arousal (激活度), Expectancy (预期), Power (力量)。Valence表示情感积极的程度,Arousal表示兴奋的程度,Expectancy表示与预期相符的程度,Power表示情感影响力。其中Valence、Arousa和Expectancy为[-1, 1]范围内的连续值,Power为大于等于0的连续值。

Mastodon

发布时间:2018年
论文链接:https://www.aclweb.org/anthology/C18-1063/
数据集链接:https://github.com/cerisara/DialogSentimentMastodon
数据集语言:英文
数据集模态:文本
数据集描述:Mastodon主要用于对话当中的情感与对话动作(DA)识别,尤其是联合识别任务。它包括535个对话、2217个语句,标注了3大类情感标签、27类对话动作(DA)。

MELD

发布时间:2019年
论文链接:https://www.aclweb.org/anthology/P19-1050
数据集链接:https://affective-meld.github.io/
数据集语言:英文
数据集模态:视频、音频、文本
数据集描述:MELD主要用于对话中的情感识别,也有部分论文将其用于情感对话生成或者多模态对话生成。它包括1433个对话、13708个语句,提供了3大类粗粒度情感标签以及7种细粒度情感标签。视频被切割成按语句划分的短视频,可以通过语句索引获得该语句对应的视频。

EMOTyDA

发布时间:2020年
论文链接:https://www.aclweb.org/anthology/2020.acl-main.402/
数据集链接:https://github.com/sahatulika15/EMOTyDA
数据集语言:英文
数据集模态:视频、音频、文本
数据集描述:EMOTyDA是一个类似于Mastodon的对话数据集,它主要整理了IEMOCAP以及MELD数据集,并且增加了12种常见的对话动作标签,最终包括了1341个对话以及19365个对话语句。可以用于情感和DA的联合识别任务。

MEmoR

发布时间:2020年
论文链接:https://dl.acm.org/doi/10.1145/3394171.3413909
数据集链接:https://github.com/sunlightsgy/MEmoR
数据集语言:英文
数据集模态:视频、音频、文本
数据集描述:MEmoR数据集主要用于多模态情感推理(ER),包括8536个对话以及22732个语句,提供了14种情感标签并且对64个说话人标注了16PF、Big Five、MBTI三种个性特质用于辅助情感推理。我认为该数据集还可以用于情感对话或者个性化对话任务。

M$^3$ED

发布时间:2022年
论文链接:https://aclanthology.org/2022.acl-long.391/
数据集链接:https://github.com/aim3-ruc/rucm3ed
数据集语言:中文
数据集模态:视频、音频、文本
数据集描述:与MELD数据集类似,但其数据来源于56部电视剧,人物更加丰富。文章构建了一个大规模高质量的多模态、多场景、多标签情感对话数据集,从56部中文电视剧,大约500集中选取900多个对话片段,并对对话中的每句话进行多情感标签的标注,共标注24,449句话。文章采用主流的6类基本情感标注(高兴、惊讶、伤心、生气、厌恶,害怕)以及正常无明显情感,共7类离散情感。从数据来源选取,对话片段选取,情感标注,标注后处理等方面进行严格把控,以保证数据的质量,最终得到标注者间一致性0.59,高于MELD 的0.43、IEMOCAP的0.48 以及MSP-IMPROV 中的0.49。

CPED

发布时间:2022年
论文链接:https://arxiv.org/pdf/2205.14727v1.pdf
数据集链接:https://github.com/scutcyr/CPED
数据集语言:中文
数据集模态:视频、音频、文本
数据集描述:该数据集来自论文CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。人类的语言表达是基于对情景的主观识解,而不是客观的真实条件,这意味着说话人的个性和情感经过认知处理后对会话有着重要的影响。为了在会话生成过程中同时考虑个性和情感,CPED由与情感和个性相关的多源知识组成。这些知识包括性别、大五人格特征、13种情绪、19种对话行为和10个场景,包含超过12K段对话,将给中文对话理解与生成领域提供一个更有挑战性的任务。任务设置见https://paperswithcode.com/dataset/cped

常规开放域对话数据集

OpenSubtitles

发布时间:2009年
论文链接:http://www.lrec-conf.org/proceedings/lrec2016/pdf/947_Paper.pdf
数据集链接:http://nlp.stanford.edu/data/OpenSubData.tar
数据集链接2:https://opus.nlpl.eu/OpenSubtitles-v2018.php
数据集语言:多语言(62种语言)
数据集模态:文本
数据集描述:OpenSubtitles主要用于开放域对话生成,包含2.6 billion语句。

Cornell Movie-Dialogs

发布时间:2011年
论文链接:https://www.aclweb.org/anthology/W11-0609/
数据集链接:http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
数据集语言:英文
数据集模态:文本
数据集描述:Cornell Movie-Dialogs包含从原始电影脚本中提取的大量元数据丰富的虚构对话集合,10,292 对电影角色之间的 220,579 次对话交流, 涉及 617 部电影中的 9,035 个角色,总共 304,713 条话语。

STC

发布时间:2015年
论文链接:https://www.aclweb.org/anthology/P15-1152/
数据集链接:https://coai-dataset.oss-cn-beijing.aliyuncs.com/STC-corpus.zip
数据集语言:中文
数据集模态:文本
数据集描述:STC是从微博爬取的语料构造的短文本对话(Short-Text Conversation)数据集,包含4.4 million个对话,。这里的数据集下载链接来自项目CDial-GPT

Ubuntu Dialogue Corpus

发布时间:2015年
论文链接:https://www.aclweb.org/anthology/W15-4640/
数据集链接:https://github.com/rkadlec/ubuntu-ranking-dataset-creator
数据集语言:英文
数据集模态:文本
数据集描述:该数据集包含930,000个对话,7,100,000个语句,平均对话轮次为7.71轮,常用于开放域对话生成。

Douban Conversation Corpus

发布时间:2017年
论文链接:https://www.aclweb.org/anthology/P17-1046/
数据集链接:https://github.com/MarkWuNLP/
数据集语言:中文
数据集模态:文本
数据集描述:Douban数据集主要爬取自中文豆瓣论坛,包含1.1M个对话,7.7M个语句。

LCCC

发布时间:2020年
论文链接:https://arxiv.org/abs/2008.03946
数据集链接:https://github.com/thu-coai/CDial-GPT
数据集语言:中文
数据集模态:文本
数据集描述:LCCC数据集分为base和large两个版本,主要用于预训练大规模对话生成模型,其base版本包括了12M个对话,32.9M个对话语句。

OpenViDial

发布时间:2020年
论文链接:https://arxiv.org/abs/2012.15015
数据集链接:https://github.com/ShannonAI/OpenViDial
数据集语言:英文
数据集模态:图像、文本
数据集描述:OpenViDial 中的数据来自电影与电视剧,使用 OCR 从视频中抽取出对话文本,并配以当前对话所在的图像,因此,每一句话都有相应视觉背景,最终形成包含百万余条句子的大规模多模态对话数据集。其包含了1.1M个对话语句+视觉背景。

PchatbotW

发布时间:2021年
论文链接:https://arxiv.org/abs/2009.13284
数据集链接:https://github.com/qhjqhj00/Pchatbot
数据集语言:中文
数据集模态:文本
数据集描述:PchatbotW主要从微博爬取得到,包括了139,448,339个对话、 278,896,678,并且提供了时间戳和用户ID两种个性信息,可以隐式地建模说话者的个性。

WDC-Dialogue

发布时间:2021年
论文链接:https://arxiv.org/pdf/2108.01547.pdf
数据集链接:https://github.com/thu-coai/EVA
数据集语言:中文
数据集模态:文本
数据集描述:这是一个超大规模的中文对话数据集,其平均轮次为2.1,所以我认为其是单轮对话数据集比较妥当。该数据集包括了1.4B个对话,以及3.0B个语句,其规模可以说是前所未有的大!

EVA2.0

发布时间:2022年
论文链接:https://arxiv.org/pdf/2203.09313v1.pdf
数据集链接:https://github.com/thu-coai/EVA
数据集语言:中文
数据集模态:文本
数据集描述:这是WDC-Dialogue的升级版,包含0.4B个对话,1.1B个语句,与WDC-Dialogue相比,最后的数据集大小为原来的三分之一,但是数据质量提升了很多。

待更新

发布时间:
论文链接:
数据集链接:
数据集语言:
数据集模态:
数据集描述:

情感对话数据集

DailyDialog

发布时间:2017年
论文链接:https://www.aclweb.org/anthology/I17-1099/
数据集链接:http://yanran.li/dailydialog
数据集语言:英文
数据集模态:文本
数据集描述:DailyDialog主要包括13118个对话、102K个对话语句,标注了7种情感、4类对话动作(DA)以及10个对话主题。可以用于对话情感识别、对话动作识别任务,以及情感对话生成任务。

ESTC

发布时间:2018年
论文链接:https://arxiv.org/abs/1704.01074
数据集链接:http://coai.cs.tsinghua.edu.cn/hml/challenge2017/
数据集语言:中文
数据集模态:文本
数据集描述:ESTC数据集是在STC数据集的基础上,使用一个训练好的文本情感分类器得到,通过文本情感分类器,自动标注了6类情感标签,常用于中文情感对话生成任务。

EMPATHETICDIALOGUES

发布时间:2019年
论文链接:https://www.aclweb.org/anthology/P19-1534/
数据集链接:https://github.com/facebookresearch/EmpatheticDialogues
数据集语言:英文
数据集模态:文本
数据集描述:EMPATHETICDIALOGUES主要用于共情对话生成,由25000个对话组成,提供了32种情感标签。

ESConv

发布时间:2021年
论文链接:https://arxiv.org/abs/2106.01144
数据集链接:https://github.com/thu-coai/Emotional-Support-Conversation
数据集语言:英文
数据集模态:文本
数据集描述:ESConv包括了1053个对话、31410个语句,提供了7种负向情绪、5个负向情绪问题以及8种情感支持策略。伴随着该数据集诞生的是首次出现的情感支持对话(ESC)任务。

CPED

发布时间:2022年
论文链接:https://arxiv.org/pdf/2205.14727v1.pdf
数据集链接:https://github.com/scutcyr/CPED
数据集语言:中文
数据集模态:视频、音频、文本
数据集描述:该数据集来自论文CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。人类的语言表达是基于对情景的主观识解,而不是客观的真实条件,这意味着说话人的个性和情感经过认知处理后对会话有着重要的影响。为了在会话生成过程中同时考虑个性和情感,CPED由与情感和个性相关的多源知识组成。这些知识包括性别、大五人格特征、13种情绪、19种对话行为和10个场景,包含超过12K段对话,将给中文对话理解与生成领域提供一个更有挑战性的任务。任务设置见https://paperswithcode.com/dataset/cped

待更新

发布时间:
论文链接:
数据集链接:
数据集语言:
数据集模态:
数据集描述:

个性对话数据集

PERSONA-CHAT

发布时间:2018年
论文链接:https://www.aclweb.org/anthology/P18-1205/
数据集链接:https://github.com/facebookresearch/ParlAI/tree/master/projects/personachat
数据集语言:英文
数据集模态:文本
数据集描述:PERSONA-CHAT包括10981个对话以及164356个语句,由1155个人参与对话,每个人指定了至少5句profile句子表示其个性。

PersonalDialog

发布时间:2019年
论文链接:https://arxiv.org/abs/1901.09672
数据集链接:https://github.com/silverriver/PersonalDilaog
Please contact [zhengyinhe1@163.com] for the PersonalDialog dataset
数据集语言:中文
数据集模态:文本
数据集描述:该数据集包括20.83M个对话、56.25M个句子,对于每个说话人,提供了5种个性特征(Age, Gender, Location, Interest, self descriptions)。

CPED

发布时间:2022年
论文链接:https://arxiv.org/pdf/2205.14727v1.pdf
数据集链接:https://github.com/scutcyr/CPED
数据集语言:中文
数据集模态:视频、音频、文本
数据集描述:该数据集来自论文CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。人类的语言表达是基于对情景的主观识解,而不是客观的真实条件,这意味着说话人的个性和情感经过认知处理后对会话有着重要的影响。为了在会话生成过程中同时考虑个性和情感,CPED由与情感和个性相关的多源知识组成。这些知识包括性别、大五人格特征、13种情绪、19种对话行为和10个场景,包含超过12K段对话,将给中文对话理解与生成领域提供一个更有挑战性的任务。任务设置见https://paperswithcode.com/dataset/cped

待更新

发布时间:
论文链接:
数据集链接:
数据集语言:
数据集模态:
数据集描述:

策略控制对话生成

PsyQA

发布时间:2021年
论文链接:https://arxiv.org/abs/2106.01702
数据集链接:https://github.com/thu-coai/PsyQA
数据集语言:中文
数据集模态:文本
数据集描述:一个用于生成心理健康支持长篇咨询文本的中文数据集,该数据集主要收集了壹心理社区的问答数据,标注了6种助人策略,总共包括了22346个问题以及56063个回复。

待更新

发布时间:
论文链接:
数据集链接:
数据集语言:
数据集模态:
数据集描述:

个性情感对话生成

任务描述见:https://paperswithcode.com/task/personalized-and-emotional-conversation

CPED

发布时间:2022年
论文链接:https://arxiv.org/pdf/2205.14727v1.pdf
数据集链接:https://github.com/scutcyr/CPED
数据集语言:中文
数据集模态:视频、音频、文本
数据集描述:该数据集来自论文CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。人类的语言表达是基于对情景的主观识解,而不是客观的真实条件,这意味着说话人的个性和情感经过认知处理后对会话有着重要的影响。为了在会话生成过程中同时考虑个性和情感,CPED由与情感和个性相关的多源知识组成。这些知识包括性别、大五人格特征、13种情绪、19种对话行为和10个场景,包含超过12K段对话,将给中文对话理解与生成领域提供一个更有挑战性的任务。任务设置见https://paperswithcode.com/dataset/cped

有关【对话生成】常见对话生成数据集整理,含下载链接(更新至2022.06.04)的更多相关文章

  1. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

    我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

  2. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  3. ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案? - 2

    在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',

  4. ruby - 如何使用 Ruby aws/s3 Gem 生成安全 URL 以从 s3 下载文件 - 2

    我正在编写一个小脚本来定位aws存储桶中的特定文件,并创建一个临时验证的url以发送给同事。(理想情况下,这将创建类似于在控制台上右键单击存储桶中的文件并复制链接地址的结果)。我研究过回形针,它似乎不符合这个标准,但我可能只是不知道它的全部功能。我尝试了以下方法:defauthenticated_url(file_name,bucket)AWS::S3::S3Object.url_for(file_name,bucket,:secure=>true,:expires=>20*60)end产生这种类型的结果:...-1.amazonaws.com/file_path/file.zip.A

  5. ruby - 安装 Ruby 时遇到问题(无法下载资源 "readline--patch") - 2

    当我尝试安装Ruby时遇到此错误。我试过查看this和this但无济于事➜~brewinstallrubyWarning:YouareusingOSX10.12.Wedonotprovidesupportforthispre-releaseversion.Youmayencounterbuildfailuresorotherbreakages.Pleasecreatepull-requestsinsteadoffilingissues.==>Installingdependenciesforruby:readline,libyaml,makedepend==>Installingrub

  6. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  7. ruby-on-rails - Ruby on Rails - 为文本区域和图片生成列 - 2

    我是Rails的新手,所以请原谅简单的问题。我正在为一家公司创建一个网站。那家公司想在网站上展示它的客户。我想让客户自己管理这个。我正在为“客户”生成一个表格,我想要的三列是:公司名称、公司描述和Logo。对于名称,我使用的是name:string但不确定如何在脚本/生成脚手架终端命令中最好地创建描述列(因为我打算将其设置为文本区域)和图片。我怀疑描述(我想成为一个文本区域)应该仍然是描述:字符串,然后以实际形式进行调整。不确定如何处理图片字段。那么……说来话长:我在脚手架命令中输入什么来生成描述和图片列? 最佳答案 对于“文本”数

  8. ruby-on-rails - 如何生成传递一些自定义参数的 `link_to` URL? - 2

    我正在使用RubyonRails3.0.9,我想生成一个传递一些自定义参数的link_toURL。也就是说,有一个articles_path(www.my_web_site_name.com/articles)我想生成如下内容:link_to'Samplelinktitle',...#HereIshouldimplementthecode#=>'http://www.my_web_site_name.com/articles?param1=value1¶m2=value2&...我如何编写link_to语句“alàRubyonRailsWay”以实现该目的?如果我想通过传递一些

  9. ruby-on-rails - 如何在 Rails 3 中创建自定义脚手架生成器? - 2

    有这些railscast。http://railscasts.com/episodes/218-making-generators-in-rails-3有了这个,你就会知道如何创建样式表和脚手架生成器。http://railscasts.com/episodes/216-generators-in-rails-3通过这个,您可以了解如何添加一些文件来修改脚手架View。我想把两者结合起来。我想创建一个生成器,它也可以创建脚手架View。有点像RyanBates漂亮的生成器或web_app_themegem(https://github.com/pilu/web-app-theme)。我

  10. ruby - 我如何添加二进制数据来遏制 POST - 2

    我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_

随机推荐