文本相似度计算作为NLP的热点研究方向之一,在搜索推荐、智能客服、闲聊等领域得到的广泛的应用。在不同的应用领域,也存在着一定的差异,例如在搜索领域大多是计算query与document的相似度;而在智能客服、聊天领域更注重的是query与query之间的匹配,即短文本之间的相似度计算。不同的文本长度,相似度的计算方案也存在差异,长文本匹配更多注重文本的关键词或者主题的匹配,业界使用的较多的算法如:TF-IDF、LSA、LDA;而短文本匹配更多的是句子整体的语义一致性,业界较为主流的算法有:word2vec、esim、abcnn、bert等深度模型。相比于长文本的相似度计算,短文本的相似度计算存
文本相似度计算作为NLP的热点研究方向之一,在搜索推荐、智能客服、闲聊等领域得到的广泛的应用。在不同的应用领域,也存在着一定的差异,例如在搜索领域大多是计算query与document的相似度;而在智能客服、聊天领域更注重的是query与query之间的匹配,即短文本之间的相似度计算。不同的文本长度,相似度的计算方案也存在差异,长文本匹配更多注重文本的关键词或者主题的匹配,业界使用的较多的算法如:TF-IDF、LSA、LDA;而短文本匹配更多的是句子整体的语义一致性,业界较为主流的算法有:word2vec、esim、abcnn、bert等深度模型。相比于长文本的相似度计算,短文本的相似度计算存
背景介绍实体链指是指对于给定的一个文本(如搜索Query、微博、对话内容、文章、视频、图片的标题等),将其中的实体与给定知识库中对应的实体进行关联。实体链指一般有两种任务设计方式:Pipeline式和端到端式。 任务抽象方式 赛题说明百度飞桨举办的 千言数据集:面向中文短文本的实体链指任务给出了中文短文本、短文本中的mention以及对应位置,需要预测文本中mention对应实体在给定知识库中的id,如果在知识库中没有对应实体即NIL,需要再给出实体类别。训练集数据共7W条,query平均长度22,包含26W个mention,每个mention有6.3个候选实体,被链接到的NIL实体有3W个,
背景介绍实体链指是指对于给定的一个文本(如搜索Query、微博、对话内容、文章、视频、图片的标题等),将其中的实体与给定知识库中对应的实体进行关联。实体链指一般有两种任务设计方式:Pipeline式和端到端式。 任务抽象方式 赛题说明百度飞桨举办的 千言数据集:面向中文短文本的实体链指任务给出了中文短文本、短文本中的mention以及对应位置,需要预测文本中mention对应实体在给定知识库中的id,如果在知识库中没有对应实体即NIL,需要再给出实体类别。训练集数据共7W条,query平均长度22,包含26W个mention,每个mention有6.3个候选实体,被链接到的NIL实体有3W个,