草庐IT

知识图谱之知识抽取

jinhao_2008 2023-05-16 原文

1、知识抽取概述

知识抽取是知识图谱构建的核心技术之一,是实现自动化构建大规模知识图谱的重要技术。其目的主要从不同来源、不同结构的数据中进行知识提取并存入知识图谱中。

 

2、知识抽取任务

知识抽取任务主要包括以下三个关键子任务:实体抽取、关系抽取和事件抽取。

知识抽取数据源可以是结构化数据、半结构化数据或者非结构化数据。面向不同类型的数据源、知识抽取涉及的关键技术和需要解决的技术难点有所不同。

知识抽取主要包含序列标注任务和结构化知识生成任务两种。下面主要介绍结构化知识生成。

2.1 半结构化知识抽取

百科知识抽取详情请参看

知识图谱构建概述_jinhao_2008的博客-CSDN博客中典型的知识体系章节

2.2 非结构化文本知识抽取

        大量的数据以非结构化数据的形式存在,如新闻报道、科技文献和政府文件等,面向文本数据的知识抽取在工业界和学术界一直是广受关注的问题。下面主要对非结构化文本数据的实体抽取、关系抽取和事件抽取。

 a)、实体抽取:又名命名实体识别,从文本中检测出命名实体,并将其分类到预定义的类别中,例如人物、组织、地点、时间等。实体抽取是解决很多自然语言处理问题的基础,也是知识抽取中最基本的任务。想要从文本中进行实体抽取,首先需要从文本中识别和定位实体,然后再将识别的实体分类到预定义的类别中。总体上可以将现有实体抽取方法分为基于规则的方法,基于统计模型的方法和基于深度学习的方法。

方法优缺点对比

方法优点缺点
规则准确率高,接近人的思考成本昂贵,很难移植到新领域
机器学习方法算法更加健壮和灵活,比较客观,不需要太多人工干预和领域知识依赖人工设计特征
深度学习方法算法更加健壮和灵活,比较客观,不需要太多人工干预和领域知识需要人工标注数据,数据稀疏问题比较严重
生成式方法时序解码,效率低

基于统计的机器学习实体识别的基本步骤

基于深度学习的实体识别方法基本步骤

b)、关系抽取

关系定义:两个或多个实体之间的某种关系

关系抽取定义:自动识别实体之间具有的某种语义关系 。从文本中抽取实体及实体之间的关系。

关系抽取和实体抽取密切相关,一般是在识别出文本的实体后,再抽取实体之间可能存在的关系。当前,关系抽取方法可以分为基于模板的方法、基于监督学习的方法和基于弱监督学习的方法。

 

关系分类:主要分为语义关系和句法关系

语义关系:是指隐藏在句法结构后面由语义范畴建立起来的关系

句法关系:位置关系、替换关系、同现关系

关系抽取相关术语和概念

中文术语英文术语描述
句子级关系抽取从一个句子中判别两个实体间是何种语义关系
篇章级关系抽取该任务旨在判别两个实体直接按是否具有某种语义关系,而不必限定两个目标实体所出现的上下文
限定域关系抽取在一个或多个限定的领域内对实体间的语义关系进行抽取,通常,由于限定域,语义关系也是预设好的有限个类别
开放域关系抽取与限定域关系抽取不同,开放域抽取并不限定关系的类别,依据模型对于自然语言句子理解的结果从开放式抽取十一关系三元组

关系抽取方法

优缺点

方法优点缺点
规则

1、人工规则的准确率高

2、可以为特定领域制定

3、在小规模数据集上容易实现,构建简单

1、召回率低,

2、特定领域的模板需要专家构建,要考虑周全所有可能的pattern很难,很费时间和精力

3、需要为每条关系定义pattern

4、难以维护

基于深度学习方法

 c)、事件抽取

          事件定义:事件是指发生的事情,通常具体时间、地点、参与者等属性。事件的发生可能是因为一个动作的产生或者系统状态的改变。

        事件抽取是指从文本中抽取用户感兴趣的事件信息,并以结构化的形式呈现。例如,从恐怖袭击事件的新闻报道中识别袭击发生的地点、时间、袭击目标和受害人等信息。

        事件抽取相关术语

中文英文描述
事件描述Event Memtion描述事件的句子
事件触发词Event Trigger标记事件类型的词汇
事件要素Event Argument事件的参与者
事件角色Event Role元素在事件句中扮演的角色
事件发现Event Detection事件抽取子任务之一
事件元素抽取Event Agrument  Extraction事件抽取子任务之一
事件触发词检测Event Trigger Detection属于事件发现任务中的一个子任务
事件触发词分类Event Trigger Typing属于事件发现任务中的一个子任务
事件元素识别Event Agrument Identification属于事件元素抽取中的一个子任务
事件元素角色识别Event Agrument Role Identification属于事件元素抽取中的一个子任务

        事件抽取任务包含的子任务如下有五类

 参考文献

【1】知识图谱(三)--知识抽取 - 知乎

【2】知识图谱构建概述_jinhao_2008的博客-CSDN博客

【3】第四章 知识抽取 - 知乎

有关知识图谱之知识抽取的更多相关文章

  1. ruby - 我怎样才能更好地了解/了解更多关于 Ruby 的知识? - 2

    按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭9年前。我最近开始学习Ruby,这是我的第一门编程语言。我对语法感到满意,并且我已经完成了许多只教授相同基础知识的教程。我已经写了一些小程序(包括我自己的数组排序方法,在有人告诉我谷歌“冒泡排序”之前我认为它非常聪明),但我觉得我需要尝试更大更难的东西来理解更多关于Ruby.关于如何执行此操作的任何想法?

  2. ruby - Ruby基础知识 - 2

    Asitcurrentlystands,thisquestionisnotagoodfitforourQ&Aformat.Weexpectanswerstobesupportedbyfacts,references,orexpertise,butthisquestionwilllikelysolicitdebate,arguments,polling,orextendeddiscussion.Ifyoufeelthatthisquestioncanbeimprovedandpossiblyreopened,visitthehelpcenter提供指导。已关闭8年。什么是学习ruby语言

  3. ruby-on-rails - 抽取 Assets :precompile gets killed when there is a console session open in production - 2

    在我托管在digitalocean上的生产服务器上,如果有帮助的话,Ubuntu12.04,我有RoR4和rake10.1.1。当我部署时,我运行rakeassets:precompile,我注意到一个奇怪的问题,如果我在执行此操作时打开了一个railsconsolesession,我得到以下输出~#rakeassets:precompile~#Killed主要是很烦人,但我希望解决这个问题的原因是在雇用新开发人员时,会有部署/控制台冲突噩梦。谢谢,布莱恩 最佳答案 您的预编译进程可能被终止,因为您的内存不足。您可以通过在另一个ss

  4. ruby - 我应该具备哪些 Ruby 知识? - 2

    按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭9年前。我刚刚发现了whatc#knowledgeshouldIhave?问题和想知道的相同,但对于Ruby。我认为Ruby是我最喜欢的编程语言,除了学习基础知识外,至少我从众多RubyonRails项目和一些Ruby脚本中学到的东西,我还尝试通过阅读像Gluttonous这样的博客来学习。,O'ReillyRuby,OlaBini,和PolishingRuby.

  5. Unity基础知识之顶点吸附、创建组合体 - 2

    Unity基础知识之顶点吸附、创建组合体一、顶点吸附顶点吸附:选择物体后按住键盘上的V键,鼠标定点定位,再拖拽到目标物体对齐即可。注:操作成功后先松V键。1、两个平面Plane的顶点吸附2、两个物体cube的顶点吸附二、创建组合体(子弹)组合体子弹由2个capsule(胶囊)、1个cylinder(圆柱体)组成,如图先创建这3个对象。再将其中一个capsule按照一定比例缩小,将三个对象按照一定位置放置好。创建一个GameObject,将三个对象放在该GameObject里,这样就是父子结构。为创建的组合体即子弹可以添加材质Material:在assets目录下新建Material,选择颜色后

  6. 【操作系统】十分钟了解关于TCP/IP网络的基础知识(二)ARP、路由器、DHCP、DNS以及TCP/IP - 2

    承接上篇文章(十分钟了解关于TCP/IP网络的基础知识)五.ARP(地址解析协议)        虽说使用IP地址确实方便了我们使用者记忆以及整理归类、寻找信息的发送目的地,但是最终接收数据的地方,还是MAC地址,于是乎,为了实现有IP地址到MAC地址的转换,引入了名为ARP(AddressResolutionProtocol)又称之为地址解析协议。      ARP通过广播(Broadcast,这是个专业名词,后面还会继续提起)的方式对LAN中所有的计算机提问:“哎,谁IP地址是10.165.7.116(上篇文章中的例子)呀?你MAC地址多少啊,快过来登记一下!”,如果有哪台计算机回复了MA

  7. javascript - 我应该如何开始学习 JavaScript、jQuery 等?我的编程知识为零 - 2

    关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion我是设计出身。我的编程知识是零。在学习了XHTML和CSS之后,我想学习并掌握JavaScript、jQuery等。我应该如何开始?这将是我第一次尝试编程。我可以使用和编辑现成可用的jQuery/JavaScript脚本,但我不能自己制

  8. 《统计学》第八版贾俊平第六章统计量及抽样分布知识点总结及课后习题答案 - 2

    一、知识框架二、练习题调节一个装瓶机使其对每个瓶子的灌装量均值为μ盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差σ=1.0盎司的正态分布。随机抽取这台机器灌装的9个瓶子组成一个样本,并测定每个瓶子的灌装量。试确定样本均值偏离总体均值不超过0.3盎司的概率。解:设每个瓶子的灌装量为X,X为样本均值,样本容量为n。由于总体X服从正态分布,样本均值X也服从正态分布,且均值相同,标准差为所以三、简述题1什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数?答:(1)统计量的定义:设X1,X2,…,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…,X

  9. Unity游戏开发前置知识 - 2

    本文适合有一定C#基础的初学者。设计模式含义:帮助我们降低对象之间的耦合度常用的方法称为设计模式。使用设计模式是为了可重用代码,让代码更容易被其他人所理解,保证代码可靠性,使代码编制真正工程化,这是软件工程的基石。分类:创建型模式:工厂方法模式、抽象工厂模式、单例模式、建造者模式、组合模式、原型模式。结构型模式:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。单例模式含义:一个类只有一个实例,只在内部实例一次,外部无法实例化,全局

  10. 高等数学重积分知识点笔记小结 - 2

    一:二重积分1:二重积分的概念与性质:(1)首先知道什么叫曲顶柱体。(这里不多讲,不会百度)。(2)定义:设f(x,y)是有界闭区域D上的有界函数,将闭区域D任意分成n个小闭区域oi,在每个小区域上取一点f(ai,bi),做乘积f(ai,bi)oi,并作和。如果当各个闭区域的直径中的最大值max趋近于0时,这和的极限总存在,且与闭区域D的分法及点f(ai,bi)无关,那么称此极限为函数f(x,y)在闭区域D上的二重积分。 (3)二重积分的六条重要性质:性质一:设a和b为常数,则*******性质二:如果闭区间D被有限条曲线分为有限个部分闭区间,那么在D上的二重积分等于在各部分闭区间上的二重积分

随机推荐