草庐IT

NLP工具——doccano标注系统自动标注功能使用

常鸿宇 2023-04-24 原文

NLP工具——doccano标注系统自动标注功能使用

0. 简介

本文以序列标注为例,介绍doccano标注系统中,自动标注功能的使用。doccano是一个轻量的开源数据标注平台,采用Django实现,其主要优点在于部署和使用十分简便,个人认为比brat要方便很多。并且它支持自动标注和多人协同标注。

官方地址:https://github.com/doccano/doccano

这个工具我最近刚刚上手,实现了基本功能,但是可能也有介绍的不够准确的地方,请指出。

1. doccano安装

doccano的安装十分简单,无论是在windows PC上还是在Linux服务器上,都只需要根据官方的指引按部就班地完成即可。我安装的版本为1.6.2,需要一个python3.7或以上的环境。

pip install doccano==1.6.2

然后在改环境下终端初始化doccano并且创建管理员用户。

doccano init
# 在这里设置管理员的账号密码
doccano createuser --username admin --password pass

然后起一个web服务:

# 这里的端口号可自定义,注意不要与已有端口冲突
doccano webserver --port 8000

然后保持这个终端,再打开一个新的终端,进入之前下载doccano的python环境,启动:

doccano task

如果是在windows PC上起的服务,则可以通过本机ip访问:
http://127.0.0.1:8000/
局域网下其他计算机可以通过访问创建服务的本机ip+port(8000)进入到该页面。

如果是在服务器上,则可以通过服务器地址访问,例如,服务器地址为111.222.33.44,则访问
http://111.222.33.44:8000/即可。后面会用111.222.33.44来举例子。

进入到以下界面,点击右上角登录,输入之前创建的管理员用户账号密码,即可登录到系统中。

2. 创建标注任务

这一部分不做详细的介绍,基本上跟着系统提示的点点点就可以实现,如果有不清楚的地方,也可以参考其他人写的博客。
在这里我们创建一个序列标注任务:

然后需要设置标签,导入数据集。

3. 写一个命名实体识别的接口

在这里以百度的UIE为例,因为UIE可以自定义label做zero-shot,并且提供了数据格式转换和finetune的脚本,对整个流程形成闭环比较方便。

利用UIE进行标注,首先我们需要一个UIE的环境,需要paddlepaddle,以及写接口的工具,在这里我用的是flask,如果你想用fastapi或者其他框架,也都是可以的。

pip install paddlepaddle==2.3.1
pip install paddlenlp==2.3.4
pip install flask

在服务所在的设备上创建一个api.py,然后写识别的接口。

from flask import Flask, request, jsonify
from paddlenlp import Taskflow


app = Flask(__name__)

# 在这里定义你想要识别的实体类型
# UIE具有zero-shot能力,所以类型可以随便定义,但是识别的好坏不一定
schema = ['时间', '地点', '国家', '人物']

# 第一运行时,联网状态下会自动下载模型
# device_id为gpu id,如果写-1则使用cpu
ie = Taskflow('information_extraction', schema=schema, device_id=-1)


def convert(result):
    result = result[0]
    formatted_result = []
    for label, ents in result.items():
        for ent in ents:
            formatted_result.append(
                {
                    "label": label,
                    "start_offset": ent['start'],
                    "end_offset": ent['end']
                })

    return formatted_result


@app.route('/', methods=['POST'])
def get_result():
    text = request.json['text']
    print(text)
    result = ie(text)
    formatted_result = convert(result)

    return jsonify(formatted_result)


if __name__ == '__main__':
	# 这里写端口的时候一定要注意不要与已有的端口冲突
	# 这里的host并不是说访问的时候一定要写0.0.0.0,但是这里代码要写0.0.0.0,代表可以被本网络中所有的看到
	# 如果是其他机器访问你创建的服务,访问的时候要写你的ip
    app.run(host='0.0.0.0', port=5739)  

然后我们运行它:

python api.py

看到如下信息,说明接口成功

[2022-07-11 10:04:51,619] [    INFO] - We are using <class 'paddlenlp.transformers.ernie.tokenizer.ErnieTokenizer'> to load 'C:\Users\Administrator\.paddlenlp\taskflow\information_extraction\uie-base'.
e[37m---    fused 0 elementwise_add with relu activatione[0m
e[37m---    fused 0 elementwise_add with tanh activatione[0m
e[37m---    fused 0 elementwise_add with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_add with swish activatione[0m
e[37m---    fused 0 elementwise_add with hardswish activatione[0m
e[37m---    fused 0 elementwise_add with sqrt activatione[0m
e[37m---    fused 0 elementwise_add with abs activatione[0m
e[37m---    fused 0 elementwise_add with clip activatione[0m
e[37m---    fused 0 elementwise_add with gelu activatione[0m
e[37m---    fused 0 elementwise_add with relu6 activatione[0m
e[37m---    fused 0 elementwise_add with sigmoid activatione[0m
e[37m---    fused 0 elementwise_sub with relu activatione[0m
e[37m---    fused 0 elementwise_sub with tanh activatione[0m
e[37m---    fused 0 elementwise_sub with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_sub with swish activatione[0m
e[37m---    fused 0 elementwise_sub with hardswish activatione[0m
e[37m---    fused 0 elementwise_sub with sqrt activatione[0m
e[37m---    fused 0 elementwise_sub with abs activatione[0m
e[37m---    fused 0 elementwise_sub with clip activatione[0m
e[37m---    fused 0 elementwise_sub with gelu activatione[0m
e[37m---    fused 0 elementwise_sub with relu6 activatione[0m
e[37m---    fused 0 elementwise_sub with sigmoid activatione[0m
e[37m---    fused 0 elementwise_mul with relu activatione[0m
e[37m---    fused 0 elementwise_mul with tanh activatione[0m
e[37m---    fused 0 elementwise_mul with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_mul with swish activatione[0m
e[37m---    fused 0 elementwise_mul with hardswish activatione[0m
e[37m---    fused 0 elementwise_mul with sqrt activatione[0m
e[37m---    fused 0 elementwise_mul with abs activatione[0m
e[37m---    fused 0 elementwise_mul with clip activatione[0m
e[37m---    fused 0 elementwise_mul with gelu activatione[0m
e[37m---    fused 0 elementwise_mul with relu6 activatione[0m
e[37m---    fused 0 elementwise_mul with sigmoid activatione[0m
 * Running on all addresses.
   WARNING: This is a development server. Do not use it in a production deployment.
 * Running on http://xxx.xxx.xxx.xx:xxxx/ (Press CTRL+C to quit)
 * Serving Flask app 'app' (lazy loading)
 * Environment: production
   WARNING: This is a development server. Do not use it in a production deployment.
   Use a production WSGI server instead.
 * Debug mode: off

要确保接口没有问题,可以在postman测试,发POST请求,body中只有一个text字段。

这一步的操作在PC或者服务器上没有区别。

4. 添加自动标注功能

现在我们有了doccano标注平台,以及一个自动标注的接口,接下来要做的就是把它们两个放在一起。
我们进入标注系统,用管理员账号登录,点击左下角的Settings,然后选择Auto Labeling,然后会弹出下面的窗口,我们选择Custom REST Request

点击Next,填写自动标注服务所在的地址,就是你的ip+端口,比如你的PC或者服务器的ip是
111.222.33.44,在上面第3步中py里边的port写的是1234,则应该填写如下:

然后ParamsHeaders中都空着,Body填写如下:

注意,这里的value中,text和括号之间有两个空格,我一开始因为没看到空格,在这里卡住好久(参考连接:https://github.com/doccano/doccano/issues/1417
这里写完之后可以输入一句话来测试你的接口,比如我们输入一句话“小明昨天去了北京”,点击Test,如果得到了图中的结果,说明接口运行正常,否则需要去前面的环节找问题。

进入Next,在图中所示位置加入这样一段代码:

代码如下:

[
    {% for entity in input %}
        {
            "start_offset": {{ entity.start_offset }},
            "end_offset": {{ entity.end_offset}},
            "label": "{{ entity.label }}"
        }{% if not loop.last %},{% endif %}
    {% endfor %}
]

最后一步,需要建立从接口到标注平台的标签映射,这一步的作用是把你的接口识别出来的实体类型,映射到第2步中创建的标注平台的label,例如在api中定义了时间,在平台创建label的时候定义的label名称是时间日期,那么就需要建立他们之间的一个映射,把所有的映射建立起来就可以了:

最后Test->Finish,大功告成。

接下来,在标注的界面中,就可以通过打开魔法棒,来实现自动标注的功能:

通过测试我发现,第一篇文章进入的时候,并不会触发自动标注,自动标注的动作在你点击上一篇或者下一篇的按钮时触发(也有可能是我的操作有问题),所以第一篇文章如果要获取标注结果,需要先点击到第二篇,然后再回到第一篇。

此外,尽量使用GPU进行自动标注,UIE只占2G多显存,要求已经很低了。如果是cpu的话,连续的触发自动标注很容易造成任务阻塞。

至此,自动标注就大功告成了。

5. 增加标注员用户

我们需要进入Django的管理界面,地址是你的ip+标注服务的端口+admin/,例如
111.222.33.44:1234/admin/
进入界面之后,在users点击add,即可添加标注员用户:

然后回到标注系统的项目中,在成员中即可添加新的标注成员。

6. 数据导出

doccano的数据导出存在问题,可以参考这个项目进行数据导出:
https://github.com/taishan1994/doccano_export
下载这个项目到本地或你的服务器(起标注服务的设备),然后打开doccano_export.py,
修改为正确的db.sqlite3地址:

conn = sqlite3.connect(r'C:\Users\Administrator\doccano\db.sqlite3')

这个地址需要自己去找,在windows中一般是默认的地址,Linux服务器上可能是以下地址:

conn = sqlite3.connect('/root/doccano/db.sqlite3')

然后python运行它,就可以正确的导出了。

以上就是本篇全部内容了,如果有任何疑问可以在下方留言或直接联系我。最近半年一直在做产品的事情,相关技术不方便开源,所以有一阵子没有更新了,接下来还是尽量跟进一些新鲜的技术分享给大家,你的点赞就是我更新的动力,我们下期再见。

有关NLP工具——doccano标注系统自动标注功能使用的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

    我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

  3. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  4. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  5. ruby - 在 Ruby 中使用匿名模块 - 2

    假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外,还有什么方法可以访问C和m中的其他内容?我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)?如何在使用完匿名模块后将其删除,使其定义的常量不再存在? 最佳答案 三个答案:是的,使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于

  6. ruby - 使用 ruby​​ 和 savon 的 SOAP 服务 - 2

    我正在尝试使用ruby​​和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我

  7. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  8. ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2

    我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t

  9. ruby - 使用 ruby​​ 将 HTML 转换为纯文本并维护结构/格式 - 2

    我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h

  10. ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2

    我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库,所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po

随机推荐