Json格式的数据集标签转化为有效的txt格式(data_coco)

鱼仔的猫 2023-05-25 原文

Json格式的数据集标签转化为有效的txt格式(data_coco)

学习前言
分析json格式标签
转化为有效的txt格式
实现效果

学习前言

在参加许多目标检测比赛时，为了能够获得合理的评价结果，官方往往是将已经打好标签的数据集事先划分好训练集与测试集，将训练集和测试集的标签分别存放在json文件。以百度飞桨平台第17届全国大学生智能汽车竞赛百度创意组数据集为例，我们将学习如何将json格式的数据集标签转化为有效的txt文件。

分析json格式标签

了解json文件格式，详细请参考这篇博客：Json文件格式详解
开始分析Json文件之前，先让我们了解一下官方给出的数据集：

其中，eval文件夹有2000张测试集图片，train文件夹有14000张训练集图片。

以测试集为例，train.json中存储的数据类型为字典：有三个键分别为：‘images’, ‘annotations’,‘categories’，详细内容如下：

{‘images’: [{‘file_name’: ‘013856.jpg’, ‘height’: 1080, ‘width’: 1920, ‘id’: 13856}, {‘file_name’: ‘06933.jpg’, ‘height’: 720, ‘width’: 1280, ‘id’: 6933}…{‘file_name’: ‘015349.jpg’, ‘height’: 1080, ‘width’: 1920, ‘id’: 15349}], ‘annotations’: [{‘image_id’: 13856, ‘id’: 0, ‘category_id’: 2, ‘bbox’: [541, 517, 79, 102], ‘area’: 8058, ‘iscrowd’: 0, ‘segmentation’: []},{‘image_id’: 13856, ‘id’: 1, ‘category_id’: 2, ‘bbox’: [827, 514, 54, 88], ‘area’: 4752, ‘iscrowd’: 0, ‘segmentation’: []}… {‘image_id’: 15349, ‘id’: 113950, ‘category_id’: 1, ‘bbox’: [341, 573, 83, 90], ‘area’: 7470, ‘iscrowd’: 0, ‘segmentation’: []}],‘categories’: [{‘id’: 1, ‘name’: ‘Motor Vehicle’}, {‘id’: 2, ‘name’: ‘Non_motorized Vehicle’}, {‘id’: 3, ‘name’: ‘Pedestrian’}, {‘id’: 4, ‘name’: ‘Traffic Light-Red Light’}, {‘id’: 5, ‘name’: ‘Traffic Light-Yellow Light’}, {‘id’: 6, ‘name’: ‘Traffic Light-Green Light’}, {‘id’: 7, ‘name’: ‘Traffic Light-Off’}]

'images’对应的值是一个列表，其中有2000个元素，每一个元素都是一个字典，字典中键的含义分别为：‘file_name’:图像名称及格式；‘height’:图像高度；‘width’:图像宽度；‘id’:图像名称对应的序号。
同理，'annotations’对应的内容如下：‘image_id’:图像名称对应的序号，与’images’中的’id’是同一个值；‘id’:标签的总个数，从1开始计时；‘category_id’: 标签对应的类别编号； ‘bbox’:标注框的像素坐标；‘area’: 标注框的面积；‘iscrowd’:一张图像上是否为单个标注对象；‘segmentation’:表示polygon格式，只要iscrowd=1那么segmentation就是RLE格式。
'categories’对应的内容如下:‘id’:类别编号； ‘name’:类别标签。

转化为有效的txt格式

经过上述分析，我们便可以根据’images’中的’id’创建对应的txt文件；根据’images’中的’id’与’annotations’中的’image_id’的对应关系，将对应的’bbox’和’category_id’写入对应的txt文件中；根据’categories’中的’id’和’name’将标签和标签编号单独写入另一个txt文件中。
实现上述目的的代码如下：

# 处理同一个数据集下多个json文件时，仅运行一次class_txt即可
import json
import os


"存储标签与预测框到txt文件中"
def json_txt(json_path, txt_path):
    "json_path: 需要处理的json文件的路径"
    "txt_path: 将json文件处理后txt文件存放的文件夹名"
    # 生成存放json文件的路径
    if not os.path.exists(txt_path):
        os.mkdir(txt_path)
    # 读取json文件
    with open(json_path, 'r') as f:
        dict = json.load(f)
    # 得到images和annotations信息
    images_value = dict.get("images")  # 得到某个键下对应的值
    annotations_value = dict.get("annotations")  # 得到某个键下对应的值
    # 使用images下的图像名的id创建txt文件
    list=[]  # 将文件名存储在list中
    for i in images_value:
        open(txt_path + str(i.get("id")) + '.txt', 'w')
        list.append(i.get("id"))


    # 将id对应图片的bbox写入txt文件中
    for i in list:
        for j in annotations_value:
            if j.get("image_id") == i:
                # bbox标签归一化处理
                num = sum(j.get('bbox'))
                new_list = [round(m / num, 6) for m in j.get('bbox')]  # 保留六位小数
                with open(txt_path + str(i) + '.txt', 'a') as file1:  # 写入txt文件中
                    print(j.get("category_id"), new_list[0], new_list[1], new_list[2], new_list[3], file=file1)


"将id对应的标签存储在class.txt中"
def class_txt(json_path, class_txt_path):
    "json_path: 需要处理的json文件的路径"
    "txt_path: 将json文件处理后存放所需的txt文件名"
    # 生成存放json文件的路径
    with open(json_path, 'r') as f:
        dict = json.load(f)
    # 得到categories下对应的信息
    categories_value = dict.get("categories")  # 得到某个键下对应的值
    # 将每个类别id与类别写入txt文件中
    with open(class_txt_path, 'a') as file0:
        for i in categories_value:
            print(i.get("id"), i.get('name'), file=file0)


json_txt("train.json", "train_annotations/")
# class_txt("eval.json", "id_categories.txt")

需要注意的是：由于在eval.json和train.json中都有’categories’，且内容相同，故在生成标签和标签编号txt文件时，运行一次class_txt()函数即可。

实现效果

生成的文件：

有效的txt文件：

化为 data_coco span class token python 神经网络数据挖掘

有关Json格式的数据集标签转化为有效的txt格式(data_coco)的更多相关文章

ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby-on-rails - Rails HTML 请求渲染 JSON - 2
在我的Controller中，我通过以下方式在我的index方法中支持HTML和JSON:respond_todo|format|format.htmlformat.json{renderjson:@user}end在浏览器中拉起它时，它会自然地以HTML呈现。但是，当我对/user资源进行内容类型为application/json的curl调用时(因为它是索引方法)，我仍然将HTML作为响应。如何获取JSON作为响应？我还需要说明什么？最佳答案您应该将.json附加到请求的url，提供的格式在routes.rb的路径中定义。这
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby-on-rails - 将 Ruby 中的日期/时间格式化为 YYYY-MM-DD HH :MM:SS - 2
这个问题在这里已经有了答案:Railsformattingdate(4个答案)关闭4年前。我想格式化Time.Now函数以显示YYYY-MM-DDHH:MM:SS而不是:“2018-03-0909:47:19+0000”该函数需要放在时间中.现在功能。require‘roo’require‘roo-xls’require‘byebug’file_name=ARGV.first||“Template.xlsx”excel_file=Roo::Spreadsheet.open(“./#{file_name}“,extension::xlsx)xml=Nokogiri::XML::Build
ruby-on-rails - 更好的替代方法 try( :output). try( :data). try( :name)? - 2
“输出”是一个序列化的OpenStruct。定义标题try(:output).try(:data).try(:title)结束什么会更好？:) 最佳答案或者只是这样:deftitleoutput.data.titlerescuenilend 关于ruby-on-rails-更好的替代方法try(:output).try(:data).try(:name)?，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.c
ruby - 我可以将我的 README.textile 以正确的格式放入我的 RDoc 中吗？ - 2
我喜欢使用Textile或Markdown为我的项目编写自述文件，但是当我生成RDoc时，自述文件被解释为RDoc并且看起来非常糟糕。有没有办法让RDoc通过RedCloth或BlueCloth而不是它自己的格式化程序运行文件？它可以配置为自动检测文件后缀的格式吗？(例如README.textile通过RedCloth运行，但README.mdown通过BlueCloth运行) 最佳答案使用YARD直接代替RDoc将允许您包含Textile或Markdown文件，只要它们的文件后缀是合理的。我经常使用类似于以下Rake任务的东西:
ruby - 是否有用于序列化和反序列化各种格式的对象层次结构的模式？ - 2
给定一个复杂的对象层次结构，幸运的是它不包含循环引用，我如何实现支持各种格式的序列化？我不是来讨论实际实现的。相反，我正在寻找可能会派上用场的设计模式提示。更准确地说:我正在使用Ruby，我想解析XML和JSON数据以构建复杂的对象层次结构。此外，应该可以将该层次结构序列化为JSON、XML和可能的HTML。我可以为此使用Builder模式吗？在任何提到的情况下，我都有某种结构化数据-无论是在内存中还是文本中-我想用它来构建其他东西。我认为将序列化逻辑与实际业务逻辑分开会很好，这样我以后就可以轻松支持多种XML格式。最佳答案我最
ruby-on-rails - 如何使用 Rack 接收 JSON 对象 - 2
我有一个非常简单的RubyRack服务器，例如:app=Proc.newdo|env|req=Rack::Request.new(env).paramspreq.inspect[200,{'Content-Type'=>'text/plain'},['Somebody']]endRack::Handler::Thin.run(app,:Port=>4001,:threaded=>true)每当我使用JSON对象向服务器发送POSTHTTP请求时:{"session":{"accountId":String,"callId":String,"from":Object,"headers":
ruby-on-rails - 事件管理员日期过滤器日期格式自定义 - 2
是否有简单的方法来更改默认ISO格式(yyyy-mm-dd)的ActiveAdmin日期过滤器显示格式？最佳答案您可以像这样为日期选择器提供额外的选项，而不是覆盖js:=f.input:my_date,as::datepicker,datepicker_options:{dateFormat:"mm/dd/yy"} 关于ruby-on-rails-事件管理员日期过滤器日期格式自定义，我们在StackOverflow上找到一个类似的问题： https://s

Json格式的数据集标签转化为有效的txt格式(data_coco)

Json格式的数据集标签转化为有效的txt格式(data_coco)

有关Json格式的数据集标签转化为有效的txt格式(data_coco)的更多相关文章

随机推荐