草庐IT

FlatGeobuf 编码格式(fgb) —— 或许是 shp 格式的替代品

岭南灯火 2023-03-28 原文

FlatGeobuf

一种为地理图形数据进行二进制编码的格式,基于 flatbuffers,它能容纳 OGC 发布的 Simple Features(简单要素)规范下的数据。

本编码格式受到 geobufflatbush 的启发。为了简单起见,此编码特地不支持随机写入。此编码格式使用希尔伯特R树(Hilbert R-Tree)作为数据结构,所以其使用范围框(Bounding Box)来进行空间检索的速度是非常快的。对于此编码格式来说,空间索引不是必须的,以便数据能以文件流的形式高效率地写入,以及适配不需要空间过滤(即空间检索)的情况。

设计目标:大数据量的静态数据要比传统格式快,且对于数据量、内容上没有大小的限制,并且适合流式或随机访问。

网站 switchfromshapefile.org 介绍了传统格式(尤其是 shapefile)的更多比对信息,且提供了一些替代方案,同时也提供了替代方案的存在缺点(例如,不适合流式传播)。

FlatGeobuf 是开源的,使用 BSD 2-Clause License 协议。

译者注

所谓流式传输,即可以一边通过 HTTP 传输数据,一边解析并可视化,而不必等待一个 fgb 文件全部请求到前端再做绘制,网络传过来多少数据,前端就画多少,极大提升单文件显示的体验。

例子(可能要魔法上网)

规格

  • MB:魔法字符,指示此文件用,即 0x6667620366676200
  • H:头部信息
  • I:(可选)被打包的静态希尔伯特R树 索引数据。
  • DATA:要素数据

在 fgb 文件中,任何 64 位 flatbuffer 数据值(例如坐标数据)必须进行 8字节对齐,以便直接进行内存访问。

任何字符串值假定其编码为 UTF-8。

性能

从 OSM 上下载的一份 shapefile 文件,约 90 万条线要素,选取五种格式的各方面性能比对如下表:

Shapefile GeoPackage FlatGeobuf GeoJSON GML
读取完整数据 100% 102% 46% 1500% 890%
使用空间索引读取 100% 94% 71% 70500% 39900%
写入完整数据 100% 77% 39% 390% 320%
带空间索引写入 100% 158% 65% - -
文件大小 100% 72% 77% 120% 210%

此测试使用 GDAL 的 FlatGeobuf 驱动,设置读取参数为 ogrinfo -qq -oo VERIFY_BUFFERS=NO 进行循环重复读取数据。对于文件写入的测试中,使用 ogr2ogr 以及分别使用参数 -lco SPATIAL_INDEX=NO-lco SPATIAL_INDEX=YES 将原始数据转换成新文件。

在空间索引的测试项中,只选取了一个比较小的范围框,它范围内仅有 1204 个要素,仅仅是为了测试空间索引的性能。

使用一份由 251万多个多边形的数据来进行性能测试,结果如下表:

Shapefile GeoPackage FlatGeobuf
读取完整数据 100% 23% 12%
使用空间索引读取 100% 31% 26%
写入完整数据 100% 95% 63%
以空间索引写入 100% 107% 70%
文件大小 100% 77% 95%

特性

程序/库支持

  • Fiona(1.8.18 以上)
  • GDAL(3.1 及以上)
  • Geo Data Viewer(VSCode 插件)(2.3 及以上)
  • GeoServer(2.17及以上)
  • GeoTools(23.0及以上)
  • QGIS(3.16及以上)

文档

TypeScript / JavaScript

API 文档

预打包(适用于浏览器)

NodeJs 用法

查看 示例

TODO

  • Java 索引支持
  • C 语言支持
  • Go 语言支持

问答

为什么不用 WKB 几何编码?

它不是 8字节对齐的编码。所以,它没有复制完整的文件之前,最好不要用它。

为什么不用 Protobuf?

性能和随机读、流式读的原因。

为什么我用 GDAL 没有达到期望的性能表现?

GDAL 的操作,默认假设数据是不可信的,会进行数据验证以确保操作安全性。如果你相信你的数据,想要一个最大的性能表现,请设置参数 VERIFY_BUFFERS 为 NO。

与矢量瓦片比较呢?

FlatGeobuf 与矢量瓦片并无竞争关系。矢量瓦片十分适合渲染,但是它是有损格式,而且在创建成本上比较高。FlatGeobuf 是无损格式,如果不需要空间索引数据,数据的写入(创建)是非常快的。

译者注

优点

  • 单文件
  • 支持R树的空间索引,带索引的数据读取性能高
  • 支持流式传输
  • 无损格式
  • 文件体积相对不大
  • 多编程语言、多软件已支持

缺点

  • 不支持像 GeoPackage 格式一样有扩展能力
  • 几何与属性数据并未分离,若能分离,几何数据可进一步优先传输并极大提高渲染速度
  • 创建文件时若使用空间索引,效率上可能会有所打折(但是也比传统格式快)
  • 文件体积较之于 GeoPackage 格式无明显优势,没有使用信息压缩算法
  • 编码规范文档缺乏

有关FlatGeobuf 编码格式(fgb) —— 或许是 shp 格式的替代品的更多相关文章

  1. ruby - 使用 ruby​​ 将 HTML 转换为纯文本并维护结构/格式 - 2

    我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h

  2. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

    我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

  3. ruby - 用逗号、双引号和编码解析 csv - 2

    我正在使用ruby​​1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\

  4. ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案? - 2

    在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',

  5. ruby-on-rails - 将 Ruby 中的日期/时间格式化为 YYYY-MM-DD HH :MM:SS - 2

    这个问题在这里已经有了答案:Railsformattingdate(4个答案)关闭4年前。我想格式化Time.Now函数以显示YYYY-MM-DDHH:MM:SS而不是:“2018-03-0909:47:19+0000”该函数需要放在时间中.现在功能。require‘roo’require‘roo-xls’require‘byebug’file_name=ARGV.first||“Template.xlsx”excel_file=Roo::Spreadsheet.open(“./#{file_name}“,extension::xlsx)xml=Nokogiri::XML::Build

  6. ruby-on-rails - 更好的替代方法 try( :output). try( :data). try( :name)? - 2

    “输出”是一个序列化的OpenStruct。定义标题try(:output).try(:data).try(:title)结束什么会更好?:) 最佳答案 或者只是这样:deftitleoutput.data.titlerescuenilend 关于ruby-on-rails-更好的替代方法try(:output).try(:data).try(:name)?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.c

  7. ruby - 我可以将我的 README.textile 以正确的格式放入我的 RDoc 中吗? - 2

    我喜欢使用Textile或Markdown为我的项目编写自述文件,但是当我生成RDoc时,自述文件被解释为RDoc并且看起来非常糟糕。有没有办法让RDoc通过RedCloth或BlueCloth而不是它自己的格式化程序运行文件?它可以配置为自动检测文件后缀的格式吗?(例如README.textile通过RedCloth运行,但README.mdown通过BlueCloth运行) 最佳答案 使用YARD直接代替RDoc将允许您包含Textile或Markdown文件,只要它们的文件后缀是合理的。我经常使用类似于以下Rake任务的东西:

  8. C# 到 Ruby sha1 base64 编码 - 2

    我正在尝试在Ruby中复制Convert.ToBase64String()行为。这是我的C#代码:varsha1=newSHA1CryptoServiceProvider();varpasswordBytes=Encoding.UTF8.GetBytes("password");varpasswordHash=sha1.ComputeHash(passwordBytes);returnConvert.ToBase64String(passwordHash);//returns"W6ph5Mm5Pz8GgiULbPgzG37mj9g="当我在Ruby中尝试同样的事情时,我得到了相同sha

  9. ruby - 是否有用于序列化和反序列化各种格式的对象层次结构的模式? - 2

    给定一个复杂的对象层次结构,幸运的是它不包含循环引用,我如何实现支持各种格式的序列化?我不是来讨论实际实现的。相反,我正在寻找可能会派上用场的设计模式提示。更准确地说:我正在使用Ruby,我想解析XML和JSON数据以构建复杂的对象层次结构。此外,应该可以将该层次结构序列化为JSON、XML和可能的HTML。我可以为此使用Builder模式吗?在任何提到的情况下,我都有某种结构化数据-无论是在内存中还是文本中-我想用它来构建其他东西。我认为将序列化逻辑与实际业务逻辑分开会很好,这样我以后就可以轻松支持多种XML格式。 最佳答案 我最

  10. ruby-on-rails - 事件管理员日期过滤器日期格式自定义 - 2

    是否有简单的方法来更改默认ISO格式(yyyy-mm-dd)的ActiveAdmin日期过滤器显示格式? 最佳答案 您可以像这样为日期选择器提供额外的选项,而不是覆盖js:=f.input:my_date,as::datepicker,datepicker_options:{dateFormat:"mm/dd/yy"} 关于ruby-on-rails-事件管理员日期过滤器日期格式自定义,我们在StackOverflow上找到一个类似的问题: https://s

随机推荐