草庐IT

Apache Doris 系列: 入门篇-数据导入及查询

张家锋 2023-03-28 原文

数据导入及查询

本文档主要介绍 Doris 的数据导入及数据查询。

数据导入方式

Doris 为了满足不同业务场景的数据接入需求,提供不丰富的数据导入方式,去支持不同的数据源:外部存储(HDFS,对象存储)、本地文件、消息队列(Kafka)及其他外部业务系统数据库(MySQL、Oracle、SQLServer、PostgreSQL等),支持同步和异步的方式将数据接入到 Doris 中。

Doris 数据计入方式及生态系统:

doris数据接入.png

Broker Load

Broker Load 是一种异步的数据导入方式,通过 Broker 进程访问并读取外部数据源(如:HDFS,对象存储(支持S3协议)),然后通过 MySQL 协议,通过 Doris SQL 语句的方式将导入任务提交到 Doris ,然后通过 show load 查看数据导入进度及状态。

这种导入方式可以以支撑数据量达数百 GB 的导入作业。该导入方式支持 Hive 数据源的导入。

支持的数据格式:csv、orc、parquet

因为Doris 表里的数据是有序的,导入方式需要占用 Doris BE 资源进行对数据进行排序,在大数据量的数据导入的时候尽可能避开业务使用高峰,在资源相对空闲的时候进行导入。

Spark Load

Spark load 通过借助于外部的 Spark 计算资源实现对导入数据进行排序,提高 Doris 大数据量的导入性能并且节省 Doris 集群的计算资源。主要用于初次迁移,大数据量导入 Doris 的场景。对于历史海量数据迁移降低 Doris 集群资源使用及负载有很好的效果。

这种方式需要借助于Broker服务,适用于迁移大数据量(TB 级别)的场景。

Spark 支持将 hive 生成的 bitmap 数据直接导入到 Doris。详见 hive-bitmap-udf 文档

支持的数据格式:csv、orc、parquet

Spark load 是一种异步导入方式,用户需要通过 MySQL 协议创建 Spark 类型导入任务,并通过 SHOW LOAD 查看导入结果

Stream Load

Stream Load 是一种同步的数据导入方式。用户通过 HTTP 协议提交请求并携带原始数据(可以是文件,也可以是内存数据)创建导入。主要用于快速将本地文件或数据流中的数据导入到 Doris。导入命令同步返回导入结果。

通过 SHOW STREAM LOAD方式来查看 Stream load 作业情况,默认 BE 是不记录 Stream Load 的记录,如果你要查看需要在 BE 上启用记录,配置参数是:enable_stream_load_record=true ,具体怎么配置请参照 BE 配置项

这种导入方式支持两种格式的数据 CVS 和 JSON 。

Stream load 支持本地文件导入,或者通过程序导入实时数据流中的数据,Spark ConnectorFlink Connector 就是基于这种方式实现的。

Routine Load

Routine load 这种方式是以Kafka为数据源,从Kafka中读取数据并导入到Doris对应的数据表中,用户通过 Mysql 客户端提交 Routine Load数据导入作业,Doris 会在生成一个常驻线程,不间断的从 Kafka 中读取数据并存储在对应Doris表中,并自动维护 Kafka Offset位置。

通过SHOW ROUTINE LOAD来查看Routine load作业情况。

Insert Into

这种导入方式和 MySQL 中的 Insert 语句类似,Apache Doris 提供 INSERT INTO tbl SELECT ...; 的方式从 Doris 的表(或者ODBC方式的外表)中读取数据并导入到另一张表。或者通过 INSERT INTO tbl VALUES(...); 插入单条数据,单条插入方式不建议在生产和测试环境中使用,只是演示使用。

INSERT INTO tbl SELECT …这种方式一般是在Doris内部对数据进行加工处理,生成中间汇总表,或者在Doris内部对数据进行ETL操作使用

这种方式是一种同步的数据导入方式。

数据导入

本例我们以 Stream load 导入当时为例,将文件中的数据导入到我们的之前创建的表(expamle_tbl)中 。

CREATE TABLE IF NOT EXISTS test_doris.example_tbl
(
    `timestamp` DATE NOT NULL COMMENT "['0000-01-01', '9999-12-31']",
    `type` TINYINT NOT NULL COMMENT "[-128, 127]",
    `error_code` INT COMMENT "[-2147483648, 2147483647]",
    `error_msg` VARCHAR(300) COMMENT "[1-65533]",
    `op_id` BIGINT COMMENT "[-9223372036854775808, 9223372036854775807]",
    `op_time` DATETIME COMMENT "['0000-01-01 00:00:00', '9999-12-31 23:59:59']",
    `target` float COMMENT "4 字节",
    `source` double COMMENT "8 字节",
    `lost_cost` decimal(12,2) COMMENT "",
    `remark` string COMMENT "1m size",
    `op_userid` LARGEINT COMMENT "[-2^127 + 1 ~ 2^127 - 1]",
    `plate` SMALLINT COMMENT "[-32768, 32767]",
    `iscompleted` boolean COMMENT "true 或者 false"
)
DUPLICATE KEY(`timestamp`, `type`)
DISTRIBUTED BY HASH(`type`) BUCKETS 1
PROPERTIES (
    "replication_allocation" = "tag.location.default: 1"
);

我们创建一个本地文件 example_tbl.csv ,然后将下面的数据写入到这个 csv 文件中,最后我们通过 curl 命令行将这个文件中的数据导入到刚才我们创建的表里。

2022-9-06,1,101,None found,10000000000001,2022-9-06 12:23:24,1000001,2000001,2023.03,This is test doris import,10001,2,true
2022-9-05,2,102,Server Error,10000000000002,2022-9-05 15:23:24,1000003,2000003,202.03,This is test doris import,10002,3,false

我们通过下面的命令将数据导入到 Doris 表中

curl --location-trusted -u root: -T expamle_tbl.csv -H "column_separator:," -H "label:expamle_tbl_import_test" http://localhost:8030/api/test_doris/example_tbl/_stream_load
  1. 本例中 root 是 Doris 的用户名,默认密码是空,若有密码在root用户名后面的冒号后面跟上密码
  2. IP 地址是 FE 的 IP 地址,这里我们是在 FE 的本机,使用了127.0.0.1
  3. 8030 是 FE 的 http 端口,默认是8030
  4. test_doris 是我们的要导入数据表所在的数据库名称
  5. example_tbl:使我们刚才创建的表,也是我们要导入的数据表的名称

导入完成后会返回下面这样的 JSON 格式的响应数据。

{
    "TxnId": 14031,
    "Label": "expamle_tbl_import_test",
    "TwoPhaseCommit": "false",
    "Status": "Success",
    "Message": "OK",
    "NumberTotalRows": 2,
    "NumberLoadedRows": 2,
    "NumberFilteredRows": 0,
    "NumberUnselectedRows": 0,
    "LoadBytes": 250,
    "LoadTimeMs": 142,
    "BeginTxnTimeMs": 1,
    "StreamLoadPutTimeMs": 17,
    "ReadDataTimeMs": 0,
    "WriteDataTimeMs": 24,
    "CommitAndPublishTimeMs": 96
}
  1. Status:导入任务的状态
  2. NumberTotalRows : 我们要导入的总数据记录数
  3. NumberLoadedRows:导入成功的记录数

查询

下面我们对刚才导入的数据表进行查询

select * from example_tbl;

查询指定字段并进行排序

mysql> select timestamp,error_code,op_id from example_tbl order by error_code desc;
+------------+------------+----------------+
| timestamp  | error_code | op_id          |
+------------+------------+----------------+
| 2022-09-05 |        102 | 10000000000002 |
| 2022-09-06 |        101 | 10000000000001 |
+------------+------------+----------------+
2 rows in set (0.02 sec)

Doris 支持多种 select 用法,包括:Join,子查询,With 子句 等,具体参照 SELECT 手册

函数

Doris 提供了丰富的函数支持,包括:日期函数、数组函数、地理位置函数、字符串函数、聚合函数、Bitmap函数、Bitwise函数、条件函数、JSON函数、Hash函数、数学函数、表函数、窗口函数、加密函数、脱敏函数等,具体可以参照 Doris SQL 手册 -> SQL函数

外部表

Doris 支持多种数据的外部表:ODBC外部表Hudi外部表 , Iceberg外部表 , ElasticSearch外部表 , Hive外部表

其中 ODBC 外部表我们支持: MySQL、PostgreSQL、Oracle、SQLServer。

创建好外部表之后,可以通过查询外部表的方式将外部表的数据接入到 Doris 里,同时还可以和 Doris 里的表进行关联查询分析。

查询分析

Doris 支持多种方式分析查询瓶颈及优化查询性能

一般情况下出现慢查询,我们可以通过调整一个 Fragment 实例的并行数量 set parallel_fragment_exec_instance_num = 8; 来设置查询并行度,从而提高 CPU 资源利用率和查询效率。详细的参数介绍及设置,参考 查询并行度

我们也可以通过分析 Doris SQL 执行计划和 Profile 来定位分析

查看执行计划

explain select timestamp,error_code,op_id from example_tbl order by error_code desc;

查看 Profile

首先我们需要开启Profile

set enable_profile = true;

然后执行 SQL,我们就可以看到这个 SQL 的 Profile

我们可以通过 Doris 提供的 WEBUI 来进行查看,我们在浏览器里输入FE的地址,登录后就可以看到

http://FE_IP:8030

更详细讲解请参照 查询分析

有关Apache Doris 系列: 入门篇-数据导入及查询的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby - ECONNRESET (Whois::ConnectionError) - 尝试在 Ruby 中查询 Whois 时出错 - 2

    我正在用Ruby编写一个简单的程序来检查域列表是否被占用。基本上它循环遍历列表,并使用以下函数进行检查。require'rubygems'require'whois'defcheck_domain(domain)c=Whois::Client.newc.query("google.com").available?end程序不断出错(即使我在google.com中进行硬编码),并打印以下消息。鉴于该程序非常简单,我已经没有什么想法了-有什么建议吗?/Library/Ruby/Gems/1.8/gems/whois-2.0.2/lib/whois/server/adapters/base.

  3. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  4. ruby-on-rails - 使用一系列等级计算字母等级 - 2

    这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间,其中100是最大分数。计算平均分并将字母等级作为字符串返回,即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join,

  5. ruby-on-rails - 在 Rails 和 ActiveRecord 中查询时忽略某些字段 - 2

    我知道我可以指定某些字段来使用pluck查询数据库。ids=Item.where('due_at但是我想知道,是否有一种方法可以指定我想避免从数据库查询的某些字段。某种反拔?posts=Post.where(published:true).do_not_lookup(:enormous_field) 最佳答案 Model#attribute_names应该返回列/属性数组。您可以排除其中一些并传递给pluck或select方法。像这样:posts=Post.where(published:true).select(Post.attr

  6. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  7. ruby - 检查是否通过 require 执行或导入了 Ruby 程序 - 2

    如何检查Ruby文件是否是通过“require”或“load”导入的,而不是简单地从命令行执行的?例如:foo.rb的内容:puts"Hello"bar.rb的内容require'foo'输出:$./foo.rbHello$./bar.rbHello基本上,我想调用bar.rb以不执行puts调用。 最佳答案 将foo.rb改为:if__FILE__==$0puts"Hello"end检查__FILE__-当前ruby​​文件的名称-与$0-正在运行的脚本的名称。 关于ruby-检查是否

  8. ruby - 我如何添加二进制数据来遏制 POST - 2

    我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_

  9. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  10. 【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2

    在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList​()Obt

随机推荐