ETL

sql - ETL 管道的数据整合

我目前正计划将一些数据源移动到一个地方进行后验分析。目前我有任何数据源(数据库)，例如:MSSQLMySQLmongodbPostgresCassandra将用于大数据管道中的分析。将任何源迁移到Cassandra集群的最佳方法是什么？最佳答案我强烈建议在此用例中使用NiFi。我可以立即概述的一些好处。内置“处理器”可用于从所有列出的数据源读取数据并写入Cassandra。非常高的吞吐量和低延迟。无需编写大量代码即可快速开发数据采集管道。如果需要，能够在项目后期非常轻松地执行“更改数据捕获”。提供高度并发的模型，开发人员无需担心

sql ETL li section Cassandra mongodb hadoop

python - 如何使用 luigi 将输出写入 orc 格式的分区表？

假设我们有这样的工作:classMRjob(JobTask):defoutput(self):return...defrequires(self):return...defmapper(self,line):#somelineprocessyieldkey,(...information,storedinhashabletype...)defreducer(self,key,values):#somereducelogic...forexamplethisunique=set(values)foreleminunique:yieldkey,elem[0],elem[1]我应该在输出方法

python luigi code section HivePartitionTarget hadoop mapreduce etl

hadoop - SQL 到 MapReduce - 怎么做？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion我在ETL过程中使用了一个复杂的查询(基于SQL)。它太大了，放不下，但通常几个表和一些使用窗口函数和其他“好东西”的BL之间的内部连接很少。我需要将它移植到HadoopMapReduce。只需将FROM案例中的所有表转储为CSV格式并将文件j带到HDFS。然后编写复制SQL中实现的逻辑的MapReduce作业。我想知道:在将SQL移植到MapReduce时，是否有任何我应该注意的最佳实践

MapReduce hadoop section class notice hdfs etl

软件工程期末复习+数据仓库ETL

1.AdventureWorks数据库下载地址和方式下载地址：https://github.com/Microsoft/sql-server-samples/releases下载方式：2.将.bak文件导入SQLServerManagementStudioManagementStudio19首先在安装SSMS在此不赘述：右键单击“数据库”节点，然后选择“还原数据库”，选择设备选择.bak文件：软件工程一、软件工程复习主线软件工程的学习和复习一定要抓住下面三条主线：1.需求分析与设计。如何精确理解用户的需求，将需求转化为可实现的软件设计方案。这方面的知识点涉及到：学习掌握绘制各类图（用例图，数据

软件工程期末 xff xff0c xff0

hadoop - 到 hadoop 还是不到 hadoop

我们有数据(此时未分配)要转换/聚合/透视到wazoo。我在www上看了看，我问的所有答案都指向hadoop可扩展、运行便宜(没有SQL服务器机器和许可证)、快速(如果你有足够的数据)、可编程(不少你拖来拖去的盒子)。我一直遇到一个问题即“如果你有超过10gb的数据，请使用hadoop”现在我们甚至没有1gb的数据(在这个阶段)是否仍然可行。我的另一个选择是SSIS。现在我们确实将SSIS用于我们当前的一些ETL，但我们没有资源，将SQL放在云中只会花费很多，甚至不让我开始考虑可伸缩性成本和配置。谢谢最佳答案您当前的数据量似乎太

hadoop 到 section 的 ssis etl

xml - 可以将 HCatalog 与 XML 一起使用吗？ -- 在 Cloudera VM 上执行 ETL

我正在处理一个大数据类的项目，我已经在本地安装了ClouderaQuickstartVM以在我的数据集上运行一些基本任务并熟悉一些工具。我正在学习一个教程，其中涉及将数据集移动到HDFS，基于数据集文件创建一个HCatalog表，然后在该表上运行Hive和/或Pig命令。问题是我的数据是一个大的XML文件，HCatalog中的标准分隔符选项不适用。有没有办法将XML导入HCatalog？如果不是，在我的XML数据集上使用Hive或Pig的最佳方法是什么？编辑:我的文件来自公共(public)StackOverflow数据集。我正在使用posts.xml文件。它非常大(25GB)，我无法

HCatalog Cloudera gt lt item xml hadoop hive

hadoop - Talend 和 Apache Spark？

我对Talend和ApacheSpark在大数据生态系统中的位置感到困惑，因为ApacheSpark和Talend都可以用于ETL。谁能举个例子解释一下？最佳答案 Talend是一种基于工具的大数据方法，支持所有具有内置组件的大数据应用程序。spark是基于代码的方法，您需要为用例编写代码。关于hadoop-Talend和ApacheSpark？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/q

hadoop Talend section 大数 apache-spark etl data-integration

hadoop - Hbase 上的 phoenix 和 hive ETL

phoenix是否适合ETL和聚合？我正在尝试对我的数据进行一些ETL。现在我正在使用hbase来存储我的数据(我们网站上的足迹)。我需要对这些数据进行一些聚合，例如每个url的页面浏览量......等等。根据我的研究，我知道hive可以用于hbase数据的ETL，加上hql提供了sql语言，这样我们就不需要自己写map-reduce代码了。但是当我尝试使用hive(pyhive)查询hbase时，需要很长时间才能完成。此外，如果我有phoenix在hbase上执行sql，我的hbase上还需要hive吗？现在当我尝试使用一些复杂的sql时，phoenix会超时。而且hive非常非常慢

phoenix hadoop HBase section hive apache-phoenix

apache-spark - 用于 ETL 的 Impala shell 或 Spark？

我最近开始研究Hadoop环境。我需要做一些基本的ETL来填充几个表。目前，我正在使用sqoop将数据导入Hadoop，并使用Impalashell命令编写用于转换的SQL查询。但最近我经常听说Spark。在我的情况下，用Spark而不是Impalashell编写ETL会有什么优势吗？谢谢S 最佳答案过去，许多人使用A)SQL脚本(如Impala)和UNIX脚本，或者使用B)ETL工具进行ETL。但是，问题是1)更大规模imo和2)技术标准化。既然都在用Spark，那为什么不在Spark上做标准化呢？我经历过这个周期，使用Spar

apache-spark apache Spark section li hadoop etl impala

hadoop - 如何在 map/reduce 中执行 ETL

如果我必须将一个文本文件逐行转换为另一个文本文件，我们该如何设计mapper/reducer。我写了一个简单的map/reduce程序，它做了一个小的转换，但要求更详细一些，下面是详细信息:文件的结构通常如下-第一行包含以逗号分隔的列名列表。第二行和其余行针对列指定值在某些行中，尾随列的值可能会丢失，例如:如果有15列，则可能只为前10列指定值。我有大约5个输入文件，我需要将它们转换并聚合到一个文件中。转换特定于5个输入文件中的每一个。如何将文件名等上下文信息传递给映射器/缩减器程序？转换特定于列，那么我如何记住第一行中提到的列，然后关联和转换行中的值？最

何在 hadoop section li 缩减 mapreduce

1 2 345 6 7