如果这个问题看起来很幼稚,我很抱歉,但我是数据工程领域的新手,因为我现在是自学者,但我的问题是Pentaho和Hadoop等ETL产品之间有什么区别?当我用这个而不是那个?或者我可以一起使用它们,怎么样?谢谢, 最佳答案 ETL是一种提取数据、转换(连接、丰富、过滤...)数据并将结果加载到另一个数据存储中的工具。好的ETLS是可视化的,与数据存储无关并且易于自动化。Hadoop是一种分布在集群网络上的数据存储以及用于处理分散数据的软件。数据转换专门用于少数基本操作,这些操作可以针对这种通常大量的数据进行优化,例如(但不仅限于)Ma
我已经创建了一个使用PentaHo的ETL流程,该过程从数据库中的表中选择数据并将其加载到另一个数据库中。我必须提出的主要问题是,对于1.500.000行,需要6个小时。完整表为15.000.000,我必须加载5个表。谁能解释应该如何用五角星加载大量数据?谢谢你。看答案我从来没有使用PentahoPDI的数量问题。按顺序检查以下内容。您能检查问题真的来自Pentaho吗?原则上,PDI旨在用一个SELECT*FROM...WHERE...并在转换中完成其余的工作。我在这里有一组转换,因为它们进行了复杂的查询,因此需要几个小时才能执行。问题不是由于PDI,而是由于查询的复杂性。解决方案是通过(选
我在PDICE7.0上运行Spoon,并试图首次设置我的数据库存储库。我能够使用SQLServer作为数据库存储库,但是我想知道是否可以将RedShiftServer用作数据库存储库。当我测试数据库连接时,运行良好。但是,当我尝试连接到存储库时,我会收到一条错误消息,说“您似乎没有与服务器连接。请检查所使用的路径,并确保服务器启动并运行并运行””((单击查看错误消息)我已经尝试更改JDBC驱动程序。我已经使用PostgreSQL驱动程序9.3和8.4进行了测试,还与Amazon的Redshift驱动程序进行了测试。有了所有这些选项,我收到了相同的消息。是否可以将红移作为我的数据库存储库?这是我
如何在筛选MongodbINPUT时传递当前日期?当前日期为Pentaho系统日期在mongodb输入中查询{created_at:{$gte:{$date:"2014-12-31T00:00:00.000Z"}}}而不是2014-12-31T00:00:00.000Z->今天的日期格式相同2014-12-31T00:00:00.000Z在一个变量中$今天-日期我需要通过变量将值替换为今天的日期如下所示:{created_at:{$gte:{$date:"$TODAY-DATE"}}} 最佳答案 我建议尝试以下方法:在调用转换的作业
我在JSON输入中选择节点,但找不到一种方法来为我正在查询的每个数组条目包含父对象详细信息。我正在使用pentaho数据集成,使用来自mongodb输入的JSON输入来查询数据。我也曾尝试创建一个mongodb查询来实现相同的目的,但似乎也无法做到这一点。下面是显示数据的两个字段/路径:$.size_break_costs[*].size$.size_break_costs[*].数量这里是json源码格式:{"_id":ObjectId("4f1f74ecde074f383a00000f"),"colour":"RAVEN-SMOKE","name":"Authority","siz
我正在使用PentahoKettle将Oracle数据库移动到Mongo数据库。我已经成功地完成了几乎所有我想做的事情,但我还有最后一个问题。在oracle数据库中,他们有一个字段有两个状态:Y或N,而不是漂亮的bool值true和false。我想在转换中做一个映射来说明Y是true而N是false,但是Pentaho将它翻译成字符串,而不像真正的true和false。我有设置bool值的简单方法吗?提前致谢! 最佳答案 您可以在Meta-data面板上通过Selectvalues步骤更改类型。而且有效!但是,由于PDI中bool值
如何限制号。在kettle中使用的mongodb输入转换中检索到的行数。我在mongodb输入查询中尝试了以下查询,但没有一个有效:{“$查询”:{“$限制”:10}}或{"$limit":10}请让我知道哪里出错了。谢谢,深海 最佳答案 有几个querymodificationoperators您可以使用。它们的名称并不完全直观,并且与您将在Mongoshell中使用的函数名称不匹配,但它们做的事情是一样的。在您的情况下,您需要$maxScan运算符。您可以将查询写成:{"$query":{...},"$maxScan":10}
当试图在该月的最后一天或该月的倒数第二天从DW加载一个月的数据时,在加载数据时,出现通信链接错误并停止正在运行的作业。由于这最后几组数据没有加载。关于使用的转换步骤:表输入->DBJOIN->流查询->表输出请帮忙解决这个问题。我们坚持这个..2019/01/1105:42:18-Tableinput.0-ERROR(version6.1.0.1-196,build1from2016-04-0712.08.49bybuildguy):Unexpectederrorclosingquery:org.pentaho.di.core.exception.KettleDatabaseExcep
我无法使用PentahoKettle的过程调用步骤在输出流中获取MySQL过程调用的OUT参数。我在从MYSQL存储过程中检索OUT参数到流时遇到了很大的麻烦。我认为这可能是一种错误,因为它只发生在Integerout参数上,它适用于Stringout参数。我得到的异常(exception)是:InvalidvalueforgetLong()-'我认为参数设置正确,如您在ktr中所见。您可以通过这种方式复制错误:架构createschemaifnotexiststest;usetest;DROPPROCEDUREIFEXISTSprocedure_test;delimiter$$CRE
我正在使用Pentaho数据集成工具5.2版。我正在尝试使用“表格输入”步骤连接到数据库。但是当我在此步骤中测试连接时,它会给我以下错误消息。我能够使用MySQL工作台连接到数据库。我已将“mysql-connector-java-5.1.38-bin”文件放在libextforlder中。我需要降级我的连接器jar文件吗?如果是,我的SQL版本是5.6那么有人可以让我知道这个SQLServer版本的兼容连接器jar版本吗?Errorconnectingtodatabase[myLedger]:org.pentaho.di.core.exception.KettleDatabaseEx