草庐IT

java - 无法连接 Windows 10 上安装的 Pentaho PDI 中的步骤

我安装了Windows10(教育版)的全新副本,发现当我运行PentahoPDI(5.4版)时,我无法将两个步骤连接在一起。通常会打开一个对话窗口,您可以在其中选择添加跃点,但什么也没有。我安装了Java的JRE和JDK版本。没有其他问题,我与其他使用Java的应用程序没有任何关系。今晚我确实发现,如果我在工作面上放置两个步骤然后尝试执行转换,它会像你一样失败,但现在我可以连接这两个步骤。添加另一个步骤,直到执行脚本才能连接。奇怪。有人对如何解决这个问题有任何想法吗?非常感谢雷 最佳答案 Windows10当前不支持Pentaho数

【kettle】pdi/data-integration 集成kerberos认证连接hdfs、hive或spark thriftserver

一、背景kerberos认证是比较底层的认证,掌握好了用起来比较简单。kettle完成kerberos认证后会存储认证信息在jvm中,之后直接连接hive就可以了无需提供额外的用户信息。sparkthriftserver本质就是通过hivejdbc协议连接并运行sparksql任务。二、思路kettle中可以使用js调用java类的方法。编写一个jar放到kettle的lib目录下并。在启动kettle后会自动加载此jar中的类。编写一个javascript转换完成kerbero即可。二、kerberos认证模块开发准备使用scala语言完成此项目。hadoop集群版本:cdh-6.2.0ke

hadoop - Pentaho 和 Hadoop

如果这个问题看起来很幼稚,我很抱歉,但我是数据工程领域的新手,因为我现在是自学者,但我的问题是Pentaho和Hadoop等ETL产品之间有什么区别?当我用这个而不是那个?或者我可以一起使用它们,怎么样?谢谢, 最佳答案 ETL是一种提取数据、转换(连接、丰富、过滤...)数据并将结果加载到另一个数据存储中的工具。好的ETLS是可视化的,与数据存储无关并且易于自动化。Hadoop是一种分布在集群网络上的数据存储以及用于处理分散数据的软件。数据转换专门用于少数基本操作,这些操作可以针对这种通常大量的数据进行优化,例如(但不仅限于)Ma

arrays - PDI:同时从 MongoDB 展开两个数组

在Spoon中,我使用了mongoDB输入步骤。对于给定的表格文件..{"Number":["4700100004"],"Random":["unknown"],"List_Of_Vals1":["3","2","1",],"List_Of_Vals2":["1","2","3",]}我能够使用来自pdi的Mongo查询展开其中一个数组[{"$unwind":"$List_Of_Vals1"}]产生::NumberRandomList_Of_Vals1List_Of_Vals2"4700100004""unknown""3"["1","2","3"]"4700100004""unkno

将红移用作Pentaho PDI数据库存储库

我在PDICE7.0上运行Spoon,并试图首次设置我的数据库存储库。我能够使用SQLServer作为数据库存储库,但是我想知道是否可以将RedShiftServer用作数据库存储库。当我测试数据库连接时,运行良好。但是,当我尝试连接到存储库时,我会收到一条错误消息,说“您似乎没有与服务器连接。请检查所使用的路径,并确保服务器启动并运行并运行””((单击查看错误消息)我已经尝试更改JDBC驱动程序。我已经使用PostgreSQL驱动程序9.3和8.4进行了测试,还与Amazon的Redshift驱动程序进行了测试。有了所有这些选项,我收到了相同的消息。是否可以将红移作为我的数据库存储库?这是我

hadoop - 无法使用 PDI 步骤连接到 HDFS

我已经在Windows8系统的Ubuntu14.04VM中成功配置了Hadoop2.4。Hadoop安装工作绝对正常,而且我能够从我的Windows浏览器查看Namenode。下面附上图片:所以,我的主机名是:ubuntu和hdfs端口:9000(如果我错了请纠正我)。核心网站.xml:fs.defaultFShdfs://ubuntu:9000问题出在从我的Pentaho数据集成工具连接到HDFS时。下面附上图片。PDI版本:4.4.0使用的步骤:Hadoop复制文件请帮助我使用PDI连接到HDFS。我需要为此安装或更新任何jar吗?如果您需要更多信息,请告诉我。