草庐IT

pentaho-aggdesigner-algorithm

全部标签

java - 如何将 Pentaho 6.0 连接到 Hadoop-Hive

我正在尝试将Pentaho连接到Hive,以便我可以通过Pentaho运行Hive查询。我在我的Windows7(专业版64位)上安装了Pentaho6.0。我在“裸机服务器”上配置了Hadoop。Hadoop系统的详细介绍如下:ApacheHadoopV2.6hive1.1版yarn我尝试使用连接类型连接到Pentaho:Hadoop-Hive2,数据库名称:default和端口号:10000。我已从此Web链接添加了HiveJDBCjar文件:http://mvnrepository.com/artifact/org.apache.hive/hive-jdbc/1.1.0.最后,当

hadoop - 尝试将 Windows pentaho 连接到虚拟机 HDFS 时出错

我是pentaho和大数据的新手......每次我尝试将我的windowspentaho连接到我的基于Linux的虚拟机HDFS..弹出这个错误..我已经尝试了几个解决方案但是没有他们运气好……如果你们中的任何人能提出解决方案,我将不胜感激……提前致谢...!!连接到数据库时出错[hadoop]:org.pentaho.di.core.exception.KettleDatabaseException:尝试连接数据库时出错连接到数据库时出错:(使用类org.apache.hadoop.hive.jdbc.HiveDriver)没有找到适合jdbc的驱动:hive://(虚拟机的ip地址

algorithm - Hadoop 性能分析(Wordcount vs Grep)

我正在从事Hadoop性能分析,并且正在Hadoop上运行一些基准测试。令人惊讶的是,Grep花费的时间几乎是wordcount运行时间的1/10,这是非常不直观的。谁能解释为什么这是真的? 最佳答案 map-reduce惯用法中的很多工作是映射器和缩减器之间的通信。在WordCount示例中,每个单词都会产生一个输出记录(和一个reducer输入)。在Grep示例中,每个匹配的模式都会产生一条输出记录。如果模式不经常匹配,则记录不是很多。我希望映射器的运行时间大致相同,因为两者都受I/O限制,直到它们产生输出为止。两个任务之间的C

algorithm - map reduce算法的并行效率计算公式是什么?

有没有公式可以告诉我们mapreduce算法的并行效率?(换句话说,我如何在数学上证明MR算法A优于MR算法B)我用谷歌搜索,但我只能在wiki上找到并行算法的加速和效率的定义。但如果有人能展示这些公式如何应用于MR算法,那就太好了 最佳答案 看看维基forBulkSynchronousParallelinshortBSP.RobBisselings的论文中包含另一个复杂度计算ParallelScientificComputation:AStructuredApproachUsingBSPandMPIBSP是对MapReduce的抽

hadoop - 在 Pentaho hadoop 上创建数据源 Hive

我尝试使用pentahohadoop使用Hive数据源制作报表设计器。我已经通过连接到hadoopconnectionurl:jdbc:hive://localhost:10000anddriverclassname:org.apache.hadoop.hive.jdbc.HiveDriver然后我创建指向Hive数据库的数据源以访问其中的表。然后当我设计报表并将表的字段拖到设计器工作区时,出现错误消息Anunexpectederrorhasoccurred:ThegeneratedSQL-querydidnotexecutesuccessfully.在pentaho的日志中fulle

algorithm - 动态聚合集群?平面上的点

问题:我有数百万(10+)个标记,每个标记都有不同的字段:1.lat2.lng3.area(double)4.size(int)5.tolerance(double)6.lags(boolean)7.channel(boolean)...(more)现在,我希望每个集群都具有以下聚合数据:1.numberofmarkers2.minarea3.maxarea4.avgarea5.minsize6.maxsize7.avgsize8.tolerancedistribution(howmanywhereoftolerance=X=Y集群是根据标记的纬度、经度(距离方面)和缩放级别(整数)创

hadoop - Pentaho 数据集成与 Hive 连接

我正在使用PentahoDataIntegration并且我正在尝试连接到Hive但是当我尝试这样做时,我遇到了以下错误......Errorconnectingtodatabase[Hive]:org.pentaho.di.core.exception.KettleDatabaseException:ErroroccuredwhiletryingtoconnecttothedatabaseErrorconnectingtodatabase:(usingclassorg.apache.hadoop.hive.jdbc.HiveDriver)org.apache.thrift.trans

hadoop - java.lang.IllegalArgumentException : Can't find HmacSHA1 algorithm 异常

通过brewinstallhadoop安装hadoop后,我想启动hadoop,在mac上运行hadoop2.7.2/start-all.sh时出错,日志:SwingHu19:53:4516/08/1919:50:25INFOnamenode.FSNamesystem:fsOwner=swinghu(auth:SIMPLE)16/08/1919:50:25INFOnamenode.FSNamesystem:supergroup=supergroup16/08/1919:50:25INFOnamenode.FSNamesystem:isPermissionEnabled=true16/0

hadoop - HBase 组件没有出现在 Pentaho Kettle 中

我正在尝试与Pentaho合作,以构建一些大数据解决方案。但是HadoopHBase组件并未出现在仪表板中。我不明白为什么HBase没有出现,因为HBase正在我的机器上运行......我一直在寻找解决方案,但没有成功...... 最佳答案 请检查此属性值'hbase.client.scanner.timeout.period'在hbase-default.xml中设置为10分钟以消除hbase异常。检查你在pentaho数据集成工具的hbase输出主机中是否添加了zookeeper主机。你读过这个wiki吗?为了将hbase数据加

algorithm - 当 k 个元素不适合内存时,mapreduce 中的 top-k

当k太大而无法在内存中容纳k个元素时,从数据集中查找前k个元素的有效MapReduce算法是什么?我说的是数百万个元素的数据集,例如k。其中3/4。想象一下,每个元素都有一个值,我们想要找到具有最高值的k个元素。例如数据形式:e1:5e2:10e3:7e4:8然后,前2个是e4和e2(不关心它们的相关顺序)。我看过thesolutiontotheproblem,whenkissmallenough,但它不缩放。显然,使用单个reducer同样不切实际(内存不足错误)。 最佳答案 我想我找到了我要找的东西。在这里找到了答案:http: