hortonworks-dataflow

c# - TPL Dataflow，仅在所有源数据 block 完成时保证完成

当两个转换block都完成时，如何重写代码完成的代码？我认为完成意味着它被标记为完成并且“出队列”是空的？publicTest(){broadCastBlock=newBroadcastBlock(i=>{returni;});transformBlock1=newTransformBlock(i=>{Console.WriteLine("1inputcount:"+transformBlock1.InputCount);Thread.Sleep(50);return("1_"+i);});transformBlock2=newTransformBlock(i=>{Console.Wr

c#Dataflow transformBlock block transformBlock1 concurrency task-parallel-library tpl-dataflow

go - 当前用于 Google Dataflow 的 GoLang SDK 是否支持自动缩放和并行处理？

目前正在使用带有Python的GoogleDataflow进行批处理。这工作正常，但是，我有兴趣在不必处理Java的情况下提高我的数据流作业的速度。使用GoSDK，我实现了一个简单的管道，它从Google存储中读取一系列100-500mb文件(使用textio.Read),做一些聚合并用结果更新CloudSQL。正在读取的文件数量可以从几十个到数百个不等。当我运行管道时，我可以从日志中看到文件是串行读取的，而不是并行读取的，因此作业需要更长的时间。使用PythonSDK执行的相同过程会触发自动缩放并在几分钟内运行多次读取。我已经尝试使用--num_workers=指定工作人员的数量，但

Dataflow Google section SDK noreferrer go google-cloud-platform google-cloud-dataflow apache-beam

go - 当前用于 Google Dataflow 的 GoLang SDK 是否支持自动缩放和并行处理？

目前正在使用带有Python的GoogleDataflow进行批处理。这工作正常，但是，我有兴趣在不必处理Java的情况下提高我的数据流作业的速度。使用GoSDK，我实现了一个简单的管道，它从Google存储中读取一系列100-500mb文件(使用textio.Read),做一些聚合并用结果更新CloudSQL。正在读取的文件数量可以从几十个到数百个不等。当我运行管道时，我可以从日志中看到文件是串行读取的，而不是并行读取的，因此作业需要更长的时间。使用PythonSDK执行的相同过程会触发自动缩放并在几分钟内运行多次读取。我已经尝试使用--num_workers=指定工作人员的数量，但

Dataflow Google section SDK noreferrer go google-cloud-platform google-cloud-dataflow apache-beam

hadoop - 使用 HDP 在 hortonworks 上运行 jar 会抛出 ClassNotFoundException

我正在尝试使用HDP在hortonworks沙箱上从coursera运行一个简单的map缩减程序。这是程序(取自https://github.com/jz33/Coursera-Cloud-Computing-Applications-Solution-Manual/blob/master/hw2/TitleCount.java):importorg.apache.commons.logging.Log;importorg.apache.commons.logging.LogFactory;importorg.apache.hadoop.conf.Configuration;impor

ClassNotFoundException hortonworks hadoop apache java mapreduce hdfs hadoop-yarn hortonworks-data-platform

hadoop - Hortonworks Ambari 能否管理多个集群

我一直在网上查看Ambari是否可以像Cloudera那样管理多个集群。这在Ambari中可能吗？如果是这样，如何？我查看了整个Ambari网络用户界面，只看到添加新主机或服务的选项，但没有看到关于添加集群的选项。最佳答案它在roadmap中.目前可以在API级别执行此操作，从2.0版开始，可以从WebUI管理多个集群。关于hadoop-HortonworksAmbari能否管理多个集群，我们在StackOverflow上找到一个类似的问题： https

Hortonworks hadoop section Ambari stackoverflow

hadoop - Hortonworks Data Platform HDP 2.1 启动 Namenode 错误

我已经在SUSE11VM中安装了HDP2.1.1.0。格式化后第一次尝试启动名称节点时收到以下错误:/usr/lib/hadoop-hdfs/bin/../libexec/hdfs-config.sh:Nosuchfileordirectory/usr/lib/hadoop-hdfs/bin/hdfs:line206:exec::notfound请为此提出一些解决方案。仅供引用:我也更新了.bashrc文件中的libexec路径详细信息。仍然遇到同样的问题。最佳答案我发现在从HDP2.1存储库安装Hadooprpm时，libex

Hortonworks Platform section libexec hadoop hortonworks-data-platform

Hadoop WebHDFS 移动文件无法解析主机 : sandbox. hortonworks.com

所以，我了解了hadoop。我使用hortonworks沙箱。我尝试使用WebHDFS将文件从我的本地电脑(test.txt)移动到hadoop。为了做那样的事情，我从apachehadoopdocumentation中发现说它需要2个步骤。首先是sumbitPUThttp请求，获取datanode信息。这是我的做法:curl-i-XPUT"http://127.0.0.1:50070/webhdfs/v1/user/root/learnhadoop/data/test.txt?user.name=root&op=CREATE"这是响应HTTP/1.1307TEMPORARY_REDI

hortonworks WebHDFS code section hadoop

java - Namenode 未在 Hortonworks 沙盒上启动

我正在尝试运行HDFS但namenode没有启动，我也尝试通过像这样的命令启动它sudo-l/usr/hdp/hadoop/sbin/hadoop-daemon.sh--config/usr/hdp/hadoop/confstartnamenode但是还没有开始。我看过hadoop日志并收到以下错误:错误2015-04-2810:36:04,752FATALnamenode.NameNode(NameNode.java:main(1509))-Failedtostartnamenode.java.io.FileNotFoundException:/hadoop/hdfs/namenod

Hortonworks Namenode hadoop java hdfs

hadoop - 在 Hortonworks Hadoop (AWS EC2) 上访问 WebHDFS

我在AmazonEC2机器上遇到WebHDFS访问问题。顺便说一句，我已经安装了HortonworksHDP2.3。我可以使用以下http请求在浏览器(chrome)中从我的本地计算机检索文件状态:http://:50070/webhdfs/v1/user/admin/file.csv?op=GETFILESTATUS这工作正常，但如果我尝试使用?op=OPEN打开文件，它会将我重定向到我无法访问的机器的私有(private)DNS:http://:50075/webhdfs/v1/user/admin/file.csv?op=OPEN&namenoderpcaddress=:8020

上访 Hortonworks the section WebHDFS hadoop amazon-web-services amazon-ec2 hortonworks-data-platform

scala - Hortonwork HDP 2.1 支持什么版本的 Scala？

我正在使用Scala2.10.4构建Scalding作业。它成功地创造了工作。但是当我在我的Hortonworks中运行该作业时，它会抛出以下异常。根据一些回答，这个问题是由于scala版本冲突导致的。你能解释一下这个问题吗？我在我的Hortonworks中搜索了一个scala版本，但找不到。我做错了什么吗？最佳答案底部的堆栈跟踪显示您的作业在HadoopUtils.getRootQueue中抛出，您尝试在Option实例上执行.get，这恰好是一个None。所以我认为这不是版本问题，而是您应该在选项上使用.getOrElse或

Hortonwork scala code section 中运 hadoop mapreduce cascading scalding