time-grunt

hadoop - 错误 org.apache.pig.tools.grunt.Grunt - 错误 1000

我正在从事PIG编程，grunt>dividends=load'NYSE_dividends'as>>(exchange:chararray,symbol:chararray,date:chararray,dividend:float);grunt>LIMITdividends10;但我不确定为什么会出现此错误:[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1000:Errorduringparsing.Encountered""LIMIT""atline3,column1.我的数据链接是DataLink请帮我找出问题所在!!!

java - Map/Reduce wall-time 对 Reduce 任务的数量不敏感

我用Java编写了一个简单的Map/Reduce程序，用于两个文本文件的关系连接操作。该算法在许多地方都有描述，即在Reduce任务中进行连接。我想调整它以获得更好的性能。第一件事是尝试不同数量的Reduce任务。目前我只在一台4核的计算机上运行，但实际上在分布式文件系统中。我遇到了一个奇怪的现象，如果我运行4个或32个reduce任务，wall-time(时间统计到时间完成)比我只运行1个reduce任务的时间还要长一点:1reducer:22.4seconds4reducer:23.3seconds32reducer:26.1seconds从这个趋势来看，我真的无法解释。第一印

Reduce wall-time reducer section java performance hadoop join mapreduce

hadoop - Spark 1.6.2 & yarn : diagnostics: Application failed 2 times due to AM Container for exited with exitCode: -1

我有一个由2台机器组成的集群，我正在尝试使用YARN集群管理器提交一个spark作业。基于hadoop2.6.2构建的vanillaSpark1.6.2普通Hadoop2.7.2我可以使用独立的集群管理器成功运行map-reduce作业和spark作业。但是当我用YARN运行它时，我得到了一个错误。对如何让它发挥作用有什么建议吗？如何启用更详细的日志记录？错误信息绝对不清楚为什么在hadoop/logs/userlogs/applicationXXX下没有创建日志文件？反问:IMO:hadoop日志记录和诊断不是很好。这是为什么？Hadoop似乎是一个成熟的产品。下面是输出:mike@

Application diagnostics 1468043888852 Client hadoop apache-spark hadoop-yarn

hadoop - 如何记录我编写的 Pig Latin grunt shell 命令？

我是Pig和PigLatin的新手。我想记录我在交互式gruntshell中编写的命令，以便我可以拼凑工作的PigLatin脚本。这可能吗？是否有一个文件存储我编写的命令的历史记录，类似于我的“.bash_history”文件？我想访问“.grunt_history”，如果存在这样的东西，或者以某种方式打开记录到文件。最佳答案 Pig历史文件位于~/.pig_history中。因此，如果您的用户家是/home/joe，则路径是/home/joe/.pig_history。但是，您需要注意定位用户主目录。您可以从/etc/passw

编写 hadoop section code history apache-pig

java - 错误 : java. lang.NumberFormatException:对于输入字符串: "time"

我正在尝试编写javaMapReduce代码并不断收到错误:Error:java.lang.NumberFormatException:Forinputstring:"time"atjava.lang.NumberFormatException.forInputString(NumberFormatException.java:65)atjava.lang.Long.parseLong(Long.java:589)atjava.lang.Long.parseLong(Long.java:631)atTokenizerMapper.map(UnknownSource)atTokenize

NumberFormatException java section hadoop mapreduce

hadoop - 用 grunt shell 编写的 Shell 脚本？

我正在尝试编写一个shell脚本来打开gruntshell，在其中运行一个pig文件，然后将输出文件复制到本地机器。这可能吗？任何链接都会有帮助! 最佳答案您可以从命令行运行pig脚本:#>pig-fscript.txt脚本的尾端可以执行fs命令将数据“获取”回本地文件系统grunt>fs-get/path/in/hdfs/local/path 关于hadoop-用gruntshell编写的Shell脚本？，我们在StackOverflow上找到一个类似的问题：

编写 hadoop section code stackoverflow apache-pig

apache - TSocket : Could not connect to server (Connection timed out [110])

关注这篇文章http://nousefor.net/55/2011/12/php/hbase-and-hive-thrift-php-client/我下载了HBase和Thriftphp客户端包并将它们放在我的ubuntu机器上的var/www/thrift/目录中，并编写了这个简单的客户端代码来打开连接并显示数据库中的表。但是服务器不断返回错误消息“连接超时[110]”。有任何想法吗..？？此外，当使用$transport=newTSocket('localhost',10001);在服务器(AmazonEC2)上运行时代码执行良好open();}catch(Exception$ex

Connection TSocket section thrift transport apache hadoop hbase hive

hadoop - 字符串中空格的 Grunt shell 错误

我正在尝试在Piggruntshell(Pig0.13.0)中注册一个UDFjar。由于我认为是路径中的空格，下面的注册语句出错:register'/home/hadoop/EclipseProjects/pigudfs/target/pigudfs-0.0.1-SNAPSHOT.jar';生成以下错误:[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1000:Errorduringparsing.Encountered""\'/home/hadoop/EclipseProjects/pigudfs/target/pigudfs-0.0

hadoop Grunt section pigudfs code gruntjs apache-pig

hadoop - HDFS 连接操作 : Does it lead to increased seek time?

我试图了解HDFS如何实现concat操作并深入到以下部分code.在我看来，从这个实现来看，concat只是对目标文件的inode进行元操作，实际block没有移动。我在想这是否会导致碎片化+增加寻道时间，因为不同的block会位于磁盘上的不同位置(考虑磁盘)。这个假设是否正确？如果是，我们可以避免这种情况吗？最佳答案经过几次实验，我找到了自己问题的答案。在非常频繁的文件连接操作(每分钟约1k)之后，数据节点开始提示一天左右的block太多，这让我相信这确实会导致碎片化和磁盘上block数量的增加。我使用的解决方案是编写一个单

increased hadoop section block hdfs concat

linux -/usr/bin/time 使用 SPARK 时针对 TOP 的 CPU 利用率

我使用Spark中的MLIB库对大小为8G和700万行的数据运行了SVM算法。我在单个节点上以独立模式运行Spark。我使用/usr/bin/time-v来捕获有关作业的数据。我得到了峰值内存利用率和%CPU时间等等。我得到的CPU使用率百分比仅为6%。我在程序运行的同时监视TOP一段时间，我可以看到超过100%几乎始终如一地被使用。我现在很困惑，为什么/usr/bin/time只显示了6%？更多细节-我的机器是16G，我运行的程序消耗了13.88G。程序执行时间为2.1小时。任何见解，任何人？最佳答案我发现了问题。因此，usr

时针 linux section time stackoverflow hadoop apache-spark linux-kernel apache-spark-mllib

180 181 182183184 185 186