草庐IT

second_part

全部标签

r - 初始化 sparkR : JVM is not ready after 10 seconds 时出错

我目前正在使用sparkR测试一个应用程序。这是我的平台和应用程序详细信息:Platform:Windowsserver2008SparkRversion:Rversion3.1.2(2014-10-31)SparkVerion:version1.4.1我做了什么?第一步:将包加载到R环境中library(SparkR)--Working第二步:设置系统环境变量Sys.setenv(SPARK_HOME="C:\hdp\spark-1.4.1-bin-hadoop2.6")--Working.libPaths(c(file.path(Sys.getenv("SPARK_HOME"),"

hadoop - hadoop作业日志中的 "vcore-seconds"是什么意思?

JobCountersLaunchedmaptasks=3Launchedreducetasks=45Data-localmaptasks=1Rack-localmaptasks=2Totaltimespentbyallmapsinoccupiedslots(ms)=29338Totaltimespentbyallreducesinoccupiedslots(ms)=200225Totaltimespentbyallmaptasks(ms)=29338Totaltimespentbyallreducetasks(ms)=200225Totalvcore-secondstakenbyal

Hadoop MultipleOutputs 输出文件 "part-day-26"

我在mapreduce作业中遇到问题,我希望输出文件的格式为file-day-26而不是part-r-00000.我已尝试使用addNamedOutput方法来完成此操作(MultipleOutputs),但只能更改部分part.在旧的API中,我看到可以使用generateFileNameForKeyValue方法来做到这一点(MultipleTextOutputFormat),但是我不能使用旧的API,所以我想知道Hadoop的新API中是否有这样的东西。有人可以帮助我吗?谢谢。 最佳答案 尝试使用MultipleOutputF

hadoop - Apache PIG - 如何更改文件的标准输出名称 "part-r-00000"?

我有一个.pig脚本,它创建一个包含一些计算数据的文件。我想将输出文件命名为“result.txt”,而不是无意义的标准输出名称“part-r-00000”。我的.pig脚本中的最后一个条目是storeCinto'result'USINGPigStorage();因此,“result”是HDFS中应存储result.txt的文件夹的名称。我该怎么做? 最佳答案 part-r-XXXXX并非毫无意义,具体取决于您打算如何使用它们。如果您需要将这个pig脚本的结果加载到另一个pig脚本中,您可以这样做:A=LOAD'result'USI

hadoop - Hive:无法在具有 100 个或更多分区列的表中插入数据错误:在最大长度为 767 的列 "PART_NAME"中

我正在使用配置单元,我需要创建一个包含“n”个普通列和100个或更多作为分区列的表,并且我能够成功创建该表。现在当我用另一个具有相同模式的表的数据加载该表并且所有列都是非分区列时,我收到这样的错误:FailedwithexceptionMetaException(message:AttempttostorevalueFailedwithexceptionMetaException(message:Attempttostorevalue"c1=v1/c2=v2/c3=v3/....c100=v100"incolumn"PART_NAME"thathasmaximumlengthof767

hadoop - Spark : saveAsTextFile() only creating SUCCESS file and no part file when writing to local filesystem

我正在使用以下命令将RDD写入文件:rdd.coalesce(1).saveAsTextFile(FilePath)当FilePath是HDFS路径(hdfs://node:9000/folder/)时一切正常。当FilePath是本地路径(file:///home/user/folder/)时,一切似乎都正常。输出文件夹已创建,SUCCESS文件也已存在。但是我没有看到任何包含输出的part-00000文件。没有其他文件。spark控制台输出也没有错误。我还尝试在调用saveAsTextFile()之前调用RDD上的collect,为输出文件夹提供777权限,但没有任何效果。请帮忙。

hadoop - 如何修复 "Task attempt_201104251139_0295_r_000006_0 failed to report status for 600 seconds."

我编写了一个mapreduce作业来从数据集中提取一些信息。该数据集是用户对电影的评价。用户数约250K,电影数约300k。map的输出是*>and*>.在reducer中,我将处理这些对。但是当我运行作业时,mapper按预期完成,但reducer总是提示Taskattempt_*failedtoreportstatusfor600seconds.我知道这是由于无法更新状态,所以我添加了对context.progress()的调用在我的代码中是这样的:intcount=0;while(values.hasNext()){if(count++%100==0){context.progr

hadoop - pig 拉丁语 : Load multiple files from a date range (part of the directory structure)

我有以下场景-pig版使用0.70示例HDFS目录结构:/user/training/test/20100810//user/training/test/20100811//user/training/test/20100812//user/training/test/20100813//user/training/test/20100814/正如您在上面列出的路径中看到的,其中一个目录名称是一个日期戳。问题:我想加载日期范围为20100810到20100813的文件。我可以将日期范围的“从”和“到”作为参数传递给Pig脚本,但我如何在LOAD语句中使用这些参数。我能够做到以下几点te

hadoop - hadoop中的SUCCESS和part-r-00000文件是什么

虽然我经常在我的Ubuntu机器上使用Hadoop,但我从未想过SUCCESS和part-r-00000文件。输出始终驻留在part-r-00000文件中,但是SUCCESS文件有什么用呢?为什么输出文件的名称为part-r-0000?是否有任何意义/任何命名法,或者这只是一个随机定义的? 最佳答案 参见http://www.cloudera.com/blog/2010/08/what%E2%80%99s-new-in-apache-hadoop-0-21/Onthesuccessfulcompletionofajob,theMap

php - 拉维尔 : Increase time on second time login attempts

目前,五次登录尝试会阻止用户1分钟,并且可以正常使用以下代码:if($this->hasTooManyLoginAttempts($request)){$this->fireLockoutEvent($request);return$this->sendLockoutResponse($request);}我想要的是,当用户在第一次尝试后再次解锁时,在第二次尝试中,阻止时间应增加到3分钟。我四处寻找,但找不到任何东西,有什么办法可以解决吗? 最佳答案 我建议您尝试以下代码。请询问是否有任何不清楚的地方。$minutes=3;$key