local_folder_草庐IT

hadoop - Ended Job = job_local644049657_0014 with errors Error during job, 获取调试信息

如何找到日志文件请指导我已经检查了资源管理器的url。但是我没有找到任何日志文件这是完整的错误QueryID=hadoop_20170325120040_d54d136a-1904-4af9-8f8d-4167343db072Totaljobs=1LaunchingJob1outof1Numberofreducetasksissetto0sincethere'snoreduceoperatorJobrunningin-process(localHadoop)2017-03-2512:00:42,954Stage-0map=0%,reduce=0%EndedJob=job_local64

644049657 job_local section gt lt hadoop mapreduce hadoop2

hadoop - 目录文件未使用命令“hadoop fs -put <my local path> <hdfs path> 复制到 HDFS

我正在通过给出以下命令将本地系统中的pig处理文件复制到HDFS路径(链接到HIVE表)，但它没有复制。第一步:数据在我的本地路径[root@quickstartplantoutput]#lltotal4-rw-r--r--1rootroot1469Dec302:37part-m-00000-rw-r--r--1rootroot0Dec302:37_SUCCESS[root@quickstartplantoutput]#pwd/home/cloudera/Desktop/dealer/plantoutputStep2:应用命令后是这样的[root@quickstartplantoutp

amp hadoop plantoutput code section hive hdfs

java - Spark 异常 : local class incompatible

我正在尝试将spark作业从客户端提交到cloudera集群。在集群中，我们使用的是CDH-5.3.2，它的spark版本是1.2.0，hadoop版本是2.5.0。因此，为了测试我们的集群，我们提交了从spark网站获取的wordcount示例。我们可以成功提交我们用java编写的spark作业。但是，我们无法将结果写入hdfs上的文件。我们收到以下错误，20/06/2509:38:16INFODAGScheduler:Job0failed:saveAsTextFileatSimpleWordCount.java:36,took5.450531sExceptioninthread"m

incompatible Spark ObjectInputStream java hadoop apache-spark cloudera cloudera-manager

hadoop - 我是否需要将 Spark 与 YARN 结合使用才能通过 HDFS 实现 NODE LOCAL 数据局部性？

我是否需要将Spark与YARN结合使用才能通过HDFS实现NODELOCAL数据局部性？如果我使用Spark独立集群管理器并将我的数据分布在HDFS集群中，Spark如何知道数据位于本地节点上？最佳答案 YARN是一个资源管理器。它处理内存和进程，而不处理HDFS或数据局部性的工作。既然Spark可以从HDFS源中读取，并且名称节点和数据节点负责YARN之外的所有HDFSblock数据管理，那么我认为答案是否定的，您不需要YARN。但是您已经拥有HDFS，这意味着您拥有Hadoop，那么为什么不利用将Spark集成到YARN中呢

hadoop Spark section HDFS apache-spark

python - Pyhdfs copy_from_local 导致提供节点名或服务名，或未知错误

我正在使用以下python代码使用pyhdfs将文件从我的本地系统上传到远程HDFSfrompyhdfsimportHdfsClientclient=HdfsClient(hosts='1.1.1.1',user_name='root')client.mkdirs('/jarvis')client.copy_from_local('/my/local/file,'/hdfs/path')使用python3.5/。Hadoop在默认端口中运行:500701.1.1.1是我的远程Hadoopurl创建目录“jarvis”工作正常，但复制文件不工作。我收到以下错误Traceback(most

copy_from_local 点名 gt lt code python hadoop hdfs webhdfs pyhdfs-client

hadoop - Hive INSERT OVERWRITE 到 Google Storage 作为 LOCAL DIRECTORY 不起作用

我使用以下Hive查询:hive>INSERTOVERWRITELOCALDIRECTORY"gs://Google/Storage/Directory/Path/Name"rowformatdelimitedfieldsterminatedby','select*from.;我收到以下错误:"Error:FailedwithexceptionWrongFS:"gs://Google/Storage/Directory/PathName",expected:file:///我做错了什么？最佳答案从语法中删除Local。参见下面的

DIRECTORY OVERWRITE section code strong hadoop hive google-cloud-storage google-hadoop

hadoop - Pig on local 模式与 pig-without hadoop.jar 的区别

我想知道如果我在本地模式下使用pig(内部调用Mapreduce)与使用PIG-withouthadoop.jar文件相比，性能增益或损失是什么？PIG-withouthadoop.jar真的不用hadoop吗？？？如果我只想使用没有集群的Pig，比如设计数据流，那么我应该使用什么？Pig在本地模式或pig-withouthadoop.jar文件？？目前我已经使用pig本地模式编写了我的脚本，并且在尝试在服务器中部署并在本地模式下设置PIG时，我想我还需要在设置PIG_HOME变量之前在环境变量中设置HADOOP_HOME请指教..提前致谢。:) 最佳答案

hadoop pig-without section Pig mapreduce apache-pig bigdata dataflow

matlab - 无法使用 MATLAB MapReducer 2014b 中的 'local' 配置文件启动并行池

我正在使用here中的示例作为MATLAB2014b中的“使用MapReduce计算平均值”。当我运行示例时，出现以下错误:Startingparallelpool(parpool)usingthe'local'profile...Errorusingmapreducer(line96)Failedtostartaparallelpool.(Forinformationinadditiontothecausingerror,validatetheprofile'local'intheClusterProfileManager.)Erroringcmr(line34)mr=mapredu

MapReducer amp section strong Error matlab hadoop parallel-processing mapreduce

hadoop - 如何防止 `hadoop fs rmr <uri>` 创建 $folder$ 文件？

我们正在使用Amazon的ElasticMapReduce来执行一些大型文件处理作业。作为我们工作流程的一部分，我们偶尔需要从S3中删除可能已经存在的文件。我们使用hadoopfs接口(interface)这样做，如下所示:hadoopfs-rmrs3://mybucket/a/b/myfile.log这会适本地从S3中删除文件，但会在原处留下一个名为“s3://mybucket/a/b_$folder$”的空文件。如thisquestion中所述,Hadoop的Pig无法处理这些文件，因此工作流中的后续步骤可能会因该文件而阻塞。(请注意，我们使用-rmr还是-rm还是使用s3://似

hadoop amp code section

hadoop - 有人在 hadoop 流媒体作业中使用过 mapred.job.tracker=local 吗？

在过去的几周里，我们每天都使用hadoopstreaming来计算一些报告。最近我们对我们的程序进行了更改，如果输入大小小于10MB，我们将在JobConf中设置mapred.job.tracker=local，然后作业将在本地运行。但是昨晚，许多作业都失败了，runningJob.getJobState()返回了状态3。我不知道为什么，stderr里什么也没有。我无法用谷歌搜索与此问题相关的任何内容。所以我想知道我是否应该在生产模式下使用mapred.job.tracker=local？也许它只是hadoop提供的开发中的调试解决方案。有人知道吗？任何信息，任何信息，谢谢。

流媒 hadoop section mapred streaming local