草庐IT

local-datastore

全部标签

hadoop - 亚马逊电子病历 : configuration of running on local file system

我目前正在尝试在本地文件系统上运行EMR作业。对于EMR,本地文件系统位于EMR作业创建的EC2实例上。我点击了这个链接:IsitpossibletorunHadoopinPseudo-DistributedoperationwithoutHDFS?配置看起来很简单,设置fs.default.name在core-site.xml中为file:///.然后Hadoop将在本地文件系统而不是HDFS上运行。(我首先在我的本地机器(Redhat)上用Hadoop尝试了这个配置。当将fs.default.name设置为file:///时不起作用,但是file://home//使hadoop运行

java - 为什么这个使用 Combiner 类的 Hadoop 示例不能正常工作? (不要执行Combiner提供的 "local reduction")

我是Hadoop的新手,我正在做一些实验,尝试使用Combiner类在映射器的同一节点上本地执行reduce操作。我正在使用Hadoop1.2.1。所以我有这3个类:WordCountWithCombiner.java://LearningMapReducebyNiteshJainimportorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg.apac

hadoop - Ended Job = job_local644049657_0014 with errors Error during job, 获取调试信息

如何找到日志文件请指导我已经检查了资源管理器的url。但是我没有找到任何日志文件这是完整的错误QueryID=hadoop_20170325120040_d54d136a-1904-4af9-8f8d-4167343db072Totaljobs=1LaunchingJob1outof1Numberofreducetasksissetto0sincethere'snoreduceoperatorJobrunningin-process(localHadoop)2017-03-2512:00:42,954Stage-0map=0%,reduce=0%EndedJob=job_local64

hadoop - 目录文件未使用命令“hadoop fs -put <my local path> <hdfs path> 复制到 HDFS

我正在通过给出以下命令将本地系统中的pig处理文件复制到HDFS路径(链接到HIVE表),但它没有复制。第一步:数据在我的本地路径[root@quickstartplantoutput]#lltotal4-rw-r--r--1rootroot1469Dec302:37part-m-00000-rw-r--r--1rootroot0Dec302:37_SUCCESS[root@quickstartplantoutput]#pwd/home/cloudera/Desktop/dealer/plantoutputStep2:应用命令后是这样的[root@quickstartplantoutp

java - Spark 异常 : local class incompatible

我正在尝试将spark作业从客户端提交到cloudera集群。在集群中,我们使用的是CDH-5.3.2,它的spark版本是1.2.0,hadoop版本是2.5.0。因此,为了测试我们的集群,我们提交了从spark网站获取的wordcount示例。我们可以成功提交我们用java编写的spark作业。但是,我们无法将结果写入hdfs上的文件。我们收到以下错误,20/06/2509:38:16INFODAGScheduler:Job0failed:saveAsTextFileatSimpleWordCount.java:36,took5.450531sExceptioninthread"m

hadoop - 我是否需要将 Spark 与 YARN 结合使用才能通过 HDFS 实现 NODE LOCAL 数据局部性?

我是否需要将Spark与YARN结合使用才能通过HDFS实现NODELOCAL数据局部性?如果我使用Spark独立集群管理器并将我的数据分布在HDFS集群中,Spark如何知道数据位于本地节点上? 最佳答案 YARN是一个资源管理器。它处理内存和进程,而不处理HDFS或数据局部性的工作。既然Spark可以从HDFS源中读取,并且名称节点和数据节点负责YARN之外的所有HDFSblock数据管理,那么我认为答案是否定的,您不需要YARN。但是您已经拥有HDFS,这意味着您拥有Hadoop,那么为什么不利用将Spark集成到YARN中呢

python - Pyhdfs copy_from_local 导致提供节点名或服务名,或未知错误

我正在使用以下python代码使用pyhdfs将文件从我的本地系统上传到远程HDFSfrompyhdfsimportHdfsClientclient=HdfsClient(hosts='1.1.1.1',user_name='root')client.mkdirs('/jarvis')client.copy_from_local('/my/local/file,'/hdfs/path')使用python3.5/。Hadoop在默认端口中运行:500701.1.1.1是我的远程Hadoopurl创建目录“jarvis”工作正常,但复制文件不工作。我收到以下错误Traceback(most

hadoop - Hive INSERT OVERWRITE 到 Google Storage 作为 LOCAL DIRECTORY 不起作用

我使用以下Hive查询:hive>INSERTOVERWRITELOCALDIRECTORY"gs://Google/Storage/Directory/Path/Name"rowformatdelimitedfieldsterminatedby','select*from.;我收到以下错误:"Error:FailedwithexceptionWrongFS:"gs://Google/Storage/Directory/PathName",expected:file:///我做错了什么? 最佳答案 从语法中删除Local。参见下面的

hadoop - Pig on local 模式与 pig-without hadoop.jar 的区别

我想知道如果我在本地模式下使用pig(内部调用Mapreduce)与使用PIG-withouthadoop.jar文件相比,性能增益或损失是什么?PIG-withouthadoop.jar真的不用hadoop吗???如果我只想使用没有集群的Pig,比如设计数据流,那么我应该使用什么?Pig在本地模式或pig-withouthadoop.jar文件??目前我已经使用pig本地模式编写了我的脚本,并且在尝试在服务器中部署并在本地模式下设置PIG时,我想我还需要在设置PIG_HOME变量之前在环境变量中设置HADOOP_HOME请指教..提前致谢。:) 最佳答案

matlab - 无法使用 MATLAB MapReducer 2014b 中的 'local' 配置文件启动并行池

我正在使用here中的示例作为MATLAB2014b中的“使用MapReduce计算平均值”。当我运行示例时,出现以下错误:Startingparallelpool(parpool)usingthe'local'profile...Errorusingmapreducer(line96)Failedtostartaparallelpool.(Forinformationinadditiontothecausingerror,validatetheprofile'local'intheClusterProfileManager.)Erroringcmr(line34)mr=mapredu