ROS_MASTER_URI

sql - Impala 外部表位置/URI

我正在对外部(非托管)表的应用程序问题进行故障排除，该表是通过ClouderaImpala使用CREATETABLEXLIKEPARQUET语法创建的。我正在尝试确定包含外部表分区的文件的位置，但很难确定如何执行此操作，也很难找到描述此操作的文档。如果我这样做:showcreatetableT1;我看到hive管理的位置，例如:LOCATION'hdfs://nameservice1/user/hive/warehouse/databaseName'如果我这样做:describeformattedT1;我看到该表实际上是外部的，但它没有提供任何关于非托管位置的信息。|TableType

apache-spark - 不完整的 HDFS URI，没有主机，altohugh 文件确实存在

我正在尝试使用以下代码通过pyspark访问我在hdfs中的文件:spark=SparkSession.builder.appName("MongoDBIntegration").getOrCreate()receipt=spark.read.json("hdfs:///bigdata/2.json")我得到一个错误IncompleteHDFSURI,nohost:hdfs:///bigdata/2.json但是如果我写命令hdfsdfs-cat/bigdata/1.json它会打印我的文件最佳答案错误消息说您没有在HDFSUR

apache-spark altohugh section code bigdata hadoop pyspark hdfs hdp

hadoop - Hadoop的master节点需要安装Mahout吗？

这是个愚蠢的问题，但总得有人问。我试过在本地运行Mahout，效果很好。现在，我希望工作由远程集群执行，而不是我的本地机器。那么，我应该在Hadoop机器上部署Mahout代码，还是我仍然可以使用Hadoop在我的本地机器接口(interface)上远程制作Mahout？最佳答案不，您不会自己在Hadoopworker上安装Hadoop程序。那将是一场噩梦。当您通过hadoopjar向它提供包含所有代码的JAR文件时，Hadoop会为您完成。当您运行Mahout或任何其他基于Hadoop的东西时，在您的本地计算机上运行的是一个客

hadoop section Mahout

hadoop - 无法启动master和slave，日志中出现名为 "bogon"的奇怪东西

我下载了一个新的预构建sparkforhadoop2.2文件。正在关注this文件，我想在我的单机上启动我的主人。解压文件后，我进入sbin和start-master，但我遇到了这个奇怪的问题，这是日志:SparkCommand:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/bin/java-cp:/opt/spark-0.9.0-incubating-bin-hadoop2/conf:/opt/spark-0.9.0-incubating-bin-hadoop2/assembly/target/scal

amp 名为 code section spark hadoop apache-spark

caching - 将 URI 作为运行时变量传递给 mapreduce hadoop 中的分布式缓存

我在我的mapreduce程序中使用分布式缓存，我将三个变量传递给这个mapreduce程序inputfile、outputdir和configfile.我想添加第三个参数，即配置文件到分布式缓存。我在MapReduce驱动程序的run()方法中设置参数如下:-conf.set("CONF_XML",args[2]);如何用同样的方法将这个文件添加到分布式缓存中。我该怎么做？通常我们添加使用URI(new(filepath));DistributedCache.addCacheFile(newURI(file_path),conf); 最佳答案

mapreduce 传递 code section DistributedCache caching hadoop distributed

java - 失败 : IllegalArgumentException java.net.URISyntaxException:绝对 URI 中的相对路径:

我的hive-site.xml配置是当我使用配置单元时:显示数据库；我遇到的异常是:FAILED:IllegalArgumentExceptionjava.net.URISyntaxException:RelativepathinabsoluteURI:file:./tmp/hive-root/root/74dc7e51-1d24-4397-9321-9b8c651ee212/hive_2016-12-04_22-55-36_784_2074916962149947374-1 最佳答案使用以下属性更改hive-site.xmlhi

IllegalArgumentException URISyntaxException hive section value java hadoop bigdata

hadoop - 线程 "main"java.io.IOException : Incomplete HDFS URI, 中的异常没有主机:hdfs Spark RDD

我正在尝试使用Spark将文本文件的内容保存在hdfs中:importorg.apache.spark.{SparkContext,SparkConf}objectFormatTlfHdfs{defmain(args:Array[String]){valconf=newSparkConf().setAppName("Cleandata").setMaster("local").setSparkHome("/usr/lib/spark")valsc=newSparkContext(conf)varvertices=sc.textFile("hdfs:///user/cloudera/ds

IOException Incomplete cloudera section hdfs hadoop apache-spark

hadoop - 空闲的 hadoop master - 如何让它做一些工作？

我启动了一个由两个节点组成的小型集群，并注意到主节点完全空闲，而从节点完成所有工作。我想知道让master运行一些任务的方法是什么。我知道对于一个更大的集群来说，拥有一个专用的主节点可能是必要的，但在一个2节点的集群上，这似乎有点矫枉过正。感谢您的任何提示，瓦茨拉夫更多细节:这两个盒子各有2个CPU。集群已在AmazonElasticMapReduce上设置，但我正在从命令行运行hadoop。我刚刚试过的集群有:Hadoop0.18javaversion"1.6.0_12"Java(TM)SERuntimeEnvironment(build1.6.0_12-b04)JavaHotSpo

hadoop master section master-slave

hadoop - 如何防止 `hadoop fs rmr <uri>` 创建 $folder$ 文件？

我们正在使用Amazon的ElasticMapReduce来执行一些大型文件处理作业。作为我们工作流程的一部分，我们偶尔需要从S3中删除可能已经存在的文件。我们使用hadoopfs接口(interface)这样做，如下所示:hadoopfs-rmrs3://mybucket/a/b/myfile.log这会适本地从S3中删除文件，但会在原处留下一个名为“s3://mybucket/a/b_$folder$”的空文件。如thisquestion中所述,Hadoop的Pig无法处理这些文件，因此工作流中的后续步骤可能会因该文件而阻塞。(请注意，我们使用-rmr还是-rm还是使用s3://似

hadoop amp code section

hadoop - HBase 区域服务器 : error telling master we are up

我在从属RegionServer的日志中收到以下错误。问题似乎出在regionserver.HRegionServer:reportForDutytomaster=localhost,60000,1397430611631withport=60020master设置为localhost但实际上应该指向master。即使在阅读了文档之后，我也无法弄清楚奴隶是如何弄清楚主人的。完整日志为:2014-04-1404:49:35,939INFO[regionserver60020]regionserver.HRegionServer:CompactionCheckerrunsevery10se

telling hadoop RpcClient java hbase

190 191 192193194 195 196