草庐IT

hadoop - 线程 "main"java.io.IOException : Incomplete HDFS URI, 中的异常没有主机:hdfs Spark RDD

我正在尝试使用Spark将文本文件的内容保存在hdfs中:importorg.apache.spark.{SparkContext,SparkConf}objectFormatTlfHdfs{defmain(args:Array[String]){valconf=newSparkConf().setAppName("Cleandata").setMaster("local").setSparkHome("/usr/lib/spark")valsc=newSparkContext(conf)varvertices=sc.textFile("hdfs:///user/cloudera/ds

hadoop - 无法建立与本地主机的连接 :10000/default: java.net.ConnectException:连接被拒绝

我从事Hadoop/Hive方面的工作。我已经安装了Hadoop1.1.2和Hive0.10.0。当我使用Hive作为命令提示符时它工作正常,但是当我在Eclipse中使用它时JDBC然后给出以下错误:Couldnotestablishconnectiontolocalhost:10000/default:java.net.ConnectException:Connectionrefused 最佳答案 您可以通过两种模式连接到Hive。通过thriftserver和嵌入式模式。通过查看您的urllocalhost:10000/def

hadoop - 同时处理与主机的多个连接

如何同时处理与主机的多个连接? 最佳答案 来自nutch-default.xml:fetcher.threads.fetch10ThenumberofFetcherThreadsthefetchershoulduse.Thisisalsodeterminesthemaximumnumberofrequeststhataremadeatonce(eachFetcherThreadhandlesoneconnection).fetcher.threads.per.host1Thisnumberisthemaximumnumberofth

hadoop - hdfs 局域网ip地址主机名解析

我正在我的LAN上设置2个从站的hdfs集群。每当我给他们的IP地址。HDFS尝试从中获取主机名。它只能在ip地址而不是主机名上工作吗?是否有一个设置来告诉工作只使用ip地址而不使用主机名? 最佳答案 它似乎不能单独对IP地址起作用。Fortheclustertofunctioncorrectly,thepartofthestringmustbethehostname(forexamplemynamenode)nottheIPaddress.阅读更多here.也引用自here,配置dfs.datanode.dns.nameserve

hadoop - 色调错误无法连接到本地主机 :8003

我们使用tarball安装了clouderaCDH4.2。但是当尝试在浏览器中启动hue时,它​​会给出错误,因为无法连接到localhost:8003。进一步在日志文件中出现以下错误。无法在http://'localhost':50070/webhdfs/v1/确定WebHdfs的super用户:追溯(最近一次通话最后一次):谁能帮帮我。问候,贾延德拉 最佳答案 第一个错误表示Beeswax无法正常启动。原因应该显示在日志中。常见解决方案总结here.关于WebHdfs,this可能还没有完全完成。

linux - 无需通过 ssh 连接到本地主机即可启动 Hadoop

我手头有一个非常棘手的情况。我在几个运行Ubuntu12.04的节点上安装Hadoop,我们的IT人员创建了一个用户“hadoop”供我在所有节点上使用。该用户的问题是由于某些安全限制,它不允许在localhost上使用ssh。所以,我根本无法启动Hadoop守护进程。我可以使用“sshhadoop@hadoops_address”连接到自身,但不能使用环回地址。我也无法对/etc/hosts进行任何更改。有没有一种方法可以告诉Hadoop使用“sshhadoop@hadoops_address”而不是“sshhadoop@localhost”通过ssh连接到自身?

hadoop - 在 AWS 中使用 weka 将主机名分配给 hadoop 作业

我一直在本地机器上使用wekaDistributedHadoop1.0.4和wekaDistributedBase1.0.2包来运行一些基本作业。必须填写一个字段“HDFS主机”才能运行作业。自从我在本地机器上进行测试以来,我一直在使用“localhost”,而且效果很好。在AWSEMR上运行时,我盲目地尝试使用“localhost”,但作业失败了。我想知道的是我应该在该字段中输入什么主机名,以便weka调用正确的主机?是在启动集群时提供的公共(public)DNS名称,还是API中有一种方法可以为我获取该地址? 最佳答案 如果你想

java - 从主机操作系统访问沙箱中的 kafka(尝试所有解决方案后)

认为我是个菜鸟。我已经阅读了有关堆栈溢出的所有问题并尝试了一天,但解决方案就是不点击我。请专门帮助我设置和代码(因为我已经尝试了堆栈溢出时相同问题的所有可能性-)这是我的Producer.properties文件这是我的server.properties文件这是我的代码Propertiesprops=newProperties();props.put("metadata.broker.list","sandbox.hortonworks.com:9093");//props.put("zk.connect","sandbox.hortonworks.com:2181");props.p

hadoop 无法连接到本地主机

我是hadoop的初学者。现在,我有一个maven项目,配置如下:Configurationconf=newConfiguration();conf.set("mapred.job.tracker","http://127.0.0.1:8088");conf.set("yarn.resourcemanager.address","http://127.0.0.1:50070");conf.set("mapreduce.framework.name","yarn");但是当我在我的笔记本电脑上运行它时,程序会停止在INFOclient.RMProxy:ConnectingtoResour

hadoop - 无法从主机连接到 ZooKeeper/Hive 到 Sandbox Hortonworks HDP VM

我不久前下载了HDP-Sandbox(在OracleVirtualBoxVM中),但很少使用它,现在我正在尝试使用HiveHDBC从外部世界访问数据。我使用来自apache的hive-jdbc1.2.2,它是我从mvnrepository获得的,所有依赖项都在类路径中,或者hortonworksJDBC从他们的存储库获得http://mvnrepository.com/artifact/org.apache.hive/hive-jdbc/1.2.2或http://repo.hortonworks.com/content/repositories/releases/org/apache/