HADOOP_NAMENODE_OPTS

java - 错误: org. apache.hadoop.mapred.InvalidInputException:输入路径不存在

我是nutch和solr集成方面的新手。我想抓取新的url，所以我在ubuntu中安装了solr4.6.0版和nutch1.6版。首先我从一些配置开始，但我仍然得到这个错误:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:File:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_fetchInputpathdoesnotexist:file:/home/cloudera/apache-nutch-1.6/bin/2015052903

java hadoop : FileReader VS InputStreamReader

我想在hadoophdfs上使用我的java类，现在我必须重写我的函数。问题是，如果我使用InputStreamReader，我的应用会读取错误的值。这是我的代码(所以它的工作，我想使用未注释的代码部分):publicstaticGeoTimeDataCenter[]readCentersArrayFromFile(intiteration){Propertiespro=newProperties();try{pro.load(GeoTimeDataHelper.class.getResourceAsStream("/config.properties"));}catch(Except

InputStreamReader FileReader section GeoTimeDataCenter temp java hadoop bufferedreader

hadoop - 无法登录 http ://127. 0.0.1:8080/to ambari

安装HDP2.2.4后，我无法在127.0.0.1:8080登录ambari。尝试使用默认用户名/密码作为admin/admin并一次又一次地弹出。我在尝试运行之前启用了ambari 最佳答案默认的用户名/密码是maria_dev/maria_dev。请按照officialsite中给出的演练进行操作.您还可以使用ssh进入系统:sshroot@127.0.0.1-p2222在这种情况下，密码将是hadoop。关于hadoop-无法登录http://127.0.0.1:8080/to

hadoop ambari section code hortonworks-data-platform

hadoop - HDFS 复制因子 - 最小化数据丢失风险

编辑-长话短说:在写入HDFS被认为成功之前，所有副本节点是否必须存储文件(其所有block)？如果是这样，复制因子是否会影响写入延迟？原始问题:在Hadoop2中，我可以通过将dfs.replication属性设置为大于1的值来控制数据block副本的数量(默认值并不总是3in一些hadoop发行版，如EMR)。据我了解，HDFS的行为是同步写入第一个副本，而其他副本则通过管道传输，并且复制以异步方式进行。这个对吗？如果上述情况成立，那么如果第一个节点向namenode发送ack然后在能够完成异步复制之前被陨石击中，则始终存在数据丢失的风险。有没有办法保证至少有X个节点在写入bloc

最小化 hadoop block the strong mapreduce hdfs replication

Hadoop 输入文件名问题

我面临如下问题。我的输入文件夹包含一个名为:/xyz/pqr/job_ip/output_upto_Thu_Apr_23_14:53:05_2015.log的文件当我开始我的hadoop作业时，我的作业无法读取输入如果我更改文件名，请说mv/xyz/pqr/job_ip/output_upto_Thu_Apr_23_14:53:05_2015.log/xyz/pqr/job_ip/output_upto_Thu_Apr_23_145305_2015.log然后我的工作运行正常...当我将文件名保留为output_upto_Thu_Apr_23_14:53:05_2015.log时出现的

Hadoop 输入 output_upto_Thu_Apr java section mapreduce bigdata

java - 在 hadoop 中使用 Reducer 类

这个问题在这里已经有了答案:HowdoIcomparestringsinJava?(23个回答)关闭7年前。我正在构建一个mapreduce作业。问题是比较工作不正常。如何比较这些字符串？publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{intnumItems1=0;for(Textval1:values){if(val1.toString()=="view")///ifnotworking{numItems1=numItems1+1;numItem

Reducer hadoop section numItems numItems1 java mapreduce reduce

python - hadoop 流 : where are application logs?

我的问题类似于:hadoopstreaming:howtoseeapplicationlogs?(答案中的链接目前无法使用。所以我必须再次发布它并提出一个额外的问题)我可以在/usr/local/hadoop/logs路径下看到所有hadoop日志但是我在哪里可以看到应用程序级别的日志？例如:reducer.py-importlogging....logging.basicConfig(level=logging.ERROR,format='MAP%(asctime)s%(levelname)s%(message)s')logging.error('Test!')...我在stderr

application python hadoop java apache logging mapreduce hadoop-streaming

hadoop - 我想在不同服务器上的水槽中读取日志文件

我想从flume中的不同服务器读取一个日志文件，它在一些不同的服务器上启动并运行......所以我如何通过更改我的flume-conf来实现这一点。properties文件.......我应该在flume的配置文件中写什么来实现这个......a1.sources=AspectJa1.channels=memoryChannela1.sinks=kafkaSinka1.sources.AspectJ.type=com.flume.MySourcea1.sources.AspectJ.command=tail-F/tmp/data/Log.txt为了实现这个我应该写什么来代替a1.sou

水槽 hadoop section strong flume

hadoop - 为什么需要格式化namenode？

我想了解为什么在启动hadoop守护程序之前需要格式化名称节点。我知道如何格式化它，但不知道我为什么要这样做。最佳答案当我们格式化名称节点时，它会格式化与数据节点相关的元数据。通过这样做，数据节点上的所有信息都将丢失，并且可以将它们重新用于新数据。关于hadoop-为什么需要格式化namenode？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/30625068/

namenode hadoop section stackoverflow questions

hadoop - 为什么 YARN 会为一个简单的计数操作占用大量内存？

我有一个标准配置的HDP2.2环境，其中包含Hive、HBase和YARN。我使用Hive(/wHBase)对具有大约1000万行的表执行简单的计数操作，结果YARN消耗了10gb的内存。如何减少这种内存消耗？为什么它需要这么多内存来计算行数？最佳答案一个简单的计数操作涉及后端的mapreduce作业。在您的案例中，这涉及1000万行。看here为了更好的解释。好吧，这只是针对在后台和执行时发生的事情，而不是关于内存需求的问题。至少，它会提醒您要寻找的地方。This也几乎没有解决方案可以加快速度。快乐编码

hadoop YARN section stackoverflow why-is-select-count-slower-than-s mapreduce hive hadoop-yarn hortonworks-data-platform

25 26 272829 30 31