Hadoop-Solr

hadoop - 在 Amazon EC2 上将 HDFS 与 Apache Spark 结合使用

我使用sparkEC2脚本设置了一个spark集群。我设置了集群，现在正尝试将文件放在HDFS上，这样我的集群就可以正常工作。在我的主机上，我有一个文件data.txt。我通过ephemeral-hdfs/bin/hadoopfs-putdata.txt/data.txt将它添加到hdfs现在，在我的代码中，我有:JavaRDDrdd=sc.textFile("hdfs://data.txt",8);执行此操作时出现异常:Exceptioninthread"main"java.net.UnknownHostException:unknownhost:data.txtatorg.apac

hadoop - Pig - 分组后 MAX 不工作

我正在使用Pig0.12.1和Map-R。在对其他字段的关系进行分组后，我试图找到一个字段的max。在评论中引用以下pig脚本和关系结构-r1=foreachSomeRelationgenerateflatten(group)as(c1,c2);--r1:{c1:biginteger,c2:biginteger}r2=groupr1byc1;--r2:{group:chararray,r1:{(c1:chararray,c2:biginteger)}}DUMPr2;/*output-1234|{(1234,9876)}2345|{(2345,8765)}3456|{(3456,76

hadoop Pig group section code group-by apache-pig

hadoop - 使用 Yarn 客户端在 Google Cloud 上的 Hadoop 中运行 JAR

我想使用Yarn客户端在GoogleCloud上的Hadoop中运行一个JAR。我在hadoop的master节点使用这个命令spark-submit--classfind--masteryarn-clientfind.jar但它返回这个错误15/06/1710:11:06INFOclient.RMProxy:ConnectingtoResourceManagerathadoop-m-on8g/10.240.180.15:803215/06/1710:11:07INFOipc.Client:Retryingconnecttoserver:hadoop-m-on8g/10.240.180

中运 hadoop code lt gt apache-spark google-compute-engine hadoop-yarn

java - Hadoop 纱作业 : Wrong FS

我用一个vagrantbox安装了一个cloudera集群。启动以下示例时出现错误:hadoopjar/usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jargrepinputoutput23'dfs[a-z.]+'我去/var/log/hadoop-yarn查看了日志。有几个日志文件，在yarn-yarn-nodemanager-cdh-master.log中，有如下stackstrace:2015-06-1711:42:42,398INFOSecurityLogger.org.apache.hadoop.ipc.Server:A

Hadoop Wrong apache yarn java cloudera-cdh

hadoop - 如何从 Hadoop 日志中找到中间输出字节大小并减少输出字节大小？

如何从hadoop日志中估计Mappers的总中间输出大小(以字节为单位)和Reducers的总输出大小(以字节为单位)？我的映射器和缩减器使用LZO压缩，我想知道压缩后映射器/缩减器输出的大小。15/06/0617:19:15INFOmapred.JobClient:map100%reduce94%15/06/0617:19:16INFOmapred.JobClient:map100%reduce98%15/06/0617:19:17INFOmapred.JobClient:map100%reduce99%15/06/0617:20:04INFOmapred.JobClient:ma

hadoop JobClient mapred INFO

maven - 由 : java. lang.ClassNotFoundException : org. apache.hadoop.fs.CanSetDropBehind issue in eclipse 引起

我有以下spark字数统计程序:packagecom.sample.spark;importjava.util.Arrays;importjava.util.List;importjava.util.Map;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.*;importorg.apache.spark.api.java.function.FlatMapFunction;importorg.apache.spark.api.java.function.Function;importorg.apache.s

ClassNotFoundException CanSetDropBehind gt lt apache maven hadoop apache-spark word-count

Hadoop "hadoop dfsadmin -safemode leave"命令已弃用

使用Sudojps查看正在运行的守护进程。并发现节点管理器没有运行。如此尝试，sudoservicehadoopmasterstop停止，当我尝试重新启动时它重新启动了。然而，当我给出这个命令时hadoopdfsadmin-safemodeleave它说它已被弃用。我也试过了hadoophdfsadmin-safemodeleave但是，得到Error:Couldnotfindorloadmainclasshdfsadmin 最佳答案 hadoopdfsadmin已被删除，但它应该可以工作。正确的用法是hdfsdfsadmin-sa

amp dfsadmin strong section code hadoop cloudera

java - Hadoop项目启动时需要的JAR有哪些？

这一定看起来像是一个愚蠢的问题，但我是Hadoop的新手并且正在尝试运行一个简单的示例。但是，我一直遇到JAR文件的问题并且似乎没有正确的导入。我正在使用clouderaCDH4，它有很多JAR文件可供选择，每个文件都有多个版本。因为我刚刚开始，所以无法区分。目前我得到这个异常(exception):Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/configuration/Configurationatorg.apache.hadoop.metrics2.lib.DefaultMetri

Hadoop java apache jar mapreduce hadoop2

performance - hadoop大文件不拆分

我有一个大小为136MB的输入文件，我启动了一些WordCount测试，我只监控一个映射器。然后我在我的hdfs-site.xml中将dfs.blocksize设置为64MB并且我仍然得到一个映射器。我做错了吗？最佳答案 dfs.block.sizeisnotaloneplayingaroleandit'srecommendednottochangebecauseitappliesgloballytoHDFS.Splitsizeinmapreduceiscalculatedbythisformulamax(mapred.min.s

大文 performance code section size hadoop split mapreduce

hadoop - HDFS 文件夹权限中的掩码是什么

我是hadoop用户，在Windows中使用Hadoop-2.6.0。我想将Acls用于文件夹级别的权限。我不明白目录的权限。据我所知，目录的所有者和super组中的用户对该目录具有完全访问权限。那么由::分隔的默认用户、组、其他和掩码是什么？HDFS如何检查权限。什么是掩码？在哪里、如何以及为什么使用它？我提到了HDFS_Permissions但不是很清楚。帮助我理解用法和概念。最佳答案 ACL的顺序为::.如果名称字段未填充，则它适用于每个用户/组。如果提供了名称，它将补充没有名称的条目。意思是，在您上面的示例中，默认情况下用

hadoop HDFS 条目 section code permissions acl

111 112 113114115 116 117