Hadoop2

python - 如何通过 pyspark/hadoop/etc 提高程序的速度？

我有一个大型矩阵目录，我正在对此类矩阵应用一些昂贵的操作。管道看起来像这样:Directory->extractmatrices->applyoperations->saveina.csvfile请注意，我将之前的“管道”包装到一个函数中。到目前为止，使用python的多处理库，我能够在1周内应用以前的管道。但是，我很好奇是否有可能以sparkmap-reduce的方式“并行化”之前的函数。因此，我的任务可以用pysparksmapreduce来增强吗？我怎样才能提高速度？(我只有两台笔记本电脑)，你们推荐我在不修改功能的情况下提高管道速度的其他方法是什么？

hadoop - Hadoop 中的副本在 NameNode 上所需的内存

在thisCloudera博文，在Replication部分，已经解释了复制不会消耗NameNode上的内存。但是，我对此持怀疑态度，因为我知道NameNode在主内存中存储有关每个文件及其副本的信息。那么，无论有无复制，内存需求如何相同？最佳答案那么内存消耗取决于你的意思，因为有物理内存和虚拟内存(我这里只说Namenode)就物理内存而言，Cloudera博客是正确的，因为Datanode有责任与Namenode通信(例如，在重启后连接时)它维护的block。Namenode仅将文件系统结构存储到磁盘(fsimage和编辑文

NameNode hadoop code strong section hdfs

hadoop - 如何在 HBase 集群设置中添加辅助 NameNode？

我有一个包含3个节点的Hbase集群设置:一个NameNode和2个DataNode。NameNode是一个4GB内存和20GB硬盘的服务器，而每个DataNode有8GB内存和100GB硬盘。我正在使用ApacheHadoop版本:2.7.2和ApacheHbase版本:1.2.4我看到有人提到了辅助NameNode。我的问题是，在我的设置中没有辅助NameNode有什么影响？是否可以使用其中一个DataNode作为辅助NameNode？如果可能，我该怎么做？(我只在/etc/hadoop/masters文件中插入了NameNode。) 最佳答案

何在 NameNode section code hadoop hbase

hadoop - Spark 数据集写入 HDFS 期间创建的空分区

尝试使用write方法将数据集/数据帧作为Parquet保存到hdfs。分区在HDFS中创建，但数据为空。我正在使用Spark版本-2.xdataset.write.mode("append").partitionBy("empNo").format("parquet").save("hdfspath")或dataset.write.mode(SaveMode.Overwrite).save("hdfspath")请推荐最佳答案我刚刚检查了它的数据框。根据您的查询将其分区在单个列上。在具有适当值的输出文件夹中创建了两个分区文件夹

空分 hadoop section code 34 apache-spark hdfs

macos - Hadoop2.7.3 : Cannot see DataNode/ResourceManager process after starting hdfs and yarn

我使用的是mac和java版本:$java-versionjavaversion"1.8.0_111"Java(TM)SERuntimeEnvironment(build1.8.0_111-b14)JavaHotSpot(TM)64-BitServerVM(build25.111-b14,mixedmode)点击此链接:https://dtflaneur.wordpress.com/2015/10/02/installing-hadoop-on-mac-osx-el-capitan/我先brewinstallhadoop，根据需要配置ssh连接和xml文件，start-dfs.shst

ResourceManager DataNode hadoop localhost code macos process hdfs hadoop-yarn

linux - 在 CentOS 中从 Root 提供对 Admin 的 Hadoop 完全访问权限

我已经在下面的目录中安装了Hadoop-2.8.0root。/root/hadoop-2.8.0我有一个名为“KrishnaMahi”的用户。他是管理员。他在下面的目录中。/home/krishnamahi我想向管理员提供Hadoop的完全访问权限。如何在不提供root密码的情况下提供对管理员的完全访问权限？我正在使用CentOS7。请帮我解决。最佳答案在root用户下执行以下命令chown-Rkrishnamahi:krishnamahi/root/hadoop-2.8.0然后执行下一条命令成为无密码的root用户visudo

CentOS Hadoop section krishnamahi blockquote linux centos7

hadoop - 如何避免 Hadoop 中的 Map/Reduce 任务失败

我有一个迭代次数太多的循环和一个在Reducer函数中计算量很大的函数。while(context.getCounter(SOLUTION_FLAG.SOLUTION_FOUND).getValue()MAX_ITR是迭代次数-用户输入问题是当我在Hadoop集群上运行它时出现超时错误并且Reducer任务被终止17/05/0621:09:43INFOmapreduce.Job:TaskId:attempt_1494129392154_0001_r_000000_0,Status:FAILEDAttemptID:attempt_1494129392154_0001_r_000000_0

hadoop section code stackoverflow mapreduce

scala - 使用hadoop parquet处理大数据到CSV输出

我有3个数据集，我想加入并分组它们以获得包含聚合数据的CSV。数据作为parquet文件存储在Hadoop中，我使用Zeppelin运行ApacheSpark+Scala进行数据处理。我的数据集如下所示:user_actions.show(10)user_clicks.show(10)user_options.show(10)+--------------------+--------------------+|id|keyword|+--------------------+--------------------+|00000000000000000001|aaaa1||00000

大数 parquet 34 user code scala hadoop apache-spark apache-zeppelin

hadoop - 无法访问 Hive 内部表-AccessControlException

我的用户ID和我的团队无法访问Hive数据库中的任何内部表。当我们也在HUE和“CLI”中启动查询时，我们得到了'AccessControlException',pleasefindthelogbelow,INFO:setmapreduce.job.reduces=INFO:Cleaningupthestagingareamaprfs:/var/mapr/cluster/yarn/rm/staging/keswara/.staging/job_1494760161412_0139ERROR:JobSubmissionfailedwithexceptionorg.apache.hadoo

AccessControlException hadoop apache java hive mapr

用于获取用于 hadoop 中各个节点的 dfs 的 Rest Api

是否有任何restAPI或Hadoop指标来获取用于单个节点的dfs。目前，我通过手动执行以下命令获取用于单个节点的dfshdfsdfsadmin-report 最佳答案它不是RESTAPI，但您应该能够使用NameNode的JMX接口(interface)来提取此信息。http://NAMENODE:DFSPORT/jmx?qry=Hadoop:service=NameNode,name=NameNodeInfo这包含与以下相同的信息:hdfsdfsadmin-report同时发布于:http://NAMENODE:DFSPOR

hadoop Rest section code pre hdfs

55 56 575859 60 61