集群NoSQL_草庐IT

hadoop - 增加 HDP 2.3 3 节点集群中的 HDFS 磁盘大小

在POC的3节点集群安装中，我的第3个笔记是DataNode，它有大约200GB的磁盘空间。根据ambari的HDFS磁盘使用小部件，我当前的HDFS使用情况如下:使用的DFS:512.8MB(1.02%)；非DFS使用8.1GB(16.52%)；剩余40.4GB(82.46%)当我执行df-h检查磁盘大小时，我可以看到tmpfs占用了大量空间，如下面的屏幕截图所示:我如何为我的HDFS使用该空间。我的节点3有200GB硬盘空间最佳答案您可以挂载tmpfs分区，例如:sudomount-ttmpfs-osize=32gtmpfs

hadoop - 配置hadoop文件(单节点集群)

在最新的hadoop版本(如2.7)中，有哪些适当且必要的配置？我正在阅读一些文档，尝试使用虚拟机在一个节点中安装hadoop，但我不确定我这样做是否正确。我正在配置core-site.xmlfs.default.namehdfs://localhost:9000和hdfs-site.xmldfs.replication1这些是最新版本所需要的独特配置文件，它们可以吗？而且，在最新版本中，配置作业跟踪器的mapred-site.xml是必需的吗？当我启动集群时，它启动了，但辅助名称节点显示为0.0.0.0，这是正常的吗？0.0.0.0:启动secondarynamenode，记录到/u

hadoop 配置 section gt

performance - 有没有办法通过 Hadoop 集群进行分布式文件下载？

我想为机器学习项目下载大量数据文件。这些下载需要很长时间，我想加快速度。我有一个Hadoop集群，我想我可以利用它来加快下载速度。有没有办法通过集群分发文件下载来提高速度？最佳答案如果您有文件列表和可用的sparkcontext，您只需执行sparkContext.parallelize(fileList).foreach(downloadMethod(_))它会自动将下载任务分配给执行者。关于performance-有没有办法通过Hadoop集群进行分布式文件下载？，我们在Sta

performance Hadoop section 长时 stackoverflow apache-spark download cluster-computing

apache - 独立 Hadoop 集群的系统配置

我要设置一个独立的Hortonworks集群。可以处理1TB数据所需的系统配置是什么。要求如:内存空间硬盘空间运行多少GHZ的四核/十六核/八核CPUCentos是哪个版本等，最佳答案系统配置取决于用例。磁盘-假设1个复制，1TB+25%处理空间如果您使用的是Hive或MapReduce，我会从16Gig、4或8核开始。中央操作系统7.0 关于apache-独立Hadoop集群的系统配置，我们在StackOverflow上找到一个类似的问题： https:

apache Hadoop section li stackoverflow cluster-computing hortonworks-data-platform

hadoop - Hadoop集群如何访问master的50070端口？

我已经安装了基于CentOS7的Hadoop2.7.2，一主三从。问题是我只能通过访问主机上的localhost:50070来获取Hadoop集群的状态。而且访问master:50070或者192.168.199.139:50070都不起作用，192.168.199.139是master的IP地址。同时，slaves也无法访问192.168.199.139:50070。访问50070是否需要更多指定的配置？在master中运行ifconfig:eno16777736:flags=4163mtu1500inet192.168.199.139netmask255.255.255.0broa

hadoop code section 50070 centos7

hadoop - 如何将配置单元连接到基于 Hadoop 2 的集群？

我设置了一个基于Hadoop2的集群，其中包含一个名称节点和两个数据节点。我也有一个边缘节点，我想在那里设置Hive。我想以这样的方式配置/设置Hive，使其仅利用集群资源运行其查询相关的MapReduce作业。通过一些谷歌搜索，似乎对于Hadoop1，设置以下属性可以完成这项工作(虽然不确定)。mapred.job.trackerhostname:portno但在Hadoop2的情况下，不确定要更改的正确属性是什么。会不会像下面这样？yarn.resourcemanager.addressnamenodehostname:50040 最佳答案

配置单 hadoop section lt hive

hadoop - 如何确定 NameNode 在 Hadoop 集群上维护的元数据的大小？

我已经在hadoop集群上放置了100个文件。我想确定与这些文件对应的NameNode维护的元数据的大小。最佳答案我相信你说的metadata是datanode中存储的数据block的信息。所有这些细节都将保存在名称节点内存RAM中。Namenode消耗大约150字节用于block元数据存储和150字节用于文件元数据存储。因此，让我们假设您的集群block大小为128Mb，并且您的100个文件中的每个文件的大小都在100Mb左右。然后每个文件在namenode中消耗300字节的内存。名称节点将消耗300*100=30000字节的

NameNode hadoop section stackoverflow questions hdfs metadata

sql - Apache Drill 对现有 Hadoop 集群中的其他 Hadoop 生态系统成员有什么负面影响吗？

如果我在现有的Hadoop集群中部署ApacheDrill，ApacheDrill是否会对现有Hadoop集群中的Hadoop生态系统的其他成员产生任何负面影响？最佳答案它不会对生态系统的其他成员产生任何负面影响，但会占用节点的大量内存。在安装Drill之前确保你有足够的内存。关于sql-ApacheDrill对现有Hadoop集群中的其他Hadoop生态系统成员有什么负面影响吗？，我们在StackOverflow上找到一个类似的问题： https://

Hadoop 负面 section sql olap apache-drill bigdata

hadoop - 如何将 Flink 作业提交到远程 YARN 集群？

我使用ApacheAmbari在4节点上安装了ApacheHadoop。我用ApacheFlink写了一个简单的作业。我想将此作业提交到我的YARN集群。但是Flink需要在本地机器上YARN配置文件(core-site.xml、yarn-site.xml等)。所以如果我没有误解的话，有两种手动方式在ResourceManager节点上启动flink作业(以查找配置文件)从ResourceManager下载配置文件到本地。我觉得，这两种方式都不是很好。如何将作业提交到远程YARN集群。有合适的方法吗？最佳答案在Hadoop/YA

交到 hadoop section code YARN hadoop-yarn apache-flink ambari

python - 如何使用集群中的多个节点处理海量数据——python

我有一个15节点的集群，我计划使用它来处理每天9000万行(Hive表)范围内的数据。数据作为配置单元表存在于其中一个节点中，我正在使用类似以下命令的命令，withhive.connect(host='hostnameofthatnode',port=10000,authMechanism='LDAP',user='username',password='pass')asconn:withconn.cursor()ascur:cur.execute('select*fromtablename')do_not_touch_this_data=pd.DataFrame(cur.fetch(

python mdash section 39 python-2.7 hadoop hive distributed-computing