在POC的3节点集群安装中,我的第3个笔记是DataNode,它有大约200GB的磁盘空间。根据ambari的HDFS磁盘使用小部件,我当前的HDFS使用情况如下:使用的DFS:512.8MB(1.02%);非DFS使用8.1GB(16.52%);剩余40.4GB(82.46%)当我执行df-h检查磁盘大小时,我可以看到tmpfs占用了大量空间,如下面的屏幕截图所示:我如何为我的HDFS使用该空间。我的节点3有200GB硬盘空间 最佳答案 您可以挂载tmpfs分区,例如:sudomount-ttmpfs-osize=32gtmpfs
在最新的hadoop版本(如2.7)中,有哪些适当且必要的配置?我正在阅读一些文档,尝试使用虚拟机在一个节点中安装hadoop,但我不确定我这样做是否正确。我正在配置core-site.xmlfs.default.namehdfs://localhost:9000和hdfs-site.xmldfs.replication1这些是最新版本所需要的独特配置文件,它们可以吗?而且,在最新版本中,配置作业跟踪器的mapred-site.xml是必需的吗?当我启动集群时,它启动了,但辅助名称节点显示为0.0.0.0,这是正常的吗?0.0.0.0:启动secondarynamenode,记录到/u
我想为机器学习项目下载大量数据文件。这些下载需要很长时间,我想加快速度。我有一个Hadoop集群,我想我可以利用它来加快下载速度。有没有办法通过集群分发文件下载来提高速度? 最佳答案 如果您有文件列表和可用的sparkcontext,您只需执行sparkContext.parallelize(fileList).foreach(downloadMethod(_))它会自动将下载任务分配给执行者。 关于performance-有没有办法通过Hadoop集群进行分布式文件下载?,我们在Sta
我要设置一个独立的Hortonworks集群。可以处理1TB数据所需的系统配置是什么。要求如:内存空间硬盘空间运行多少GHZ的四核/十六核/八核CPUCentos是哪个版本等, 最佳答案 系统配置取决于用例。磁盘-假设1个复制,1TB+25%处理空间如果您使用的是Hive或MapReduce,我会从16Gig、4或8核开始。中央操作系统7.0 关于apache-独立Hadoop集群的系统配置,我们在StackOverflow上找到一个类似的问题: https:
我已经安装了基于CentOS7的Hadoop2.7.2,一主三从。问题是我只能通过访问主机上的localhost:50070来获取Hadoop集群的状态。而且访问master:50070或者192.168.199.139:50070都不起作用,192.168.199.139是master的IP地址。同时,slaves也无法访问192.168.199.139:50070。访问50070是否需要更多指定的配置?在master中运行ifconfig:eno16777736:flags=4163mtu1500inet192.168.199.139netmask255.255.255.0broa
我设置了一个基于Hadoop2的集群,其中包含一个名称节点和两个数据节点。我也有一个边缘节点,我想在那里设置Hive。我想以这样的方式配置/设置Hive,使其仅利用集群资源运行其查询相关的MapReduce作业。通过一些谷歌搜索,似乎对于Hadoop1,设置以下属性可以完成这项工作(虽然不确定)。mapred.job.trackerhostname:portno但在Hadoop2的情况下,不确定要更改的正确属性是什么。会不会像下面这样?yarn.resourcemanager.addressnamenodehostname:50040 最佳答案
我已经在hadoop集群上放置了100个文件。我想确定与这些文件对应的NameNode维护的元数据的大小。 最佳答案 我相信你说的metadata是datanode中存储的数据block的信息。所有这些细节都将保存在名称节点内存RAM中。Namenode消耗大约150字节用于block元数据存储和150字节用于文件元数据存储。因此,让我们假设您的集群block大小为128Mb,并且您的100个文件中的每个文件的大小都在100Mb左右。然后每个文件在namenode中消耗300字节的内存。名称节点将消耗300*100=30000字节的
如果我在现有的Hadoop集群中部署ApacheDrill,ApacheDrill是否会对现有Hadoop集群中的Hadoop生态系统的其他成员产生任何负面影响? 最佳答案 它不会对生态系统的其他成员产生任何负面影响,但会占用节点的大量内存。在安装Drill之前确保你有足够的内存。 关于sql-ApacheDrill对现有Hadoop集群中的其他Hadoop生态系统成员有什么负面影响吗?,我们在StackOverflow上找到一个类似的问题: https://
我使用ApacheAmbari在4节点上安装了ApacheHadoop。我用ApacheFlink写了一个简单的作业。我想将此作业提交到我的YARN集群。但是Flink需要在本地机器上YARN配置文件(core-site.xml、yarn-site.xml等)。所以如果我没有误解的话,有两种手动方式在ResourceManager节点上启动flink作业(以查找配置文件)从ResourceManager下载配置文件到本地。我觉得,这两种方式都不是很好。如何将作业提交到远程YARN集群。有合适的方法吗? 最佳答案 在Hadoop/YA
我有一个15节点的集群,我计划使用它来处理每天9000万行(Hive表)范围内的数据。数据作为配置单元表存在于其中一个节点中,我正在使用类似以下命令的命令,withhive.connect(host='hostnameofthatnode',port=10000,authMechanism='LDAP',user='username',password='pass')asconn:withconn.cursor()ascur:cur.execute('select*fromtablename')do_not_touch_this_data=pd.DataFrame(cur.fetch(