草庐IT

hdfs_clusters

全部标签

python - 使用 Python 从 HDFS 读取文件时出现连接超时错误

我在虚拟机中创建了一个单节点HDFS(hadoop.master,IP:192.168.12.52)。文件etc/hadoop/core-site.xml具有以下名称节点配置:fs.defaultFShdfs://master.hadoop:9000/我想从本地物理桌面上的HDFS读取文件。为此,这是我的代码,我将其保存在名为hdfs_read.py的文件中:fromhdfsimportInsecureClientclient=InsecureClient('http://192.168.12.52:9000')withclient.read('/opt/hadoop/LICENSE.

hadoop - 在缓存中找不到 Hdfs 委托(delegate) token - Spark 应用程序出错

我在Spark版本2.3.0中有一个简单的SparkStreaming应用程序,它将每个处理批处理的结果放在HDFS上。我的应用程序在部署模式客户端的YARN上运行,我正在使用kerberizedhadoop集群(hadoop2.6.0-cdh5.9.3)。我在spark-submit命令中设置了--principal和--keytab。几天后,由于缓存中缺少委托(delegate)token,我的应用程序无法写入HDFS。重新启动应用程序后,流媒体工作正常,但几天后由于同样的原因再次失败。这是来自驱动程序的日志:ERRORJobScheduler:Errorrunningjobstr

hadoop - HDFS集群的某些datanode在reducers运行时突然断开连接

我有8台从属计算机和1台运行Hadoop(ver0.21)的主控计算机当我在10GB数据上运行MapReduce代码时,集群的一些数据节点突然断开连接在所有映射器完成并处理了大约80%的缩减器后,随机将一个或多个数据节点从网络中断开。然后其他数据节点开始从网络中消失,即使我在发现某些数据节点断开连接时终止了MapReduce作业也是如此。我尝试将dfs.datanode.max.xcievers更改为4096,关闭所有计算节点的防火墙,禁用selinux并将文件打开数限制增加到20000但它们根本不起作用......有人有解决这个问题的想法吗?以下是mapreduce的错误日志12/0

hadoop - 将大文件复制到 HDFS

我正在尝试将一个大文件(32GB)复制到HDFS。我在HDFS中复制文件从来没有遇到过任何问题,但这些文件都比较小。我正在使用hadoopfs-put最高13.7GB一切顺利,但随后出现此异常:hadoopfs-put*/data/unprocessed/Exceptioninthread"main"org.apache.hadoop.fs.FSError:java.io.IOException:Input/outputerroratorg.apache.hadoop.fs.RawLocalFileSystem$LocalFSFileInputStream.read(RawLocalF

hadoop - dncp_block_verification 日志文件在 HDFS 中增加大小

我们使用的是clouderaCDH5.3。我面临一个问题,其中“/dfs/dn/current/Bp-12345-IpAddress-123456789/dncp-block-verification.log.curr”和“dncp-vlock-verification.log.prev”的大小不断增加到数小时内结核病。我读了一些博客,他们提到这是一个HDFS错误。此问题的临时解决方案是停止数据节点服务并删除这些文件。但是我们观察到日志文件在两个数据节点上的大小都增加了(即使在删除它后在同一个节点上)。因此,它需要持续监测。有没有人可以永久解决这个问题? 最

apache - 为什么 hdfs 在 Hadoop 集群中抛出 LeaseExpiredException (AWS EMR)

我在hadoop集群中收到LeaseExpiredException-tail-f/var/log/hadoop-hdfs/hadoop-hdfs-namenode-ip-172-30-2-148.log2016-09-2111:54:14,533INFOBlockStateChange(IPCServerhandler10on8020):BLOCK*InvalidateBlocks:addblk_1073747501_6677to172.30.2.189:500102016-09-2111:54:14,534INFOorg.apache.hadoop.ipc.Server(IPCSe

amazon-ec2 - 在 Amazon ec2 : multi node cluster 上运行 hadoop 作业

我必须在AmazonEC2集群上运行hadoopmapreduce作业。我尝试使用现有的AMI进行设置。但是在启动master和clients之后,“jps”没有列出任何节点。那么,即使在使用公共(public)hadoopAMI之后,我们还必须为主服务器和从服务器设置hadoop吗?master怎么知道slave的IP地址??谁能告诉我一些好的文档。我现在已经为此苦苦思索了12个多小时。有人可以帮忙吗?谢谢。 最佳答案 Matthew建议的另一种替代方法是使用Whirr。Whirr让在Amazon上部署Hadoop集群变得非常容易

exception - 格式化 HDFS 时出现 UnknownHostException

我已经使用以下命令在伪分布式模式下的CentOS6.364位上安装了CDH4instructions.Hadoop配置文件中的所有内容都设置为localhost。但是,当我格式化名称节点时,仍然会出现以下异常。当我将192.168.1.101CentOSHost条目添加到/etc/hosts文件时,异常消失,我能够运行格式化/启动HDFS并运行MR作业。即使没有连接到网络,我也想在/etc/hosts文件中添加条目的情况下运行MR作业。如何完成这项工作?12/08/2722:17:15WARNnet.DNS:Unabletodetermineaddressofthehost-falli

sql-server - 将 HDFS 上的数据导入 SQL Server 或将 HDFS 上的数据导出到 SQL Server

我一直在努力找出将数据从HDFS移植到SQLServer的最佳方法。我是使用sqoopHadoopConnectorforSQLServer2008R2从ClouderaHadoop导入数据还是我是否使用sqoop从ClouderaHadoop将数据导出到SQLServer根据我通读的一堆链接,我确信两者都是可能的http://www.cloudera.com/blog/2011/10/apache-sqoop-overview/http://www.microsoft.com/en-in/download/details.aspx?id=27584但是当我寻找可能在配置和维护级别上出

postgresql - HDFS 到 PostgreSQL

我们需要一个流程来从HadoopDistributedFileSystem(HDFS)中提取数据定期到关系数据库(PostgreSQL)。我们需要每小时传输几百万条记录,我正在寻找最好的行业标准来将数据移出HDFS。有没有人有什么建议?这个想法是让网络应用程序与PostgreSQL交互,后者将聚合数据。 最佳答案 Sqoop是为了在关系数据存储和Hadoop之间移动数据而构建的。具体来说,你想要sqoop-export. 关于postgresql-HDFS到PostgreSQL,我们在S