hdfs_clusters

python - 使用 Python 从 HDFS 读取文件时出现连接超时错误

我在虚拟机中创建了一个单节点HDFS(hadoop.master，IP:192.168.12.52)。文件etc/hadoop/core-site.xml具有以下名称节点配置:fs.defaultFShdfs://master.hadoop:9000/我想从本地物理桌面上的HDFS读取文件。为此，这是我的代码，我将其保存在名为hdfs_read.py的文件中:fromhdfsimportInsecureClientclient=InsecureClient('http://192.168.12.52:9000')withclient.read('/opt/hadoop/LICENSE.

时出 python python3 packages hadoop hdfs

hadoop - 在缓存中找不到 Hdfs 委托(delegate) token - Spark 应用程序出错

我在Spark版本2.3.0中有一个简单的SparkStreaming应用程序，它将每个处理批处理的结果放在HDFS上。我的应用程序在部署模式客户端的YARN上运行，我正在使用kerberizedhadoop集群(hadoop2.6.0-cdh5.9.3)。我在spark-submit命令中设置了--principal和--keytab。几天后，由于缓存中缺少委托(delegate)token，我的应用程序无法写入HDFS。重新启动应用程序后，流媒体工作正常，但几天后由于同样的原因再次失败。这是来自驱动程序的日志:ERRORJobScheduler:Errorrunningjobstr

delegate hadoop section token hdfs spark-streaming hadoop-yarn kerberos

hadoop - HDFS集群的某些datanode在reducers运行时突然断开连接

我有8台从属计算机和1台运行Hadoop(ver0.21)的主控计算机当我在10GB数据上运行MapReduce代码时，集群的一些数据节点突然断开连接在所有映射器完成并处理了大约80%的缩减器后，随机将一个或多个数据节点从网络中断开。然后其他数据节点开始从网络中消失，即使我在发现某些数据节点断开连接时终止了MapReduce作业也是如此。我尝试将dfs.datanode.max.xcievers更改为4096，关闭所有计算节点的防火墙，禁用selinux并将文件打开数限制增加到20000但它们根本不起作用......有人有解决这个问题的想法吗？以下是mapreduce的错误日志12/0

datanode reducers gt lt property hadoop hdfs

hadoop - 将大文件复制到 HDFS

我正在尝试将一个大文件(32GB)复制到HDFS。我在HDFS中复制文件从来没有遇到过任何问题，但这些文件都比较小。我正在使用hadoopfs-put最高13.7GB一切顺利，但随后出现此异常:hadoopfs-put*/data/unprocessed/Exceptioninthread"main"org.apache.hadoop.fs.FSError:java.io.IOException:Input/outputerroratorg.apache.hadoop.fs.RawLocalFileSystem$LocalFSFileInputStream.read(RawLocalF

大文 hadoop apache java hdfs ioexception

hadoop - dncp_block_verification 日志文件在 HDFS 中增加大小

我们使用的是clouderaCDH5.3。我面临一个问题，其中“/dfs/dn/current/Bp-12345-IpAddress-123456789/dncp-block-verification.log.curr”和“dncp-vlock-verification.log.prev”的大小不断增加到数小时内结核病。我读了一些博客，他们提到这是一个HDFS错误。此问题的临时解决方案是停止数据节点服务并删除这些文件。但是我们观察到日志文件在两个数据节点上的大小都增加了(即使在删除它后在同一个节点上)。因此，它需要持续监测。有没有人可以永久解决这个问题？最

dncp_block_verification verification section code block hadoop hdfs cloudera cloudera-cdh cloudera-manager

apache - 为什么 hdfs 在 Hadoop 集群中抛出 LeaseExpiredException (AWS EMR)

我在hadoop集群中收到LeaseExpiredException-tail-f/var/log/hadoop-hdfs/hadoop-hdfs-namenode-ip-172-30-2-148.log2016-09-2111:54:14,533INFOBlockStateChange(IPCServerhandler10on8020):BLOCK*InvalidateBlocks:addblk_1073747501_6677to172.30.2.189:500102016-09-2111:54:14,534INFOorg.apache.hadoop.ipc.Server(IPCSe

LeaseExpiredException apache java hadoop amazon-web-services hive apache-tez

amazon-ec2 - 在 Amazon ec2 : multi node cluster 上运行 hadoop 作业

我必须在AmazonEC2集群上运行hadoopmapreduce作业。我尝试使用现有的AMI进行设置。但是在启动master和clients之后，“jps”没有列出任何节点。那么，即使在使用公共(public)hadoopAMI之后，我们还必须为主服务器和从服务器设置hadoop吗？master怎么知道slave的IP地址？？谁能告诉我一些好的文档。我现在已经为此苦苦思索了12个多小时。有人可以帮忙吗？谢谢。最佳答案 Matthew建议的另一种替代方法是使用Whirr。Whirr让在Amazon上部署Hadoop集群变得非常容易

amazon-ec cluster section hadoop apache amazon-ec2 mapreduce

exception - 格式化 HDFS 时出现 UnknownHostException

我已经使用以下命令在伪分布式模式下的CentOS6.364位上安装了CDH4instructions.Hadoop配置文件中的所有内容都设置为localhost。但是，当我格式化名称节点时，仍然会出现以下异常。当我将192.168.1.101CentOSHost条目添加到/etc/hosts文件时，异常消失，我能够运行格式化/启动HDFS并运行MR作业。即使没有连接到网络，我也想在/etc/hosts文件中添加条目的情况下运行MR作业。如何完成这项工作？12/08/2722:17:15WARNnet.DNS:Unabletodetermineaddressofthehost-falli

时出 UnknownHostException code section java exception hadoop hdfs

sql-server - 将 HDFS 上的数据导入 SQL Server 或将 HDFS 上的数据导出到 SQL Server

我一直在努力找出将数据从HDFS移植到SQLServer的最佳方法。我是使用sqoopHadoopConnectorforSQLServer2008R2从ClouderaHadoop导入数据还是我是否使用sqoop从ClouderaHadoop将数据导出到SQLServer根据我通读的一堆链接，我确信两者都是可能的http://www.cloudera.com/blog/2011/10/apache-sqoop-overview/http://www.microsoft.com/en-in/download/details.aspx?id=27584但是当我寻找可能在配置和维护级别上出

Server HDFS section noreferrer sqoop sql-server hadoop cloudera

postgresql - HDFS 到 PostgreSQL

我们需要一个流程来从HadoopDistributedFileSystem(HDFS)中提取数据定期到关系数据库(PostgreSQL)。我们需要每小时传输几百万条记录，我正在寻找最好的行业标准来将数据移出HDFS。有没有人有什么建议？这个想法是让网络应用程序与PostgreSQL交互，后者将聚合数据。最佳答案 Sqoop是为了在关系数据存储和Hadoop之间移动数据而构建的。具体来说，你想要sqoop-export. 关于postgresql-HDFS到PostgreSQL，我们在S

postgresql section noreferrer noopener hadoop etl hdfs

219 220 221222223 224 225