hdfs_rtp

hadoop - 关键 : HDFS-HAWQ - Migration to New Hardware

我们有PHD3.0版本的hadoop集群，用于5个节点，使用安装在rackspace上的ambari。我们必须迁移到Google云(GCP)。但没有得到步骤如何进行以下操作Q1:如何将数据、元数据配置从旧机器迁移到新机器。(旧机器版本是cantos6.5目标机器版本是centos6.5)Q2:要备份哪些组件和文件夹？命令是什么？Q3:如何备份nameode和datanodes？Q4:ambari数据库也需要备份吗？如有任何帮助，我们将不胜感激？最佳答案我个人更喜欢在GCP中配置hadoop集群，并使用distcp将数据移动到新集

hadoop - 如何删除Docker容器中的HDFS数据

我通过-v挂载本地文件夹在Docker中运行hadoop集群。然后我登录hadoop集群并“cd”到安装文件夹并执行hdfsdfs-put./data/*input/。它有效。但我的问题是我无法删除复制到hdfs的数据。我通过dockerrm删除容器，但数据仍然存在。现在我只能重置Docker，数据可以被删除。还有其他解决办法吗？这是我的docker信息➜hadoopdocker信息容器:5运行:5暂停:0停止:0图片:1服务器版本:1.12.3存储驱动:aufs根目录:/var/lib/docker/aufs支持文件系统:extfs目录:22支持Dirperm1:true记录驱动程序

容器 hadoop docker code section

hadoop - hdfs数据倾斜，为什么文件分布不均匀？

我运行一个有32个从站的HDFS。每个slave大约有300GB的本地剩余磁盘空间(其余的不用于HDFS。)当我放置32*100GB的文件时，这些文件只传送给了一些奴隶。由于磁盘空间不足，它使任务崩溃。如何避免这个问题？最佳答案我不是管理员，但这是我看到您的问题时想到的第一件事。Hadoop是一个“拓扑感知”系统。请阅读它here.如果拓扑不正确，则使用默认复制(3x)的HDFS写入将按顺序写入(随机节点-->不同机架上的节点-->与第二个副本相同的机架，但不同节点)。检查复制因子也是个好主意。希望这对您有所帮助!

不均 hadoop section stackoverflow

ubuntu - 将 csv 日志文件从 Windows 服务器转储到 ubuntu VirtualBox/hadoop/hdfs

我们每天都以csv的形式从应用程序中获取新文件，这些文件存储在Windows服务器中，比如c:/programfiles(x86)/webapps/apachetomcat/.csv每个文件中都有不同的数据，所以有没有hadoop组件将文件从Windows服务器传输到hadoophdfs，我遇到了flume，kafka但没有得到正确的例子，任何人都可以在这里遮光。所以每个文件都有单独的名称，大小可达10-20mb，每天的文件数超过200个文件，一旦文件添加到Windows服务器，flume/kafka应该能够将这些文件放入hadoop，以后的文件是从spark处理的HDFS导入并移动到

ubuntu VirtualBox section strong flume hadoop apache-kafka

sql-server - 将 SQL Server 数据库导入 HDFS 或 HIVE

我在Azure上部署了一个hdinsight集群。我需要将SQL数据库复制到Hdfs位置或直接复制到配置单元。我是建立这些联系的新手。请让我知道建议。谢谢。最佳答案看来您并不清楚您到底需要什么。您能否提供有关此任务的更多详细信息？但同时我建议您验证Hive或HDFS的配置文件(.xml)和连接。以下链接可能对您的调试有帮助:https://learn.microsoft.com/en-us/azure/hdinsight/hdinsight-use-hivehttps://msdn.microsoft.com/en-us/lib

sql-server server section hdinsight https hadoop hive sqoop azure-hdinsight

hadoop - 重启后 HDFS block 损坏

我在ubuntu16.10上安装了Hadoop一切正常:我能够在HDFS中上传输入文件并执行map-reduce操作。但是当我重新启动我的PC时，所有HDFSblock都已损坏并且NameNode以安全模式启动所以我必须1)退出安全模式2)删除所有损坏的blockhdfsfsck-delete3)重新上传输入文件然后它可以正常工作，直到下次重新启动。有人可以帮我解决这个问题吗？谢谢最佳答案我解决了我的问题。我使用此链接检查我的配置文件http://www.bogotobogo.com/Hadoop/BigData_hadoop_

hadoop block section BigData_hadoop_Install_on_ubuntu_mapreduce hdfs namenode

hadoop - 从 HDFS 加载数据到 hive

这个问题在这里已经有了答案:HowtoloaddatatohivefromHDFSwithoutremovingthesourcefile?(3个答案)关闭5年前。谁能解释如何在不删除源文件的情况下将数据从HDFS加载到Hive外部表。如果我使用LOADDATAINPATH'/user/root/cards/deckofcards.txt'INTOTABLEdeck_of_cards;文件用户/user/root/cards会被删除吗？

hadoop HDFS section notice code

java - 如何使用 Java 在 HDFS 中创建和填充 Parquet 文件？

在没有Hive或Impala库支持的情况下，使用Java在HDFS中创建和填充Parquet文件的最佳方法是什么？我的目标是将一个简单的csv记录(字符串)写入位于HDFS中的Parquet文件。之前提出的所有问题/答案都令人困惑。最佳答案好像parquet-mr是要走的路。他们提供Thrift和Avro的实现。自己的实现应该基于ParquetOutputFormat可能看起来类似于AvroParquetOutputFormat和AvroWriteSupport进行实际转换。关于j

中创建和 parquet section apache java hadoop hdfs

python hdfs 远程上传文件到hdfs

我想通过python模块“hdfs”将文件远程上传到我的hdfs。我的hadoop在我的linux上运行，但我想远程上传我windows(或其他电脑)上的文件。当我使用如下代码时:fromhdfsimportInsecureClientclient=InsecureClient('http://xx.xx.xx.xx:50070',user='user')我可以使用client.walk('/')查看目录，但我无法上传文件，它引发如下错误:requests.packages.urllib3.exceptions.NewConnectionError::Failedtoestablish

hdfs python section code client hadoop

Java 代码无法完全从 HDFS 读取文件

我正在从HDFS读取文件。我正在使用下面的代码来实现这一点。publicclassClassMain{publicstaticvoidmain(String[]args)throwsIOException{Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(conf);PathinFile=newPath(args[1]);PathoutFile=newPath(args[2]);FSDataInputStreamin=fs.open(inFile);FSDataOutputStreamout=fs.crea

Java HDFS code section buffer hadoop

110 111 112113114 115 116