hdfs_clusters

hadoop - 将文件/ block 从 HDFS 复制到从节点的本地文件系统

在Hadoop中，我理解主节点(Namenode)负责存储从机(Datanode)中的数据block。当我们使用-copyToLocal或-get时，从master可以将文件从HDFS复制到master节点的本地存储。奴隶有什么办法可以将存储在其中的block(数据)复制到他们自己的本地文件系统？例如，一个128MB的文件可以拆分为2个从属节点，每个从属节点存储64MB。从机有什么办法可以识别并将这block数据加载到其本地文件系统中吗？如果是这样，如何以编程方式完成？在这种情况下是否也可以使用命令-copyToLocal或-get？请帮忙。最佳答案

hadoop - 服务器安装 hdfs 客户端失败

我在Ambari上安装HDFS客户端时收到以下错误。服务器重置了好几次，还是解决不了。知道如何解决这个问题吗？标准错误:Traceback(mostrecentcalllast):File"/var/lib/ambari-agent/cache/common-services/HDFS/2.1.0.2.0/package/scripts/hdfs_client.py",line120,inHdfsClient().execute()File"/usr/lib/python2.6/site-packages/resource_management/libraries/script/scr

hadoop hdfs resource_management resource site-packages hortonworks-data-platform ambari

hadoop - 将数据从 HDFS 写入 Kafka

当数据最终写入HDFS时，Kafka通常用于摄取管道。有没有使用Kafka将数据从HDFS传输到外部系统的设计？我知道Kafka更适合作为消息系统，但是我们可以使用Kafka的发布-订阅来传输数据吗？在此用例中，生产者将数据从HDFS(一次1行)写入主题，消费者将异步读取。实现时可能会遇到数据大小、安全性等方面的挑战。我知道其他方式，比如sqoop、distcp等最佳答案您应该能够使用Mapreduce或您选择的任何框架来实现它。我猜是像ApacheNifi这样的东西可以开箱即用，但还没有尝试过那个方向。

hadoop Kafka section HDFS apache-kafka

hadoop - HDFS 中的 Spark 类路径

对于在YARN(yarn-client)上运行的Spark作业，是否可以使用位于HDFS中的jars指定类路径有点像MapReduce作业是可能的:DistributedCache.addFileToClassPath(Pathfile,Configurationconf,FileSystemfs) 最佳答案来自SparkContext文档:defaddJar(path:String):UnitAddsaJARdependencyforalltaskstobeexecutedonthisSparkContextinthefutur

hadoop Spark section code SparkContext apache-spark hdfs hadoop-yarn

hadoop - 我是否必须在所有节点中运行历史服务器才能在 Hadoop Cluster WebUI 中获取作业历史记录

我在Hadoop集群中遇到一个问题。我有一个包含5个数据节点和一个边缘/网关节点的Hadoop集群。我的问题是我必须在每个节点(1个名称节点和5个数据节点)中启动历史服务器，以从hadoopwebUI获取任何提交作业的作业历史记录。我在mapred-site.xml中添加了mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address但我猜它不能正常工作。如果我仅在名称节点或任何其他节点中启动历史服务器，HadoopClusterWeb-UI将无法向我显示作业历史记录并以一些错误结束。我的映射站点XMLmapred.jo

有节点中 gt lt property hadoop hadoop2 bigdata

hadoop - ffmpeg直接输出到HDFS

我有一个要求，我必须将RTSP流转换为mp4视频或帧(视情况而定)并希望将它们保存在HDFS(Hadoop文件系统)中。为此，我尝试使用ffmpeg将RTSP流转换为mp4视频/帧并将视频/帧保存在本地文件系统中。就像下面-ffmpeg-irtsp://10.0.37.150:8554/big_bunny.mkv-r1-fimage2frames/big_frame-%3d.bmpffmpeg-irtsp://10.0.37.150:8554/big_bunny.mkvbig_bunny.mp4然后使用put命令将视频/帧(存储在本地文件系统中)保存到hdfs-hadoopfs-put

hadoop ffmpeg code big_bunny video hdfs rtsp

hadoop - hive 查询 : Is there a way to use UDTF with `cluster by` ?

已解决:原来是我的UDTF出错了。我找到了一个修复程序，但我不太明白为什么它会起作用。当初我实现UDTF的时候，Eclipse提示initializeisdeprecated。但是如果我跳过它就会出错，所以我还是实现了它。我在那个方法里放了一个变量初始化，猜测init只做一次。该jar适用于一些更简单的场景，但如果我要将UDTF输出与UDF一起使用，则使用UDF输出来做一些事情，例如作弊的clusterby或insert，我得到了前面提到的错误。我的工程师friend发现initialize实际上被执行了不止一次。所以我只是将初始化放在process中，使用if检查变量是否为null，

cluster hadoop code section hive

java - 将文件从服务器上传到另一台服务器的 Hdfs

我想将文件从外部Windows服务器上传到不同服务器中的Hdfs。Hdfs是该服务器中clouderadocker容器的一部分。我从Windows服务器连接到Hdfs，如下所示:Configurationconf=newConfiguration();conf.set("fs.defaultFS","hdfs://%HDFS_SERVER_IP%:8020");fs=FileSystem.get(conf);当我调用fs.copyFromLocalFile(localFilePath,hdfsFilePath);时，它会抛出异常并创建Hdfs中没有任何内容的文件。:org.apache

传到 java gt lt property hadoop hdfs

hadoop - 无法使用 importtsv 将数据从 Hdfs 导入到 Hbase

我将制表符分隔的文件移动到hdfs，现在正试图将它移动到hbase。下面是我的importtsv命令bin/hbaseorg.apache.hadoop.hbase.mapreduce.ImportTsv-Dimporttsv.columns=HBASE_ROW_KEY,cf:ok,cf:ek,cf:rk,cf:rsk,cf:pdk,cf:pmk,cf:omk,cf:sok,cf:sdk,cf:cdk,cf:q,cf:uc,cf:up,cf:usp,cf:gm,cf:st,cf:gp-Dimporttsv.skip.bad.lines=false'sales_fact'hdfs://l

importtsv hadoop apache java hbase bulk-load

linux - 将文件拆分为 HDFS 中的小文件

我在HDFS中有一个名为test.txt的文件。它包含1000条记录。我想将test.txt分成10个包含相同记录数的小文件。我可以在Linux中执行此操作，如下所示split-l$(($(wc-l在HDFS中是否有类似的功能。如何在HDFS中实现此目的最佳答案输入格式为NLineInputFormat的简单HadoopStreaming作业可以完成此任务。hadoopjar$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-.jar\-Dmapreduce.input.li

linux HDFS code section hadoop bash split

197 198 199200201 202 203