hdfs-agent

java - 一个处理HDFS数据的Kafka消费者应该跑到哪里去？

我是Hadoop和Kafka的新手。我继承了在桌面Windows机器上运行的Kafka消费者的代码，接收远程集群上可用的新XML数据的HDFS位置，下载数据进行处理，并将结果写回HDFS集群。在我看来，消费者应该在集群上运行，因为那是数据所在的地方，但我看到的所有示例Kafka消费者代码都表明生产者/消费者在常规桌面计算机上运行。Kafka消费者的典型目标平台是什么？最佳答案生产者和消费者可以在任何地方运行。您看到的示例暗示桌面执行，因为该代码比在Storm拓扑中运行的代码简单得多，并且示例往往过于简单。桌面环境的唯一原因是存在

Kafka java section 中运 hadoop apache-kafka

java - 如何使用 Java API 将文件从一个 HDFS 文件夹复制到另一个 HDFS 文件夹？

使用HDFSjavaAPI，我可以重命名(移动)HDFS中的文件。有没有办法复制文件？我对distcp不感兴趣，我打算复制一个文件。最佳答案根据documentation页面，你可以使用org.apache.hadoop.fs.FileUtilAPIpublicstaticbooleancopy(FileSystemsrcFS,Pathsrc,FileSystemdstFS,Pathdst,booleandeleteSource,booleanoverwrite,Configurationconf)throwsIOExcepti

HDFS java section FileSystem code hadoop

Hadoop:hdfs dfs -text 的倒数

在Hadoop中，hdfsdfs-text和hdfsdfs-getmerge命令允许人们从命令行轻松读取HDFS中压缩文件的内容，包括管道到其他命令进行处理(例如wc-l/dev/null))。这些命令是否有相互关系，允许从命令行将内容推送到HDFS，同时支持与上述命令相同的压缩和格式功能？hdfsdfs-put似乎只是将本地文件的原始副本复制到HDFS，而无需压缩或更改容器格式。也欢迎建议使用命令行工具来操作此类格式和压缩算法的答案。我通常会在CompressedStream中看到Snappy压缩数据，但不知道如何从命令行将纯旧文本文件(每行一个数据)转换为此类文件。我试了一下snz

Hadoop hdfs code section command-line hadoop2

hadoop - hdfs-site.xml 用于添加新的数据节点

我已经在伪分布式模式下安装了hadoop2.7.2(machine-1)。我想向它添加一个新的数据节点以使其成为一个集群。作为，但问题是两台机器都有不同的磁盘分区。我在新的数据节点(machine-2)中安装了相同版本的hadoop2.7.2，也可以与machine-1ssh。在谷歌搜索了很多网站之后，都有共同的教程提到，我们必须在里面有相同的配置文件/etc/hadoop/文件夹。综上所述，我在machine-1中的现有配置是:核心站点.xmlhadoop.tmp.dir/home1/tmpAbaseforothertemporarydirectoriesfs.default.nam

hdfs-site hadoop gt lt code

python - 如何将传感器数据存储到 Apache Hadoop HDFS、Hive、HBase 或其他

假设您正在从CSV文件中读取数百万行数据。每行显示传感器名称、当前传感器值和观察到该值时的时间戳。key,value,timestamptemp_x,8°C,10:52amtemp_x,25°C,11:02amtemp_x,30°C,11:12am这与这样的信号有关:所以我想知道将其存储到ApacheHadoopHDFS中的最佳和最有效的方法是什么。第一个想法是使用BigTableakaHBase。这里的信号名称是行键，而值是随时间保存值的列组。可以向该行键添加更多列组(例如统计信息)。另一个想法是使用表格(或类似SQL)的结构。但是随后您在每一行中复制key。并且您必须按需计算统计信

传感 python section noreferrer noopener hadoop hdfs signal-processing sensors

hadoop - Apache Spark 通过跨集群访问 hdfs 中的数据

我在AmazonEMR上运行Spark，假设其公共(public)DNS为23.21.40.15。现在我正在这个集群上执行我的SparkJar，我想将我的Spark作业的输出写入公共(public)DNS为29.45.56.72的其他AmazonEMRHDFS。我可以访问我自己的集群HDFS，即23.21.40.15，但我无法写入集群29.45.56.72。我需要做什么才能让我的spark作业可以跨集群访问HDFS??如果可能，谁能分享一个示例代码？？最佳答案当您在spark作业中设置输出目录时，您可以设置凭据以像这样访问它:h

hadoop Apache section code Spark apache-spark amazon-emr databricks

hadoop - 无法在 MESOS 框架 : Could not find or load main class org. apache.mesos.hdfs.scheduler.Main 上运行 HDFS

我尝试按照https://github.com/mesosphere/hdfs中提到的步骤进行操作.当我运行./bin/hdfs-mesos时，出现以下错误:Error:Couldnotfindorloadmainclassorg.apache.mesos.hdfs.scheduler.Main有谁知道我该如何解决这个错误？最佳答案为了运行mesos-hdfs，需要构建它。githubrepo仅包含源相同标记的版本。按照以下步骤操作:gitclonegit@github.com:mesosphere/hdfs.gitcdhdfs

scheduler hadoop hdfs section mesos

hadoop - 使用 spark/scala，我使用 saveAsTextFile() 到 HDFS，但是 hiveql("select count(*) from...) return 0

我创建了如下外部表...hive-e"createexternaltabletemp_db.temp_table(achar(10),bint)PARTITIONEDBY(PART_DATEVARCHAR(10))ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/work/temp_db/temp_table'"我在IntelliJIDEA中将saveAsTextFile()与scala一起使用，如下所示...itemsRdd.map(_.makeTsv).saveAsTextFile("hdfs://w

saveAsTextFile hadoop code temp_table temp hive hdfs hiveql

hadoop - 即使从 hdfs 删除后，Hive 如何读取数据？

我在配置单元中有一个外部表并指向HDFS位置。我错误地运行了两次将数据加载到HDFS的作业。即使从HDFShive中删除重复文件后，数据计数也会显示两次(即包括已删除的重复数据文件计数)。selectcount(*)fromtbl_name--returnsdoubletime但是，selectcount(col_name)fromtbl_name--returnsactualcount.之后我从Impala尝试使用同一张表INVALIDATEMETADATA我只能看到HDFS中可用的数据计数(不是重复的)。即使从物理位置(hdfs)中删除后，hive如何将计数设为双倍，它是否从统计信

即使 hadoop section blockquote tbl_name hive hdfs impala

Hadoop 缺少 HDFS 中存在的输入

晚安我正在尝试在Hadoopmapreduce上运行训练样本，但收到输入路径不存在的错误。16/09/2605:56:45ERRORstreaming.StreamJob:ErrorLaunchingjob:Inputpathdoesnotexist:hdfs://bigtop1.vagrant:8020/training但是，查看hdfs目录内部，很明显“training”文件夹存在。[vagrant@bigtop1code]$hadoopfs-lsFound3itemsdrwx-------vagranthadoop02016-09-2605:47.stagingdrwxr-xr-

Hadoop HDFS code training

173 174 175176177 178 179