hdfs-agent

hadoop - 如何获取HDFS中特定时间后创建的目录列表？

我需要提取HDFS文件系统中特定时间段后创建的目录。Hadoop是否提供任何API或方法来获取此信息？最佳答案如果上次修改时间足够(Unixdoesnottrackcreationtimes,seee.g.thispost),以下内容可能有所帮助。使用API，您可以询问或filestatus并调用getModificationTime.使用命令行，您可以在Hadoop2.7中使用hadoopfs-ls-R-t.列出所有文件并按修改时间对它们进行排序。在以前的版本中，此排序不可用。此外，解析ls的输出并不总是一件好事，如thisp

hadoop - 配置 flume 在将数据下沉到 hdfs 时不生成 .tmp 文件

我正在使用flume将数据从服务器日志流式传输到hdfs。但是当数据流式传输到hdfs时，它首先创建.tmp文件。在配置中是否有一种方法可以隐藏.tmp文件，或者可以通过附加.tmp文件来更改名称。在前。我的收集代理文件看起来像-##TARGETAGENT####configurationfilelocation:/etc/flume/conf##STARTAgent:flume-ngagent-cconf-f/etc/flume/conf/flume-trg-agent.conf-ncollector#http://flume.apache.org/FlumeUserGuide.ht

下沉 hadoop collector flume sinks hdfs flume-ng

hadoop - 分布式文件系统(如 HDFS)上的 OpenMPI

HDFS(Hadoop分布式文件系统)等分布式文件系统是否支持OpenMPI？最佳答案 Hadoop不是使用MPI实现的，因为MPI是一种消息传递接口(interface)，而MapReduce是一种最初由Google开发用于运行大数据应用程序的工具。Hadoop/Mapreduce的主要功能之一是容错。但它在MPI中不受支持。引用Whyisn'tHadoopimplementedusingMPI?MPIandMapReduce让我们来回答您的问题，一篇文章说，在YARN下运行MPI作业的前景是一个诱人的提议。如前所述，现在存储在

OpenMPI hadoop section MapReduce noreferrer hdfs

java - 如何使用 Spark Streaming Java API 将 Twitter 推文写入 HDFS

SparkConfconf=newSparkConf().setMaster("local[2]").setAppName("SparkTwitterHelloWorldExample");JavaStreamingContextjssc=newJavaStreamingContext(conf,newDuration(60000));System.setProperty("twitter4j.oauth.consumerKey",consumerKey);System.setProperty("twitter4j.oauth.consumerSecret",consumerSecre

Streaming Twitter section SparkTwitterHelloWorldExample String java hadoop apache-spark spark-streaming

hadoop - 无法将文件从本地目录放入 HDFS

我在本地目录中创建了一个名为“file.txt”的文件，现在我想通过使用将其放入HDFS中:-]$hadoopfs-putfile.txtabcd我收到类似的回复put:'abcd':nosuchfileordirectory我从未在Linux上工作过。请帮帮我-如何将文件“file.txt”放入HDFS？最佳答案如果您没有在hadoop(HDFS或使用的任何其他文件系统)中指定绝对路径，它会预先附加您的用户目录以创建绝对路径。默认情况下，在HDFS中，您的默认文件夹应该是/user/用户名。然后在您的情况下，您正在尝试创建文件

放入 hadoop code section hdfs hadoop-partitioning

hadoop - 比较 HDFS 中的毫秒时间戳

我有2个时间戳列存储在HDFS中，我可以通过Impala、hive等访问它们...我需要比较的时间戳可能如下例所示:2014-04-0800:23:21.6870000002014-04-0800:23:21.620000000由于毫秒数不同，需要建立一个新的列，在这个例子中应该有一个值0.067000我试过使用impala的builtintimefunctions但他们似乎都没有晋级。我试过:将字符串转换为时间戳，然后减去2个值。这将返回错误“AnalysisException:算术运算需要数字操作数”使用unix_timestamp函数。这会将值截断为代表秒的int，因此亚秒级值会

毫秒 hadoop section impala stackoverflow timestamp hdfs

hadoop - 用于从 Netezza 到 HDFS 的数据传输的 Sqoop 作业

我编写了一个sqoop作业，用于将数据从Netezza中的表导入到HDFS。该作业已成功创建，并且在执行时也会启动MapReduce作业。作业一直运行到map100%reduce0%并卡住。作业永远不会完成，数据根本不会传输。没有观察到错误或异常。对于同一数据库的其他表，我几乎没有类似的工作。那些正确执行并传输数据。这种行为的可能原因是什么。以下是选项文件中给出的sqoop作业的配置。--直接-连接jdbc:netezza://url/database_name-用户名ABCD-密码xyz-table表名--拆分primary_key_column--目标目录hdfs_path-m

Netezza hadoop section strong sqoop

database - 将记录存储在 HDFS 或 HBase 中

我有以下场景:测量数据以文件形式通过网络服务上传这些文件随后被复制到HDFS每个测量包含一个或多个参数的许多特征(值)测量值的数量可能不同使用Hadoop上的机器学习算法处理测量值并非所有测量都进行了，而是针对特定用户在特定时间段进行的(例如，对用户X在Y-Z期间上传的文件进行处理)中间结果存储在HDFS，最终结果也是如此我的问题与第二点有关-这些文件后来被复制到HDFS-我担心存在大量小文件(例如1MB)可能是个问题。我的想法是将该文件存储在数据库中，这样我就可以避免小文件的问题，并且还能够查询数据(为用户选择一段时间的数据)。这是更好的方法吗？如果答案是肯定的，我可以使用哪些数据库

database HBase li section 量值 hadoop

hadoop - Spark 合并与 HDFS getmerge

我正在用Spark开发一个程序。我需要将结果放在一个文件中，因此有两种方法可以合并结果:合并(Spark):myRDD.coalesce(1,false).saveAsTextFile(pathOut);之后在HDFS中合并它:hadoopfs-getmergepathOutlocalPath哪个最有效、最快速？是否有任何其他方法可以合并HDFS中的文件(如“getmerge”)，将结果保存到HDFS，而不是将其保存到本地路径？最佳答案如果您确定您的数据适合内存，那么coalesce可能是最好的选择，但在其他情况下，为了避免OO

getmerge hadoop section apache apache-spark hdfs coalesce

hadoop - [HDFS connector + Kafka]单机模式下如何写多个主题？

我正在使用Confluent的HDFS连接器将流式数据写入HDFS。我遵循了用户手册和quickstart并设置我的连接器。当我只使用一个主题时，它可以正常工作。我的属性文件看起来像这样name=hdfs-sinkconnector.class=io.confluent.connect.hdfs.HdfsSinkConnectortasks.max=1topics=test_topic1hdfs.url=hdfs://localhost:9000flush.size=30当我添加多个主题时，我看到它不断地提交偏移量，但我没有看到它写入已提交的消息。name=hdfs-sinkconne

connector hadoop hdfs connect confluent apache-kafka apache-kafka-connect confluent-platform

47 48 495051 52 53