hdfs_clusters

hadoop - 如果输入文件有任何变化，Flume 将日志写入 hdfs

我是ApacheFlume的新手，我有一个用例，其中有一个定期更新的输入文件“sample.txt”，它最初包含以下数据NameAgeSexAddressxxx20MChennai有时它会更新为NameAgeSexAddressYYY25FSalemZZZ18MCovai每当输入文件发生变化时，我希望使用Apacheflume将该文件写入hdfs。任何人都可以建议我链接或者任何人都可以告诉我如何实现这一目标最佳答案您可以将flumetail视为来源。我正在指向一些url。请引用它们。http://www.rittmanmead.

hadoop - 将文件从远程 Unix 和 Windows 服务器复制到 HDFS，无需中间暂存

如何在不从命令行进行中间暂存的情况下将文件从远程Unix和Windows服务器复制到HDFS？最佳答案您可以使用以下命令:hadoopfs-cp/user/myuser/copyTestFolder/*hdfs://remoteServer:8020/user/remoteuser/copyTestFolder/反之亦然，从服务器复制到本地机器。您还可以阅读hadoopdocumentation. 关于hadoop-将文件从远程Unix和Windows服务器复制到HDFS，无需中间暂

Windows hadoop section copyTestFolder hdfs cloudera hortonworks-data-platform biginsights

sql - 在 hdfs 中存储关系数据的最佳方式

最近我阅读了很多关于hadoop的文章，我可以说我理解它的一般概念，但仍然(至少)有一block拼图我无法理解。在hdfs中存储关系数据的最佳方式是什么。首先，我知道hadoop的存在无法替代为我的应用程序提供服务的传统好旧sql数据库。我在这里面临的问题是我想使用hadoop将来自多个系统的数据聚合到hdfs中。然后我可以将来自多个系统的数据交叉引用在一起，然后生成我的报告工具等使用的新数据集。好吧，那么，我应该使用一个表将表数据导入一个文件，还是应该导入连接表的查询结果。例如:SQLtables:Person:PersonIDNameBirthdaySexCompany:Compa

hdfs sql section blockquote hadoop

hadoop - 如何将图像文件从 HDFS 目录移动到 HBase？

我有ClouderaCDH5.3.0我在HDFS中有一个目录，其中包含几千兆字节的图像文件。这些文件有多种类型(jpg、png、gif)。对于每个文件picturename.jpg，我希望在HBase中有一行以picturename作为行键，一列包含图像数据。有人可以解释一下我将如何完成这样的事情吗？最佳答案对于背景，HBase将所有内容存储为二进制。你会Put和Get二进制数据。将图像作为二进制文件读取正如您所描述的，HBase表看起来像rowkeycf:data有几种方法可以将数据提取到HBase。使用或不使用mapredu

hadoop HBase code section cloudera-cdh

hadoop - 如何获取HDFS中特定时间后创建的目录列表？

我需要提取HDFS文件系统中特定时间段后创建的目录。Hadoop是否提供任何API或方法来获取此信息？最佳答案如果上次修改时间足够(Unixdoesnottrackcreationtimes,seee.g.thispost),以下内容可能有所帮助。使用API，您可以询问或filestatus并调用getModificationTime.使用命令行，您可以在Hadoop2.7中使用hadoopfs-ls-R-t.列出所有文件并按修改时间对它们进行排序。在以前的版本中，此排序不可用。此外，解析ls的输出并不总是一件好事，如thisp

hadoop HDFS section noreferrer

hadoop - 配置 flume 在将数据下沉到 hdfs 时不生成 .tmp 文件

我正在使用flume将数据从服务器日志流式传输到hdfs。但是当数据流式传输到hdfs时，它首先创建.tmp文件。在配置中是否有一种方法可以隐藏.tmp文件，或者可以通过附加.tmp文件来更改名称。在前。我的收集代理文件看起来像-##TARGETAGENT####configurationfilelocation:/etc/flume/conf##STARTAgent:flume-ngagent-cconf-f/etc/flume/conf/flume-trg-agent.conf-ncollector#http://flume.apache.org/FlumeUserGuide.ht

下沉 hadoop collector flume sinks hdfs flume-ng

hadoop - 分布式文件系统(如 HDFS)上的 OpenMPI

HDFS(Hadoop分布式文件系统)等分布式文件系统是否支持OpenMPI？最佳答案 Hadoop不是使用MPI实现的，因为MPI是一种消息传递接口(interface)，而MapReduce是一种最初由Google开发用于运行大数据应用程序的工具。Hadoop/Mapreduce的主要功能之一是容错。但它在MPI中不受支持。引用Whyisn'tHadoopimplementedusingMPI?MPIandMapReduce让我们来回答您的问题，一篇文章说，在YARN下运行MPI作业的前景是一个诱人的提议。如前所述，现在存储在

OpenMPI hadoop section MapReduce noreferrer hdfs

java - 如何使用 Spark Streaming Java API 将 Twitter 推文写入 HDFS

SparkConfconf=newSparkConf().setMaster("local[2]").setAppName("SparkTwitterHelloWorldExample");JavaStreamingContextjssc=newJavaStreamingContext(conf,newDuration(60000));System.setProperty("twitter4j.oauth.consumerKey",consumerKey);System.setProperty("twitter4j.oauth.consumerSecret",consumerSecre

Streaming Twitter section SparkTwitterHelloWorldExample String java hadoop apache-spark spark-streaming

hadoop - 无法将文件从本地目录放入 HDFS

我在本地目录中创建了一个名为“file.txt”的文件，现在我想通过使用将其放入HDFS中:-]$hadoopfs-putfile.txtabcd我收到类似的回复put:'abcd':nosuchfileordirectory我从未在Linux上工作过。请帮帮我-如何将文件“file.txt”放入HDFS？最佳答案如果您没有在hadoop(HDFS或使用的任何其他文件系统)中指定绝对路径，它会预先附加您的用户目录以创建绝对路径。默认情况下，在HDFS中，您的默认文件夹应该是/user/用户名。然后在您的情况下，您正在尝试创建文件

放入 hadoop code section hdfs hadoop-partitioning

hadoop - 比较 HDFS 中的毫秒时间戳

我有2个时间戳列存储在HDFS中，我可以通过Impala、hive等访问它们...我需要比较的时间戳可能如下例所示:2014-04-0800:23:21.6870000002014-04-0800:23:21.620000000由于毫秒数不同，需要建立一个新的列，在这个例子中应该有一个值0.067000我试过使用impala的builtintimefunctions但他们似乎都没有晋级。我试过:将字符串转换为时间戳，然后减去2个值。这将返回错误“AnalysisException:算术运算需要数字操作数”使用unix_timestamp函数。这会将值截断为代表秒的int，因此亚秒级值会

毫秒 hadoop section impala stackoverflow timestamp hdfs

41 42 434445 46 47