草庐IT

hdfs-audit

全部标签

hadoop - 使用 Flume 将数据从 kafka 提取到 HDFS::ConfigurationException:必须指定引导服务器

我正在尝试使用水槽将数据从kafka源提取到hdfs。下面是我的水槽配置文件。flume1.sources=kafka-source-1flume1.channels=hdfs-channel-1flume1.sinks=hdfs-sink-1flume1.sources.kafka-source-1.type=org.apache.flume.source.kafka.KafkaSourceflume1.sources.kafka-source-1.bootstrap.servers=localhost:9092flume1.sources.kafka-source-1.zookee

scala - 从 spark 中列出/检索 HDFS 分区作为 Map(String,List(String))

我想知道是否有某种方法可以利用spark.hdfs文件夹结构中已经存在的元数据信息。例如,我正在使用以下代码将数据写入hdfs,valcolumns=Seq("country","state")dataframe1.write.partitionBy(columns:_*).mode("overwrite").save(path)这会生成类似的目录结构,path/country=xyz/state=1path/country=xyz/state=2path/country=xyz/state=3path/country=abc/state=4我想知道的是使用spark,有没有办法将所有

java - 如何从 mapreduce 中引用本地 hdfs 文件?

我想从我的mapreduce脚本中引用hadoop中hdfs集群上的一个文件。是否可以在不使用完整路径(hdfs://ip/path/to/file)而是使用本地/path/to/file引用的情况下执行此操作?我正在使用java并尝试过类似的方法:Filefile=newFile(stringPathToFile);但这似乎引用了本地文件系统。提前致谢! 最佳答案 您必须使用HadoopAPI访问该文件.您可能正在寻找open.这将为您提供一个类似于通用打开文件的流。File不知道如何处理HDFS中的文件。我找到了这个codeex

hadoop - 不使用 HDFS 时的数据局部性

当您为Hadoop的Map/Reduce部分提供不同于HDFS的存储(如MySql服务器等)时,它的数据局部性特性会发生什么变化?换句话说,我的理解是HadoopMap/Reduce使用数据局部性来尝试在数据所在的同一节点上启动map任务,但是当数据存储在sqlsever中时,任务节点上没有本地数据,因为所有数据都在sqlserver节点中。那么在那种情况下我们会丢失数据局部性还是数据局部性的定义正在改变?如果它改变了,新的定义是什么? 最佳答案 如果数据不在集群中,则没有数据局部性。必须从远程源复制所有数据。这与任务无法在包含HD

hadoop - 是否可以将 Hadoop Counter 数据保存到 HDFS 中?

我想以编程方式使用计数器数据。这可能吗?数据可以保存在HDFS中。 最佳答案 在作业的主要功能中,作业完成后,您可以通过编程方式从作业中获取计数器,然后将它们保存到HDFS中。所以您的主要代码将如下所示:...job.waitForCompleteion();//readcounterslookssomethinglikethis:Countersc=job.getCounters();Countercnt=c.findCounter("YouCounterName");//counterhasgetName()andgetValu

hadoop - HDFS如何修改数据

如果HDFS不允许修改文件,HBase怎么存储和修改数据?这个问题很难找到答案,因为结果大多是面向HBase物理数据格式的。但是我找不到HBase如何解决HHDFS文件的不可变性问题? 最佳答案 HBase以索引的形式将数据存储在HDFS中。将事情过于简单化,HDFS文件将键按排序顺序存储,因此可以快速查找特定键。HBase数据存储在RegionServers(RS)中进行处理。在RS中,key首先写入内存存储(称为memstore)。memstore存储新键/更新和删除。在一定的阈值之后,这些键作为新的索引文件被推送到HDFS。更

java - 如何在 Hadoop HDFS 目录中移动文件?

我需要将文件从一个HDFS目录移动到另一个HDFS目录。我想检查是否有一些更简单的方法(一些HDFSAPI)来完成相同的任务,除了InputStream/OutputStream?我听说过FileSystem.rename(srcDir,destDir);但不确定这是否会删除原始src目录。我不想删除原来的目录结构,只是将文件从一个文件夹移动到另一个目录。例如inputDir-/testHDFS/input/*.txtdestDir-/testHDFS/destination移动文件后,目录应如下所示:-inputDir-/testHDFS/inputdestDir-/testHDFS

csv - 如何创建具有多个 hdfs 文件的 Hive 表

所以基本上我想创建一个包含csv文件的表我试过这样的事情,其中​​文件名彼此仅相差最后两位:CREATEEXTERNALTABLEpageviews(page_datestring,sitestring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY';'LINESTERMINATEDBY'\n'STOREDASTEXTFILELOCATION'/user/hue/201401/pageviews/supersite_1046_201401**.csv';对我来说,这个语法看起来不错,但是当我执行它时,我得到以下信息:Erroroccurredexecutin

xml - Impala 可以查询存储在 Hadoop/HDFS 中的 XML 文件吗

我正在研究Hadoop/Impala组合是否能满足我的归档、批处理和实时即席查询要求。我们会将XML文件(格式良好并符合我们自己的XSD模式)持久化到Hadoop中,并使用MapReduce处理日终批处理查询等。对于需要低延迟和相对高延迟的临时用户查询和应用程序查询我们正在考虑Impala的性能。我想不通的是Impala如何理解XML文件的结构,以便它可以有效地查询。Impala能否用于以有意义的方式跨XML文档进行查询?提前致谢。 最佳答案 Hive和Impala实际上并没有处理XML文件的机制(这很奇怪,考虑到大多数数据库都支持

hadoop - 将新组添加到 hdfs

SoThereishdfs:hdfsuser/groupexistshadoopcluster还有其他用户分配给hdfs,它提供对文件系统的写入和读取访问权限如何创建一个新组并将现有用户添加到该组,并具有对文件系统的读写访问权限? 最佳答案 HDFS在其文件系统中不维护单独的用户/组,而是像unix一样在底层操作系统中使用用户/组。如果您创建一个也可以在hdfs中使用的unix用户/组。无需在集群所有节点创建用户/组,只需要在访问hdfs文件系统的节点创建用户/组即可。在unix中创建用户/组后。使用以下命令更改文件/目录的所有者: