hdfs_clusters

hadoop - 是否可以写入远程 HDFS？

如题，是否可以写入远程HDFS？例如我在AWSEC2上安装了一个HDFS集群，我想从我的本地计算机写入一个文件到HDFS集群。最佳答案写入远程HDFS的两种方法，使用可用的WebHDFSapi。它支持在外部运行的系统Hadoop集群访问和操作HDFS内容。它不需要客户端系统安装hadoop二进制文件。将客户端系统配置为Hadoopedgenode以与Hadoop集群/HDFS。请引用，https://hadoop.apache.org/docs/r1.2.1/webhdfs.htmlhttp://www.dummies.com/

hadoop - 如何将位于 HDFS 上的类型安全配置文件添加到 spark-submit(集群模式)？

我有一个Spark(Spark1.5.2)应用程序，可以将数据从Kafka流式传输到HDFS。我的应用程序包含两个Typesafe配置文件来配置某些东西，比如Kafka主题等。现在我想在集群中使用spark-submit(集群模式)运行我的应用程序。我项目的所有依赖项的jar文件存储在HDFS上。只要我的配置文件包含在jar文件中，一切正常。但这对于测试目的是不切实际的，因为我总是必须重建jar。因此我排除了项目的配置文件，并通过“driver-class-path”添加了它们。这适用于客户端模式，但如果我现在将配置文件移动到HDFS并在集群模式下运行我的应用程序，它找不到设置。您可以

spark-submit 位于 spark SimpleConfig code hadoop apache-spark hdfs typesafe

java - 使用 Java API 将 Parquet 格式写入 HDFS，而不使用 Avro 和 MR

通过直接创建Pojo的ParquetSchema将ParquetFormat写入HDFS(使用JavaAPI)的简单方法是什么，无需使用avro和MR？我发现的示例已过时并且使用了已弃用的方法也使用了Avro、spark或MR之一。最佳答案实际上，没有很多示例可用于在没有外部框架帮助的情况下读取/写入Apacheparquet文件。核心parquet库是parquet-column，您可以在其中找到一些直接读取/写入的测试文件:https://github.com/apache/parquet-mr/blob/master/pa

Parquet java strong section hadoop hdfs

Java将HDFS中的文件复制到HDFS中的另一个目录

我正在使用此链接中的示例here将内容从hdfs中的一个目录复制到hdfs中的另一个目录。文件的复制有效，但它在目标中创建了一个新的子目录，而不是仅仅将文件复制到目标目录。示例:Pathsource=newPath("hdfs://HANameService/sources/hpm_support/apc_code/");Pathtarget=newPath("hdfs://HANameService/staging/hpm_support/apc_code/");FileSystemfs=source.getFileSystem(conf);FileUtil.copy(fs,sour

HDFS Java code apc_code section hadoop

hadoop - HDFS 中的存储格式

HDFS如何存储数据？我想以压缩方式存储大文件。例如:我有一个1.5GB的文件，默认复制因子为3。它需要(1.5)*3=4.5GB的空间。我相信目前没有发生隐式数据压缩。有没有一种技术可以压缩文件并将其存储在HDFS中以节省磁盘空间？最佳答案 HDFS将任何文件存储在多个“block”中。block大小可根据每个文件进行配置，但具有默认值(例如64/128/256MB)因此，给定一个1.5GB的文件和128MB的block大小，hadoop会将文件分成约12个block(12x128MB~=1.5GB)。每个block也被复制了可

hadoop HDFS section block storage

configuration - cdh4 hadoop-hbase PriviledgedActionException 为 :hdfs (auth:SIMPLE) cause:java. io.FileNotFoundException

我已经安装了clouderacdh4release我正在尝试在上面运行mapreduce作业。我收到以下错误-->2012-07-0915:41:16ZooKeeperSaslClient[INFO]ClientwillnotSASL-authenticatebecausethedefaultJAASconfigurationsection'Client'couldnotbefound.IfyouarenotusingSASL,youmayignorethis.Ontheotherhand,ifyouexpectedSASLtowork,pleasefixyourJAASconfigu

PriviledgedActionException FileNotFoundException hadoop jar hdfs configuration mapreduce hbase cloudera

hadoop - Oracle 一致性和 Hadoop HDFS 之间有什么区别

OracleCoherence和HadoopHDFS之间的区别是什么，已经阅读了有关HDFS和coherence(但不清楚)的内容，听起来两者都在做同样的事情。这些是解决不同问题的不同技术还是相同技术但不同产品？需要知道它们在技术方面的区别和相似之处，即更广泛的实现角度，这两者适合什么地方？注意:我不是要进行产品比较(所以没有gorilla与鲨鱼的对比)。最佳答案这两个系统实现了两个概念。HDFS-分布式文件系统，针对大规模顺序IO进行了优化。OracleCoherence是缓存解决方案，能够将磁盘用于其部分数据。它针对随机IO

hadoop Oracle section HDFS in-memory oracle-coherence

hadoop - CloudStore 与 HDFS

有没有人熟悉同时使用CloudStore和高清文件系统。我有兴趣了解CloudStore的扩展程度以及它在生产中的使用程度。CloudStore似乎比HDFS功能更全。在考虑这两个文件系统时，有哪些实际的权衡？最佳答案 Steve，CloudStore似乎应该比HDFS更快，因为它是用C++设计的。我们也对此比较感兴趣，并计划在生产中使用它。如果您在这方面发现任何有趣的事情，请告诉我们。关于hadoop-CloudStore与HDFS，我们在StackOverflow上找到一个类似的

CloudStore hadoop section 产中 hdfs

hadoop - 从 HDFS 导入数据到 Hive 表

我的数据在HDFS的data/2011/01/13/0100/file中，每个文件都包含以制表符分隔的数据，比如名称、ip、url。我想在Hive中创建一个表并从hdfs中导入数据，表中应包含时间、名称、ip和url。如何使用Hive导入这些？r数据应该采用其他格式以便我也可以导入时间？最佳答案您需要创建用于加载文件的表，然后使用LOADDATA命令将文件加载到Hive表中。查看Hivedocumentation了解要使用的精确语法。问候，杰夫关于hadoop-从HDFS导入数据到

hadoop HDFS section Hive 建一

hadoop - 更新 hadoop HDFS 文件

我是Hadoop的新手。我一直在读到HDFS主要是关于“一次写入，随时读取”。我有一个用例，我可能必须对存储在HDFS中的文件进行修改。我一直在研究是否有任何方法可以做到这一点。我的问题是是否可以将HDFS文件加载到HBase中，进行修改，然后将其保存回HDFS，然后删除原始文件。如果可行，请告诉我。最佳答案如果您需要更新文件中的值，您最好使用HBase。您仍然可以通过TableInputFormat和TableOutputFormat在MR作业中使用HBase表。如果您想追加数据，您可以使用任何支持hdfs追加的hadoop版

hadoop HDFS section

54 55 565758 59 60