HDFS_DATANODE_草庐IT

eclipse - hadoop 将输出写入 hdfs 文件

我已经编写了我的第一个mapreduce程序，当我在eclipse中运行它时，它会写入输出文件并按预期工作。但是，当我使用hadoopjarmyjar.jar从命令行运行它时，结果没有写入输出文件。正在创建输出文件(_SUCCESS和part-r-0000)，但它们是空的。有任何持久性问题吗？减少输入记录=12但减少输出记录=0。但是如果我在eclipse中这样做，那么它就不为零。在Eclipse中，减少输出记录不是0。任何帮助表示赞赏。谢谢[cloudera@quickstartDesktop]$sudohadoopjarcheckjar.jarhdfs://quickstart.c

java - hdfs 文件在伪分布式单节点集群中的位置？

我以伪分布式模式在单个节点上安装了hadoop。dfs.replication值为1，hdfs中的文件默认存放在哪里？我使用的hadoop版本是2.5.1。最佳答案 dfs.datanode.data.dir:确定DFS数据节点应在本地文件系统中存储其block的位置。如果这是一个逗号分隔的目录列表，那么数据将存储在所有命名的目录中，通常在不同的设备上。不存在的目录将被忽略。此属性的默认值为:file://${hadoop.tmp.dir}/dfs/data您可以在core-site.xml文件中配置${hadoop.tmp.di

java hdfs hadoop section hadoop-project-dist mapreduce bigdata

hadoop - 我如何关联 Amazon EC2、S3 和我的 HDFS？

本人是伪分布式学习hadoop，对集群了解不多。因此，当浏览集群时，我发现S3是一种数据存储设备。而EC2是一个计算服务，却无法理解它的真正用途。我的HDFS可以在S3中使用吗？如果是的话，当我学习hive时，我遇到了将数据从HDFS移动到S3的情况，这被称为归档逻辑。hadoopdistcp/data/log_messages/2011/12/02s3n://ourbucket/logs/2011/12/02我的HDFS登陆S3那么它有什么好处呢？这可能很愚蠢，但如果有人能给我一个对我有帮助的概述。最佳答案 S3只是存储，不允许

hadoop Amazon section HDFS amazon-ec2 amazon-s3

hadoop - 在 Amazon EC2 上将 HDFS 与 Apache Spark 结合使用

我使用sparkEC2脚本设置了一个spark集群。我设置了集群，现在正尝试将文件放在HDFS上，这样我的集群就可以正常工作。在我的主机上，我有一个文件data.txt。我通过ephemeral-hdfs/bin/hadoopfs-putdata.txt/data.txt将它添加到hdfs现在，在我的代码中，我有:JavaRDDrdd=sc.textFile("hdfs://data.txt",8);执行此操作时出现异常:Exceptioninthread"main"java.net.UnknownHostException:unknownhost:data.txtatorg.apac

hadoop Amazon apache spark scala amazon-web-services amazon-ec2 apache-spark hdfs

hadoop - HDFS 文件夹权限中的掩码是什么

我是hadoop用户，在Windows中使用Hadoop-2.6.0。我想将Acls用于文件夹级别的权限。我不明白目录的权限。据我所知，目录的所有者和super组中的用户对该目录具有完全访问权限。那么由::分隔的默认用户、组、其他和掩码是什么？HDFS如何检查权限。什么是掩码？在哪里、如何以及为什么使用它？我提到了HDFS_Permissions但不是很清楚。帮助我理解用法和概念。最佳答案 ACL的顺序为::.如果名称字段未填充，则它适用于每个用户/组。如果提供了名称，它将补充没有名称的条目。意思是，在您上面的示例中，默认情况下用

hadoop HDFS 条目 section code permissions acl

scala - 无法使用 spark shell 在 hdfs 中创建 Parquet 文件

我想在hdfs中创建parquet文件，然后通过hive将其作为外部表读取。在编写Parquet文件时，我对spark-shell中的阶段失败感到震惊。星火版本:1.5.2斯卡拉版本:2.10.4Java:1.7输入文件:(employee.txt)1201，萨蒂什，25岁1202，克里希纳，28岁1203，阿米斯，39岁1204，贾韦德，231205,普鲁德维,23在Spark-Shell中:valsqlContext=neworg.apache.spark.sql.SQLContext(sc)valhiveContext=neworg.apache.spark.sql.hive.H

中创 Parquet strong 34 spark scala hadoop apache-spark

Bash - 如何检查文件是否已上传到 hdfs？

我createdafolderinhdfs.现在，我尝试将文件从我的本地文件系统上传到tmp文件夹，如下所示:hdfsdfs-putopt/ibm/labfiles/README.md/user/root/input/tmp但我得到消息:put:'/user/root/input/tmp':Fileexists我不明白的是:如果文件存在，当我运行测试时，我没有看到列出的文件，但文件夹具有文件的大小(4811位)。再一次，tmp甚至可能不是一个文件夹:如何查看tmp是否为文件夹？我如何查看README.md文件是否在tmp中，如果不在，我如何将它放在那里？从此处启动SparkShell时

传到 Bash code section tmp scala hadoop apache-spark hdfs

hadoop - 如何使用数据上的某些键将 HDFS 文件拆分为多个目录

我有一个包含以下示例数据的HDFS文件idnametimestamp1Lorem2013-01-012Ipsum2013-02-013Ipsum2013-03-01现在我想以/data/YYYY/MM/DD格式将数据拆分到多个目录中，例如记录1转到目录/data/2016/01/01.pig中有MultiStorageUDF，可以按年、月或日拆分为单个目录。有什么办法可以分成多个目录吗？最佳答案您可以从这三种方法中进行选择:您可以编写shell脚本来完成此任务你可以用partition-er类编写mapreduce作业您可以创建

hadoop HDFS file cloudera 2013 apache-pig

hadoop - 如果 RegionServer 崩溃并且数据尚未写入 DataNode 会怎样？

如果RegionServer崩溃了，数据还没有写入DataNode会怎样？我会丢失数据吗？如果一些RegionServers挂了，会影响数据的一致性吗？最佳答案如果在写入数据时启用了预写日志(您可以禁用它以进行快速插入)，则不会丢失数据。当客户端发出Put请求时，HBase将数据写入预写日志。WAL用于在服务器崩溃时恢复尚未持久化的数据。所有写入和读取都是到/从主节点。HDFS复制WAL和HFileblock。HFileblock复制自动发生。HBase依靠HDFS在存储文件时提供数据安全。数据写入HDFS时，先在本地写入一份，

RegionServer DataNode section strong stackoverflow hadoop hbase

hadoop - 从 hdfs 读取数据时级联的实现问题

假设我在hdfs目录中有这些文件500/Customer/part-001500/Customer/part-002500/Customer/part-003是否可以检查元组来自哪个部分文件？注意:我已经研究过了，但一无所获。最佳答案你的问题不是很清楚。假设您的输出采用以下布局，分隔符为“;”身份证；姓名；年龄1;约旦;222;内森;33等等您可以使用awk或grep或两者来获取记录例如，如果你想搜索记录Nathan，试试文件命令grep-r"Nathan"部分*以上命令将搜索字符串“Nathan”，如果该字符串存在于任何部分文

hadoop hdfs section Nathan strong cascading bigdata