草庐IT

hdfs_rtp

全部标签

hadoop - 如何将 HDFS 中数据的默认位置更改为某个永久位置?

我在伪分布式单节点集群中运行Hadoop,我在将数据的默认位置从/var/lib/hadoop-0.20/cache/hadoop/dfs/data更改为某个永久位置时遇到问题每次重新启动时都不会被清除。我是Hadoop生态系统的新手。我们将不胜感激任何帮助。谢谢:) 最佳答案 在hdfs-site.xml中设置dfs.data.dir应该会有帮助。默认设置为${hadoop.tmp.dir}/dfs/data,这就是为什么/var/lib/hadoop-0.20/cache/hadoop/dfs/data在你的情况下。您可以在hd

hadoop - 将数据从自定义格式上传到 HDFS 集群

我有几台机器有TB的自定义格式的日志数据,可以用c++库读取。我想将所有数据上传到hadoop集群(HDFS),同时将其转换为parquet文件。这是一个持续的过程(意味着我每天都会获得更多数据)而不是一次性的努力。什么是性能明智(高效地执行)的最佳替代方案?parquetC++库和Java库一样好吗?(更新、错误等)该解决方案应该每天处理数十TB,将来甚至更多。日志数据持续到达并且应该立即在HDFS集群上可用。 最佳答案 性能方面,您最好的方法是分批收集数据,然后每批写出一个新的Parquet文件。如果你的数据是单行接收的,并且你

hadoop - 使 HDFS 计算本地文件的校验和。

我正在尝试使用hadoopfs-checksum计算本地文件校验和。但它只返回无。[centos@sandboxtmp]$hadoopfs-checksumfile:///user/centos//a.jsonfile:///user/centos/a.json无我试过用hadoopfs-copyFromLocala.jsonfile:///user/centos/a.json这样在本地文件夹/user/centos生成一个.a.json.crc文件。但是结果校验和仍然没有返回。Hadoop如何在本地计算校验和? 最佳答案 hado

linux - Hadoop - 列出 HDFS 目录中的所有子目录并将每个目录路径保存到 bash 变量中

假设我有一个名为myDirectory的HDFS目录,其中包含可变数量的子目录,如下所示:/tmp|___mainDirectory|___subDirectory1|___subDirectory2..|___subDirectoryN如何将主目录中每个子目录的路径捕获为bash变量?例如,在上述情况下,我最终会得到N个bash变量,其中每个变量看起来像这样:var_1=/tmp/mainDirectory/subDirectory1var_2=/tmp/mainDirectory/subDirectory2..etc到目前为止,在执行hadoopfs-ls/tmp/mainDire

python - 从 REST API 获取数据并将其存储在 HDFS/HBase 中

我是大数据的新手。我了解到HDFS更多的是存储结构化数据,HBase更多的是存储非结构化数据。我有一个RESTAPI,我需要在其中获取数据并将其加载到数据仓库(HDFS/HBase)中。数据为JSON格式。那么将数据加载到哪个更好呢?HDFS还是HBase?你也可以请你指导我一些教程来做到这一点。我遇到了关于TutorialwithStreamingData的问题.但我不确定这是否适合我的用例。如果你能指导我使用特定的资源/技术来解决这个问题,那将是非常有帮助的。 最佳答案 有几个问题你要思考您想使用批处理文件还是流媒体?这取决于请

hadoop - oozie中执行 Action 后删除hdfs路径

执行类似于在操作前删除的prepare标记的操作后,如何删除hdfs路径。...[JOB-TRACKER][NAME-NODE]......[JOB-XML-FILE][PROPERTY-NAME][PROPERTY-VALUE]...[PIG-SCRIPT][PARAM-VALUE]...[PARAM-VALUE][ARGUMENT-VALUE]...[ARGUMENT-VALUE][FILE-PATH]...[FILE-PATH]...... 最佳答案 pig行动中没有等价物。你基本上有两个选择:在您的pig脚本中添加删除命令添

python - 如何在 python 中一次将多个文件从本地服务器移动到 HDFS?

我在我的服务器上使用pythonv3.4,我经常需要将多个文件从我的本地目录复制/移动到hdfs目录。我所有的文件都在子目录中,而子目录又在MyDir中。这是我使用的命令-$hdfsdfs-copyFromLocalMyDir/*/path/to/hdfs/这个命令在服务器上运行良好,但是当我使用子进程在python中使用相同的命令时>>>subprocess.call(['hdfs','dfs','-copyFromLocal','MyDir/*','/path/to/hdfs/'])它给出了以下错误-copyFromLocal:`MyDir/*':Nosuchfileordirec

hadoop - 如何从 HDFS 运行 pig 脚本?

我正在尝试从hdfs运行pig脚本,但它显示错误,因为该文件不存在。我的hdfs目录[cloudera@quickstart~]$hdfsdfs-ls/Found11itemsdrwxrwxrwx-hdfssupergroup02016-08-1014:35/benchmarksdrwxr-xr-x-hbasesupergroup02017-08-1923:51/hbasedrwxr-xr-x-clouderasupergroup02017-07-1304:53/homedrwxr-xr-x-clouderasupergroup02017-08-2707:26/inputdrwxr-x

hadoop -/etc/hadoop/conf下的配置文件和/etc/hadoop/conf.cloudera.HDFS和/etc/hadoop/conf.cloudera.YARN下的配置文件有什么区别

我有cloudera5.7,我也有ClouderaManager。在目录/etc/hadoop下,我看到了三个子目录。/etc/hadoop/conf/etc/hadoop/conf.cloudera.HDFS//etc/hadoop/conf.cloudera.YARN/../conf/中的hadoop-env.sh不同于../conf.cloudera.HDFS/..../conf/中的core-site.xml也不同于../conf.cloudera.HDFS/..。../conf/下的hadoop-env.sh在YARN上有设置,而../conf.cloudera.HDFS下没

hadoop - HDFS小文件设计

我希望能够在HDFS上存储数百万个小文件(二进制文件-图像、exe等)(~1Mb),我的要求基本上是能够查询随机文件而不运行MapReduce作业。我的主要问题是Namenode内存问题,而不是MapReduce映射器问题。所以我的选择是:HAR文件-聚合小文件,仅将它们与har://路径一起保存在另一个地方序列文件——在它们进来时附加它们,这更适合MapReduce作业,所以我几乎消除了它HBase-将小文件保存到Hbase是谷歌上几篇文章中描述的另一种解决方案我想我是在问我是否遗漏了什么?我可以通过将二进制文件应用到大Avro/ORC/Parquet文件来实现我需要的吗?然后通过名