hdfs

使用 HDFS 在 RAM 中缓存

我需要用一个小集群(约10台服务器)处理一些大文件(约2TB)，以便生成相对较小的报告(约GB)。我只关心最终报告，而不关心中间结果，而且机器有大量RAM，所以使用它来尽可能减少磁盘访问(从而提高速度)会很棒，理想情况下仅在使用磁盘时将数据block存储在volatile内存中。查看配置文件和previousquestionHadoop似乎没有提供此功能。星火官网talksaboutamemory_and_disk选项，但我更愿意要求公司部署基于新语言的新软件。我找到的唯一“解决方案”是在hdfs-default.xml中将dfs.datanode.data.dir设置为/dev/sh

python - 从 Hadoop mapreduce 作业打开 HDFS 上的文件

通常，我可以用这样的东西打开一个新文件:aDict={}withopen('WordLists/positive_words.txt','r')asf:aDict['positive']={line.strip()forlineinf}withopen('WordLists/negative_words.txt','r')asf:aDict['negative']={line.strip()forlineinf}这将打开WordLists文件夹中的两个相关文本文件，并将每一行作为正面或负面附加到词典中。但是，当我想在Hadoop中运行mapreduce作业时，我认为这行不通。我正在这样

mapreduce python code pre hadoop hadoop-streaming

hadoop - 删除托管(非外部)表时，不会删除 hdfs 上的配置单元文件

当我从Hive交互式命令行删除托管表时，在/user/hive/warehouse/.db中的hdfs上创建的基础文件仍然存在。当我重新创建具有相同名称的表并尝试执行此操作时，这会导致问题INSERTINTOTABLE因为它仍然包含我在最初运行时加载到这些分区(在我的例子中是dt和hr分区)的数据。只有当我使用INSERTOVERWRITETABLE它最终会正确加载数据吗，但我的ETL需要使用INSERTINTOTABLE.有什么想法吗？我正准备创建同一个表但名称不同，或者只是进入并删除hdfs上的内容，但我担心这是否会破坏Metastore或其他东西。最后，我确信它是一个托管表而不是

配置单 hadoop section code INSERT hive hdfs

hadoop - HDFS短路读

根据documentation，短路读取速度更快，因为它们不通过数据节点。如果是这样的话，那么为什么默认情况下不启用此功能？我们在哪些场景下需要短路读取？最佳答案看看这篇文章:http://blog.cloudera.com/blog/2013/08/how-improved-short-circuit-local-reads-bring-better-performance-and-security-to-hadoop/文章摘要:原始实现的一个主要缺点是它搞砸了安全隐患。它必须为客户提供对数据文件的直接读取权限。我猜这对启用了

hadoop HDFS section how-improved-short-circuit-local-

hadoop - 配置单元 : How to execute a query from a file and dump the output in hdfs

我可以从sql文件执行查询并将输出存储在本地文件中使用hive-f/home/Prashasti/test.sql>/home/Prashasti/output.csv此外，我可以使用以下方法将配置单元查询的输出存储在hdfs中:insertoverwritedirectory'user/output'select*fromfolders;有什么方法可以从sql文件运行查询并将输出也存储在hdfs中吗？最佳答案只需要修改sql文件，将insertoverwritedirectory'user/output'添加到查询的前面。

配置单 execute section code hadoop hive hdfs

hadoop - 使用 Distcp 在 Hadoop 中提取数据

我知道distcp用于集群间/集群内的数据传输。是否可以使用distcp将数据从本地文件系统提取到HDFS。我知道你可以使用file:///....指向HDFS之外的本地文件，但与集群间/集群内传输相比，它的可靠性和速度如何。最佳答案 Distcp是在hadoop集群内部执行的mapreduce作业。从hadoop集群的角度来看，您的本地计算机不是本地文件系统。那么你不能将你的本地文件系统与distcp一起使用。另一种方法是在你的机器上配置一个hadoop集群可以读取的FTP服务器。性能取决于网络和使用的协议(protocol)(

hadoop Distcp strong section hdfs flume

hadoop - HDFS 容量 : how to read "dfsadmin report"

我正在使用Hadoop2.6.0。当我运行“hdfsdfsadmin-report”时，我得到了这样的东西(简化):ConfiguredCapacity:3TBPresentCapacity:400GBDFSRemaining:300GBDFSUsed:100GB我想知道“配置容量”是什么，“当前容量”是什么。看起来“PresentCapacity”是有效的。我怎样才能增加这个？最佳答案配置容量是用于数据目录的磁盘/卷的总可用容量。例如:我在/Hadoop/sdb1、/Hadoop/sdc1、/Hadoop/sdd1上安装了三个

amp dfsadmin Hadoop section code cloudera-cdh

datetime - hdfs 文件时间戳

我想获取hdfs上文件的最后修改时间。我检查了HDFSshell指南，但没有得到任何可用的相关命令。Hadoop版本为2.4.0。谁能建议我如何获取hdfs文件的last_modification时间？提前致谢最佳答案您可以从hadoopls命令检索时间戳并使用awk解析它。文件/目录时间戳有模式。对于文件，它是permissionsnumber_of_replicasuseridgroupidfilesizemodification_datemodification_timefilename它是目录permissionsuse

datetime hdfs section hadoop modification

hadoop - 无主键无时间戳使用sqoop增量加载数据

我有一个没有任何主键和修改日期/时间戳的表。这个表就像一个不断保存所有数据的事务表(没有删除/更新)。我现在的问题是我想将数据注入(inject)HDFS，而无需在每次运行增量加载时再次加载整个表。如果我的表有主键，下面的代码获取导入到HDFS的最新行。sqoopjob\--createtb_w_PK_DT_append\--\import\--connectjdbc:mysql://10.217.55.176:3306/SQOOP_Test\--usernameroot\--incrementalappend\--check-columnP_id\--last-value0\--ta

hadoop sqoop TransactionHistoryTable TriggerHistoryTable 39 hdfs

hadoop - 使用 Hadoop fs --copyFromLocal 命令时没有这样的文件或目录错误

我有一个本地VM，上面安装了HortonworksHadoop和hdfs。我从我的机器ssh'ed进入虚拟机，现在我正尝试通过以下命令集将文件从我的本地文件系统复制到hdfs:[root@sandbox~]#sudo-uhdfshadoopfs-mkdir/folder1/[root@sandbox~]#sudo-uhdfshadoopfs-copyFromLocal/root/folder1/file1.txt/hdfs_folder1/当我执行它时，出现以下错误-copyFromLocal:/root/folder1/file1.txt':Nosuchfileordirectory

copyFromLocal hadoop code root hdfs hortonworks-data-platform

85 86 878889 90 91