草庐IT

hdfs_rtp

全部标签

shell - 使用 OOZIE 将文件从 HDFS 一个目录移动到 HDFS 中的另一个目录?

我正在尝试将文件从HDFS的一个目录复制到HDFS中的其他目录,借助shell脚本作为oozie作业的一部分,但我无法通过oozie复制它。我们可以使用oozie将文件从HDFS一个目录复制到HDFS中的另一个目录吗?wheniamrunningtheooziejob,iamnotanygettingerror.itisshowingstatusSUCCEEDEDbutfileisnotcopyingtodestinationdirectory.oozie文件如下。测试.sh#!/bin/bashecho"listingfilesinthecurrentdirectory,$PWD"s

hadoop - 在 Cloudera 中扩展 HDFS 内存

我需要在cloudera中将我的hdfs内存从50GB扩展到200GB。我正在使用具有300GB可用空间的虚拟机,但hdfs仅配置为在hdfs上使用50GB。我的dfs.namenode.name.dir指向默认的dfs/nndfs.namenode.name.dirfile:///dfs/nn我的hdfsdfsadming-report给我:[root@localhostconf.cloudera.hdfs]hdfsdfsadmin-reportConfiguredCapacity:55531445863(51.72GB)PresentCapacity:6482358272(6.04

scala - 如何让 Spark slave 在 Hadoop+Spark 集群中使用 HDFS 输入文件 'local'?

我有一个由9台计算机组成的集群,上面安装了ApacheHadoop2.7.2和Spark2.0.0。每台计算机都运行一个HDFSdatanode和Sparkslave。其中一台计算机还运行HDFSnamenode和Sparkmaster。我已经在复制=2的HDFS中上传了几TB的gz存档。事实证明,某些文件已损坏。我想找到他们。看起来“gunzip-t”可以提供帮助。所以我试图找到一种在集群上运行Spark应用程序的方法,以便每个Spark执行程序测试存档“本地”(即,其中一个副本位于该执行程序运行的同一台计算机上)只要它是可能的。以下脚本运行,但有时Spark执行程序会处理HDFS中

scala - 使用 Spark Scala 将 HDFS 文件内容存储在 ArrayBuffer 中

我正在尝试搜索特定关键字并将与该词关联的整行放入数组缓冲区中。我正在使用下面的示例并尝试将所有HHH放入数组缓冲区。示例PID|1|5897450M|58974650M|58977650M|CSTO^TES||19320722|F|||745-81ST^^IAMIBEH^FL^341|||||||332165520ORC||5033220|503320||||||20150202|||1689659096^HAM^MISH^^^^PIOBR|1||64564|DFDEFAULT|||20150202|2015002||||||||16096^^^^^I|||||||||HHH|1|NM

hadoop - 创建 SPARK RDD(HDFS 上的文件)和调用 Action 时出错

scala>valmanager=sc.textFile("hdfs://localhost:54310/user/training/employee_dir/employeeManager")scala>manager.first错误:java.io.EOFException:EndofFileExceptionbetweenlocalhostis:"localhost.localdomain/127.0.0.1";destinationhostis:"localhost":54310;:java.io.EOFException;Formoredetailssee:http://wi

database - HDFS 中存储了什么以及为什么 Titan 执行查询时 map-reduce 计算速度如此之快?

我现在正在学习Titan。我在远程模式下将Titan与HBase结合使用。现在有三个问题让我很困惑。我在下面描述了它们:在TinkerPop3文档中,它说“任何OLAP操作的结果都存储在可通过hdfs访问的HDFS中。”但是现在我用Titan做OLTP,这种情况下HDFS里面存的是什么?当我们使用Titan连接HBase成功时(通过JavaIDE),我们可以看到在HBaseshell中创建的表并扫描内容。table中的content'column'是什么意思?它们代表图中的顶点id吗?当我测试Titan的性能时,我观察到查询速度比普通的map-reduce作业快。为什么泰坦能做到呢?在

amazon-web-services - 由 s3 透明支持的 EMR hdfs

有了hadoop,我可以使用s3作为存储url。但目前我有很多使用hdfs://...的应用程序,我想将整个集群和应用程序迁移到EMR和s3。我是否必须将每个应用程序中的url从hdfs://...更改为s3://...或者是否可以以某种方式告诉EMR存储s3上的hdfs内容所以每个应用程序仍然可以使用hdfs://...但实际上它会指向s3?如果是,怎么办? 最佳答案 这是一个很好的问题。有协议(protocol)欺骗这样的东西吗?您真的可以通过编写覆盖协议(protocol)处理方式的内容来影响此行为吗?老实说,这种解决方案让我

hadoop - 水槽+卡夫卡+HDFS : Split messages

我有以下flume代理配置来从kafka源读取消息并将它们写回HDFS接收器tier1.sources=source1tier1.channels=channel1tier1.sinks=sink1tier1.sources.source1.type=org.apache.flume.source.kafka.KafkaSourcetier1.sources.source1.zookeeperConnect=192.168.0.100:2181tier1.sources.source1.topic=testtier1.sources.source1.groupId=flumetier1

hadoop - 在 hdfs/localFS 中进行文件操作的 FileSystem vs FileContext?

我习惯于使用FileSystem在hdfs(和用于测试的本地FS)中执行文件操作。最近我遇到了原子重命名的需要,虽然FileSystem有一个overloadedmethod具有这样的能力:protectedvoidrename(Pathsrc,Pathdst,org.apache.hadoop.fs.Options.Rename...options)它受到保护并已弃用。我试图找到解决这个问题的方法并找到了FileContext它具有相同的方法并且工作正常。我在Internet上可以找到的每个示例都使用FileSystem。所以我想知道为什么有两个类做同样的事情,在我的例子中可以使用F

hadoop - 为 HDFS 目录中的文件创建 HBase 表

我正在尝试将HDFS目录中的所有文件数据加载到HBase现有表中。您能分享我如何将所有文件数据和增量数据加载到HBase表中吗?我将HBase表创建为hbase>create'sample','cf'我要复制hdfs://ip:port/user/test进入示例hbase表。请给我建议任何解决方案。 最佳答案 答案1:(可能)ImportTSV,如果您尝试仅提供/user/hadoop/目录路径而不是完整的文件路径,它应该处理该目录中的所有文件。答案2:(好像不可能)ThespecialcolumnnameHBASE_ROW_KE