hdfs_rtp

hadoop - 将数据从 HDFS 加载到 HBASE

我正在使用Apachehadoop1.1.1和Apachehbase0.94.3。我想将数据从HDFS加载到HBASE。我写了pig脚本来达到目的。首先，我在habse中创建了hbase表，然后编写了pig脚本以将数据从HDFS加载到HBASE。但它没有将数据加载到hbase表中。不知道它要去哪里。以下是用于创建hbase表的命令:创建表'mydata','mycf'下面是从hdfs加载数据到hbase的pig脚本:A=LOAD'/user/hduser/Dataparse/goodrec1.txt'USINGPigStorage(',')as(c1:int,c2:chararray,

hadoop - 在 Amazon Web Services 上的 Elastic MapReduce 上定义一个 HDFS 文件

我开始在HadoopMapReduce框架上实现KMeans算法。在这方面，我正在使用AmazonWebServices提供的弹性MapReduce。我想创建一个HDFS文件以在其上保存初始集群坐标，并在其上存储reducer的最终结果。我在这里完全困惑。无论如何要创建或“上传”这个文件到HDFS格式，以便所有映射器都能看到。有这方面的说明吗？谢谢。最佳答案最后我知道了怎么做。所以，为了将HDFS文件上传到集群中。您必须通过Putty连接到您的集群(通过使用安全key)。然后编写这些命令hadoopdistcps3://buck

MapReduce Services section 上实 hadoop amazon-web-services

hadoop - 使用 cloudera 管理器部署 hdfs core-site.xml

我正在尝试使用cloudera管理器(CDH5b2)将lzo支持添加到我的配置文件中。如果我将io.compression.codecs添加到服务范围的hdfs配置中，并部署配置文件，/etc/hadoop/conf.cloudera.hdfs/core-site.xml现在包含新值。但是，/etc/hadoop/conf.cloudera.yarn/core-site.xml有更高的优先级(update-alternatives--displayhadoop-conf)，当我开始MR作业时，不使用hdfscore-site.xml值。显然，我可以简单地手动修改yarncore-sit

core-site cloudera code hadoop cloudera-manager

python - 使用 Scala 或 Python 列出存储在 Hadoop HDFS 上的 Spark 集群中可用的所有文件？

列出Spark本地可用的所有文件名的最有效方法是什么？我正在使用ScalaAPI，但是，Python也应该没问题。最佳答案 importorg.apache.hadoop.fs.{FileSystem,FileUtil,Path}importscala.collection.mutable.Stackvalfs=FileSystem.get(sc.hadoopConfiguration)vardirs=Stack[String]()valfiles=scala.collection.mutable.ListBuffer.empty

python section dirs FileSystem scala hadoop apache-spark

java - 在没有 HDFS 的情况下执行 Hadoop 代码

我在运行没有命令访问hdfs的代码时遇到问题:hadoopjar这是我尝试运行的代码:packagecom.infotel.mycompany.testhdfs;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;/***Helloworld!

Hadoop java gt lt hdfs

java - 包括 HDFS 路径中文件夹中的所有文件

当我设置以下路径时:Pathfile=newPath("hdfs://hdp2minion1.domain.com:8020/apps/hive/warehouse/temp_hbase/");它返回一个FileNotFoundException(temp_hbase是HDFS上的一个文件夹)。我只想将所有文件包含在该文件夹中。还有其他方法可以实现吗？此处不能使用通配符。最佳答案你需要初始化FileSystemConfigurationconfiguration=newConfiguration();FileSystemhdfs

java HDFS section code file hadoop path

hadoop - 压缩 HDFS 文件时出现 IOException

我想压缩HDFS中当前存在的文件并删除未压缩的文件。这是代码，但它因IOException而出错。关于为什么会发生这种情况的任何指示？CompressionCodecFactoryccf=newCompressionCodecFactory(conf);CompressionCodeccodec=ccf.getCodecByClassName(GzipCodec.class.getName());InputStreaminpStrm=codec.createInputStream(fs.open(infoFilePath));OutputStreamcompressedOutputSr

时出 IOException java hadoop section gzip codec

hadoop - HDFS 上的 Solr 核心创建失败

我正在尝试让Solr4.7.2与HDFS一起工作(使用Hadoop2.4.1)。这是solrconfig.xml:LUCENE_47hdfstrue2000010000hdfs://localhost:54310/solrtrue1true16384truetruetrue16192*:*一旦我启动Solr服务器，它就会抛出异常:hdp1:org.apache.solr.common.SolrException:org.apache.solr.common.SolrException:Erroropeningnewsearcher我尝试调试，在jetty日志中发现如下错误:Caused

hadoop HDFS solr lt gt

hadoop - hdfs dfsoutputstream 无法关闭，一直在等待

我正在使用HadoopAPI(1.2.1)将本地文件复制到HDFS，但它总是失败。然后我用JPDA调试，发现代码运行在org.apache.hadoop.io.IOUtils.copyBytes(InputStream,OutputStream,int)时就暂停了。奇怪的是，它在输出文件中的最后一个数据block时刚刚暂停，但是前一个数据block输出正常。我以为可能是文件的问题，于是新建了一个只有几个字符的文件，结果又出现了同样的问题。然后暂停线程，发现代码停在下面我的堆栈是:>DaemonThread[http-nio-80-exec-7](Suspended)>owns:DFSC

dfsoutputstream hadoop line gt HttpServletResponse hdfs

hadoop - HDFS 原子重命名文件系统依赖

关于堆栈溢出的其他问题以及hadoop2.x文档指出HDFS重命名操作是原子的。但是hadoop2.x文档还说明了以下内容:Notethatatomicityofrenameisdependentonthefilesystemimplementation.PleaserefertothefilesystemdocumentationfordetailsSource:Hadoop2.xFileContextdocumentation该短语还暗示了对底层文件系统的依赖。直到知道我不可能理解或阐述那句话的确切含义。只是文件系统的重命名操作也必须是原子的吗？哪些常用的文件系统与这句话有冲突？

命名 hadoop section hdfs hadoop2

133 134 135136137 138 139