Hadoop-Solr

hadoop - 从 Windows 使用 Java 访问 HDFS

我有一个ClouderaHadoop安装，我想编写一个Java程序来从Windows机器的文件系统中读取/写入。这应该是可能的吗？我的程序很简单:publicclassHadoopReader{static{URL.setURLStreamHandlerFactory(newFsUrlStreamHandlerFactory());}publicstaticvoidmain(String[]args)throwsException{System.out.println("okay");InputStreamin=null;try{in=newURL("hdfs://HOST/PATH"

join - Map-side 加入 Hadoop Streaming

我有一个文件，其中每一行都是一条记录。我希望某个字段中具有相同值的所有记录(如果字段A则调用)转到同一个映射器。我听说这被称为Map-SideJoin，而且我还听说如果文件中的记录按我所说的字段A排序很容易。如果更简单的话，数据可以分布在多个文件中，但每个文件都按字段A排序。这样对吗？我如何在流媒体中做到这一点？我正在使用Python。假设它只是我用来启动Hadoop的命令的一部分？最佳答案只希望将某些记录发送给某些映射器的真正理由是什么？如果您想要的最终结果是3个输出文件(一个全是A，另一个全是B，最后一个全是C)，您可以使用

Streaming Map-side section 射器 stackoverflow join hadoop hadoop-streaming

hadoop - 有什么方法可以修复HDFS随机因子的种子

我正在使用HADOOP-0.22在HDFS上做一些实验。另一方面，为了使我的实验可重复，我需要修复一些随机因素的HDFS种子。具体来说，每次我重新格式化文件系统并导入同一组数据时，我都希望将数据block分配给与上一个实验相同的数据节点并具有相同的名称。我不知道是否有人这样做过。感谢任何回复。最佳答案您的Hadoop版本支持可插入block放置策略，您可以根据需要提供更加静态或非随机的block放置策略。参见HDFS-385了解更多技术细节，以及此后该界面的相关演变。关于hadoo

种子 hadoop section HDFS stackoverflow

Hadoop:/usr/lib/hadoop-0.20.2/conf/slaves: 没有那个文件或目录

我完全按照hadoop官网上的步骤操作，但是总是报如下错误:startingnamenode,loggingto/home/videni/Tools/hadoop-1.0.3/libexec/../logs/hadoop-videni-namenode-videni-Latitude-E6400.outcat:/usr/lib/hadoop-0.20.2/conf/slaves:Nosuchfileordirectorycat:/usr/lib/hadoop-0.20.2/conf/masters:Nosuchfileordirectorystartingjobtracker,logg

Hadoop section videni

encryption - Hadoop GPG SerDe

我目前正在做一个需要数据加密的Hadoop项目(因为数据会存储在S3中)。虽然我主要希望通过Hive访问数据，但能够通过Pig和任何其他MapReduce方法访问它会很好。我知道Hadoop内置了对gzip、snappy等压缩编解码器的支持...是否也支持加密编解码器(特别是GPG)？有没有人写过公开可用的GPGSerDe(或类似的东西)？最佳答案最后我才知道Hadoop没有对加密的任何内部支持。似乎您可以使用GPG代码重载CompressionCodec，alahttp://www.mail-archive.com/commo

encryption Hadoop section stackoverflow hive gnupg

hadoop - Hive 从客户端机器加载数据

我正在尝试编写一个独立的java文件，以在Windows机器中使用HiveJDBC连接到hadoopdb，并从本地csv文件加载表数据。我收到错误“语义分析错误:第1:23行无效路径'd:/Sample2.txt':仅接受"file"或“hdfs”文件系统。我正在尝试的是对还是错？我们可以为hadoopdb从客户端windows机器加载数据吗？最佳答案我认为你需要使用类似的东西:file:d:/Sample2.txt 关于hadoop-Hive从客户端机器加载数据，我们在StackO

hadoop Hive section code

hadoop - 无法使用 Mapreduce 将数据加载到 Htable

我对Hbase和Hadoop很陌生。我对MapReduce概念感到困惑，我想知道MapreduceF/w中的执行流程。我尝试在谷歌上搜索一种方法来从文件中读取数据并使用Put类使用reducer将数据加载到Htable中。我在HDFS中有一个文件，我需要从HbaseMapreducer读取该文件并将数据加载到Htable。谁能告诉我哪里出错了？最佳答案您可以在不使用reducer的情况下使用Mapper。由于可以使用reducer进行排序，你只需要将文件数据直接存储到Hbase中即可。

Mapreduce hadoop section reducer Htable hbase

hadoop - 从一台机器到另一台机器执行copyFromLocal命令

我正在执行以下命令:hadoopfs-copyFromLocal/tmp/temp/pattern_BS.confhdfs://wihadoopn301p.prod.ch3.s.com:/user/hdfs/hadoop/qa2/BS/在此，我试图将本地驱动器上/tmp/temp文件夹中的pattern_BS.conf复制到hdfs://wihadoopn301p.prod.ch3.s.com:/user/hdfs/hadoop/qa2/BS/位置。但它给出了以下错误:copyFromLocal:Forinputstring:""Usage:javaFsShell[-copyFromL

copyFromLocal hadoop section code

ubuntu - 用于多节点 Hadoop 集群的 Windows 7 和 vmware ubuntu 镜像 - IP 地址的配置

我是ubuntu和Hadoop的新手...我的笔记本电脑装有Windows7，它还有一个UbuntuVMWare镜像(我使用VMWare播放器打开)。我的想法是在同一台笔记本电脑上配置多节点hadoop集群。可不可以有两个ubuntu镜像，每个镜像作为一个虚拟机，这样就可以模拟集群配置(虽然不是理想的集群)？如果是这样，这两个虚拟机是否能够通信？我是否必须更改IP配置等才能使其正常工作？VM1(ubuntu)-HadoopmasterVM2(ubuntu)-Hadoopslave作为扩展，windows7有没有可能也加入集群？Windows7-HadoopmasterVM1(ubunt

ubuntu Windows section Hadoop cluster-computing

Hadoop分布式缓存错误信息解读

我正在尝试将3个文件放入分布式缓存中。我以编程方式放置其中一个，使用:DistributedCache.addLocalFiles(conf,"local/path/to/file");我还使用-files选项放置了另外2个文件。在本地以独立模式运行时，一切正常。当试图以伪分布式模式运行它时，我得到了这个错误，我不明白它的意思。我用谷歌搜索但没有成功。Distributedcacheentryarrayshavedifferentlengths有谁知道这意味着什么以及如何解决？最佳答案问题源于我正在将本地文件添加到缓存中。相反，

Hadoop 分布式 section code DistributedCache distributed-cache

133 134 135136137 138 139