Hadoop-Solr

hadoop fs -ls 隐藏文件

我正在编写一个实用程序来根据日期清理HDFS。虽然该实用程序使用hadoop库来完成此操作，但它也可以在常规file:///文件系统上运行，使用hadoopjar或java-jar来执行它。不过，我发现该实用程序的一个缺点是它目前无法清除“隐藏”文件(前面有句点)。我在猜测，并问你聪明的人，如果那是因为HDFS没有隐藏文件。该假设得到验证，是否有关于我可以做些什么来使它成为一个通用实用程序以便它可以列出并删除隐藏文件的建议？最佳答案命令:列出所有隐藏的文件夹和文件~]$ls-ld.?*

hadoop fs section 实用 strong hdfs

hadoop - 为什么 Raid 不在 Hadoop 2.x 中？

在0.22.0版本中我们可以找到raidcontrib，但是Hadoop2ndgeneration(version2.x)似乎不再支持hdfs-raid了，请问是什么原因呢？最佳答案 Hadoop有自己的复制和检查机制。以下引自AlexHolme的HadoopInPracticeUsingRAID,however,isstronglydiscouragedontheDataNodes,becauseHDFSalreadyhasreplicationanderror-checkingbuilt-in;butontheNameNode

hadoop section strong mapreduce hdfs cloudera hortonworks-data-platform

hadoop - Pig - FilterFunc 不接受整个元组

我的Pig的一个过滤器功能有问题。但首先，我会告诉你上下文。A=LOAD'pig/hado/start_extrait2.csv'USINGPigStorage(';')as(DAT_START:chararray,COD_IPUSER:chararray,NDI_START:chararray);hado_search_file=LOAD'pig/hado/recherche_hado.csv'USINGPigStorage(';')as(DATE_HADO:chararray,IP_RECHERCHEE:chararray);result2=JOINhado_search_file

FilterFunc hadoop chararray 00 section user-defined-functions bigdata apache-pig

hadoop - 如何在 Hadoop yarn 上设置 apache shark？

我已经在hadoopyarn上设置了一个spark集群，现在我想在spark上设置shark。但是没有文章在yarn上设置spark上设置shark。有什么方法可以做到这一点，或者我应该将我的Spark集群设置为独立集群。最佳答案这是我实现的工作模型之一https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster 关于hadoop-如何在Hadoopyarn上设置apacheshark？，我们在StackOverflo

何在 hadoop section shark Running-Shark-on-a-Cluster apache-spark hadoop-yarn

java - 需要安装 hadoop 的帮助

我是Hadoop新手，正在尝试使用cygwin在我的Windows7(x64)PC上安装它。我按照本教程安装了http://alans.se/blog/2010/hadoop-hbase-cygwin-windows-7-x64/#software在此步骤之前一切正常-OnlyHadoop0.21.0:Next,onelinehastobeaddedtothehadoop-config.shfileinhadoop-0.21.-0/binCLASSPATH=`cygpath-wp"$CLASSPATH"`AddthislinebeforethelinecontainingJAVA_LI

hadoop java section hadoop-config cygwin classpath

java - 包括核心和数学文件夹的 Mahout 数学库类 - Eclipse - Hadoop

我的问题与此类似:HowdoIbuild/runthissimpleMahoutprogramwithoutgettingexceptions?,但有点复杂。我正在编写Hadoop代码，并且想使用Mahout数学库(例如SparseRowMatrix和VectorWritable类)。问题是前一个示例类位于Mahout最新SNAPSHOT的math文件夹中，而后者位于core文件夹下，并且两者共享与根文件夹(org.apache.mahout.math).问题是我没有找到让Hadoopjar文件正确导入与数学相关的类的方法，而是位于Mahout项目的Core文件夹下。我正在使用Ecli

和数 Eclipse section Mahout code java hadoop

hadoop - 如何编写简单的 map-reduce 作业以将制表符分隔的文本文件转换为序列文件？

我想将一个文本文件作为映射器的输入并输出一个序列文件。如何编写一个简单的map-reduce作业？文本文件将具有制表符分隔值。例如输入:group112345对于这样的输入，我想创建输出序列文件，其键为“group1”，其值应为12345的向量。我怎样才能写这些工作？另外我觉得在这种情况下我不需要reducer。在这种情况下如何编写identityreducer作业？我可以跳过编写reducer作业吗？感谢任何帮助。问候。最佳答案是的，您可以跳过编写Reducer。将其设置为简单的Reducer.class。同时调用setNum

制表符 map-reduce code section 编写 hadoop mapreduce mahout

hadoop - 如何更改 HDFS 中的文件时间戳？

在linux中，您可以使用touch来更改文件的时间戳。但是，当文件已经存在时，HDFStouchz不会更改文件时间戳。是否有一种在不删除文件的情况下更改HDFS时间戳的简单方法？最佳答案您可以使用FileSystem#setTimes方法。关于hadoop-如何更改HDFS中的文件时间戳？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/11856385/

hadoop HDFS section apache

java - 与 Hadoop MapReduce 的成对比较

我有一个很大的文本文件(5GB)，每行一个字符串。我需要使用专有算法将每一行与其他每一行进行比较。我是MapReduce的新手，但有Java经验。给我带来麻烦的问题是创建单独的map输入。文档似乎是在假设每一行都不依赖于任何其他行的情况下编写的。执行此操作的最佳方法是什么？最佳答案这里有一些关于使用Hadoop进行连接的有趣论文:http://www.inf.ed.ac.uk/publications/thesis/online/IM100859.pdfhttp://www.inf.ed.ac.uk/publications/t

MapReduce Hadoop section http noreferrer java amazon-emr

Hadoop 分布式缓存归档在工作目录中取消归档

我正在通过–Dmapred.cache.archives=hdfs://host:port/path/archive.zip#foldername–D.mapred.create.symlink=yes将存档发送到分布式缓存并在工作目录中创建一个新文件夹并取消存档那里的文件。问题是我需要工作目录中的那些文件并且我已经尝试使用.和./作为文件夹名称以及发送一个空的。除了在我的Java代码中显式移动文件之外，关于如何解决此问题的任何想法？最佳答案将文件放在工作目录中的具体需求是什么(这样我就可以理解并提出一些替代方案)。无论如何，分

归档 Hadoop code section 存档 apache-pig

132 133 134135136 137 138