草庐IT

hadoop-release

全部标签

hadoop - 如何从 hdfs 符号链接(symbolic link)读取多个文本文件

我正在尝试从spark中读取hdfs符号链接(symboliclink)的多个部分文件。如果路径是物理路径,我可以使用通配符(*)从路径中读取多个文件例如sparkContext.textFile(/some/path/file_123321_00/part-r-000*)但是我已经在hdfs上创建了指向这个名为“fullset”的文件夹的符号链接(symboliclink)。当我使用/some/path/fullset/part-r-000*它无法检测到任何路径。我在两条路径上都尝试了hadoopfs-ls。第一个可以工作,但是带有符号链接(symboliclink)的一个不能按预期

mysql - 如何不因一个数据库插入失败而使 Hadoop MapReduce 作业失败?

我正在编写一个MapReduce作业来挖掘网络服务器日志。输入来自文本文件,输出进入MySQL数据库。问题是,如果一条记录无法插入,无论出于何种原因,例如数据超出列大小,整个作业都会失败,并且不会向数据库写入任何内容。有没有什么办法可以让好的记录一直保留下来呢?我想一种方法是验证数据,但这对我的口味来说将客户端与数据库模式结合得太多了。我没有发布代码,因为这不是一个特别的代码问题。编辑:reducer:protectedvoidreduce(SkippableLogRecordrec,Iterablevalues,Contextcontext){Stringpath=rec.getPa

hadoop - Hive静态分区问题

我有一个csv文件,其中有600条记录,男性和女性各300条。我创建了一个Table_Temp并将所有这些记录填充到该表中。然后,我创建Table_Main并将gender作为分区列。对于Temp_Table查询是:CreatetableifnotexistsTemp_Table(idstring,ageint,genderstring,citystring,pinstring)rowformatdelimitedfieldsterminatedby',';然后我编写以下查询:InsertintoTable_Mainpartitioned(gender)selecta,b,c,d,ge

hadoop - Hive 不尊重 mapreduce.job.reduces

以下形式的配置单元插入语句:insertintomy_tableselect*frommy_other_table;正在使用一个reducer-即使在执行以下操作之前:setmapreduce.job.reduces=80;有没有办法强制配置单元使用更多的reducer?没有明确的理由说明为什么这个特定的查询会执行单个reducer-假设末尾没有ORDERBY子句。顺便说一句,源表和目标表都是storedasparquet 最佳答案 SELECT*FROMtable;在Hive中不使用任何reducer-它是一个map-only作业

hadoop - 如何在 Reduce Join 算法中设置多个 Mappers?

在Reduce侧连接算法中,使用了两个映射器类。但是在我的代码的驱动类中都没有设置,只设置了reducer。作业如何知道要使用哪个映射器类?我们如何为一个作业设置多个映射器类?我正在使用hadoop2.2感谢和问候,迪拉吉PS:我只是从发给我导师的电子邮件中复制粘贴了问题,所以你们中的一些人可能已经看到问题中出现了他的名字。对此表示歉意。 最佳答案 找到答案..对于它设置的多个映射器MultipleInputs.addInputPath(); 关于hadoop-如何在ReduceJoin

hadoop - 在 hadoop Map reduce 中读取带有工作表的 Excel 文件

我有一个excel文件,在一个文件中包含大约20张纸。我想通过hadoop中的mapreduce程序读取它。任何人都可以帮助我解决这个问题。请建议我如何阅读它...提前致谢。 最佳答案 您可能会发现ApacheTika库可用于您的映射器以解析您的Excel文件。 关于hadoop-在hadoopMapreduce中读取带有工作表的Excel文件,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

hadoop - 为什么匿名 FTP 到 HDFS DistCp 不起作用?

我尝试使用以下命令将FTP数据复制到HDFS,hadoopdistcpftp://ftp.ncdc.noaa.gov/pub/data/noaa/1901/data/noaa/1901/这是我收到的错误15/03/0411:29:13INFOtools.DistCp:InputOptions:DistCpOptions{atomicCommit=false,syncFolder=false,deleteMissing=false,ignoreFailures=false,maxMaps=20,sslConfigurationFile='null',copyStrategy='unifo

maven - Hadoop的版本和Hadoop-common的版本有什么关系?

我正在使用Maven构建一个Hadoop项目,并在http://search.maven.org/中搜索依赖项.Hadoop-common的结果只包括版本0.2x和2.x,版本1呢。×?这是searchlink.看来Hadoop的版本与其Hadoop-common的版本不对应。顺便说一下,DifferencesbetweenHadoop-common,Hadoop-coreandHadoop-client?那么如果我选择Hadoop1.2.1,我应该在.pom文件中为mavendecencies编写哪个版本?(或者,是否一定要写一个特定版本的Hadoop-Common和Hadoop-C

hadoop - Hadoop DB 的 ORM 支持

我正在尝试使用Hadoop和Spring(MVC、IOC、数据、安全性)引导应用程序。我想知道哪种ORM适合这些技术。 最佳答案 ApacheGora开源框架为大数据提供内存数据模型和持久性。Gora支持持久存储到列存储、键值存储、文档存储和RDBMS,并通过广泛的ApacheHadoop™MapReduce支持分析数据。-查看更多信息:http://gora.apache.org/#sthash.aHUqfiFl.dpuf 关于hadoop-HadoopDB的ORM支持,我们在Stac

hadoop - java.lang.IncompatibleClassChangeError : Found interface org. apache.hadoop.mapreduce.JobContext,但类是预期的安装示例

我正在运行来自http://giraph.apache.org/quick_start.html#qs_section_2的示例成功安装Giraph后,我创建文件/tmp/tiny_graph.txt并运行$HADOOP_HOME/bin/hadoopjar/usr/local/giraph/giraph-examples/target/giraph-examples-1.2.0-SNAPSHOT-for-hadoop-1.2.1-jar-with-dependencies.jarorg.apache.giraph.GiraphRunnerorg.apache.giraph.examp