hadoop-release

hadoop - 如何从 hdfs 符号链接(symbolic link)读取多个文本文件

我正在尝试从spark中读取hdfs符号链接(symboliclink)的多个部分文件。如果路径是物理路径，我可以使用通配符(*)从路径中读取多个文件例如sparkContext.textFile(/some/path/file_123321_00/part-r-000*)但是我已经在hdfs上创建了指向这个名为“fullset”的文件夹的符号链接(symboliclink)。当我使用/some/path/fullset/part-r-000*它无法检测到任何路径。我在两条路径上都尝试了hadoopfs-ls。第一个可以工作，但是带有符号链接(symboliclink)的一个不能按预期

symbolic 本文 section code hadoop apache-spark hdfs symlink mapr

mysql - 如何不因一个数据库插入失败而使 Hadoop MapReduce 作业失败？

我正在编写一个MapReduce作业来挖掘网络服务器日志。输入来自文本文件，输出进入MySQL数据库。问题是，如果一条记录无法插入，无论出于何种原因，例如数据超出列大小，整个作业都会失败，并且不会向数据库写入任何内容。有没有什么办法可以让好的记录一直保留下来呢？我想一种方法是验证数据，但这对我的口味来说将客户端与数据库模式结合得太多了。我没有发布代码，因为这不是一个特别的代码问题。编辑:reducer:protectedvoidreduce(SkippableLogRecordrec,Iterablevalues,Contextcontext){Stringpath=rec.getPa

何不 MapReduce java LocalJobRunner hadoop mysql

hadoop - Hive静态分区问题

我有一个csv文件，其中有600条记录，男性和女性各300条。我创建了一个Table_Temp并将所有这些记录填充到该表中。然后，我创建Table_Main并将gender作为分区列。对于Temp_Table查询是:CreatetableifnotexistsTemp_Table(idstring,ageint,genderstring,citystring,pinstring)rowformatdelimitedfieldsterminatedby',';然后我编写以下查询:InsertintoTable_Mainpartitioned(gender)selecta,b,c,d,ge

hadoop Hive code section Table hiveql

hadoop - Hive 不尊重 mapreduce.job.reduces

以下形式的配置单元插入语句:insertintomy_tableselect*frommy_other_table;正在使用一个reducer-即使在执行以下操作之前:setmapreduce.job.reduces=80;有没有办法强制配置单元使用更多的reducer？没有明确的理由说明为什么这个特定的查询会执行单个reducer-假设末尾没有ORDERBY子句。顺便说一句，源表和目标表都是storedasparquet 最佳答案 SELECT*FROMtable;在Hive中不使用任何reducer-它是一个map-only作业

mapreduce 尊重 code section field hadoop hive

hadoop - 如何在 Reduce Join 算法中设置多个 Mappers？

在Reduce侧连接算法中，使用了两个映射器类。但是在我的代码的驱动类中都没有设置，只设置了reducer。作业如何知道要使用哪个映射器类？我们如何为一个作业设置多个映射器类？我正在使用hadoop2.2感谢和问候，迪拉吉PS:我只是从发给我导师的电子邮件中复制粘贴了问题，所以你们中的一些人可能已经看到问题中出现了他的名字。对此表示歉意。最佳答案找到答案..对于它设置的多个映射器MultipleInputs.addInputPath(); 关于hadoop-如何在ReduceJoin

中设何在射器 section hadoop mapreduce

hadoop - 在 hadoop Map reduce 中读取带有工作表的 Excel 文件

我有一个excel文件，在一个文件中包含大约20张纸。我想通过hadoop中的mapreduce程序读取它。任何人都可以帮助我解决这个问题。请建议我如何阅读它...提前致谢。最佳答案您可能会发现ApacheTika库可用于您的映射器以解析您的Excel文件。关于hadoop-在hadoopMapreduce中读取带有工作表的Excel文件，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/ques

hadoop reduce section 中包

hadoop - 为什么匿名 FTP 到 HDFS DistCp 不起作用？

我尝试使用以下命令将FTP数据复制到HDFS，hadoopdistcpftp://ftp.ncdc.noaa.gov/pub/data/noaa/1901/data/noaa/1901/这是我收到的错误15/03/0411:29:13INFOtools.DistCp:InputOptions:DistCpOptions{atomicCommit=false,syncFolder=false,deleteMissing=false,ignoreFailures=false,maxMaps=20,sslConfigurationFile='null',copyStrategy='unifo

匿名 hadoop apache DistCp ftp hdfs anonymous-users

maven - Hadoop的版本和Hadoop-common的版本有什么关系？

我正在使用Maven构建一个Hadoop项目，并在http://search.maven.org/中搜索依赖项.Hadoop-common的结果只包括版本0.2x和2.x，版本1呢。×？这是searchlink.看来Hadoop的版本与其Hadoop-common的版本不对应。顺便说一下，DifferencesbetweenHadoop-common,Hadoop-coreandHadoop-client?那么如果我选择Hadoop1.2.1，我应该在.pom文件中为mavendecencies编写哪个版本？(或者，是否一定要写一个特定版本的Hadoop-Common和Hadoop-C

Hadoop Hadoop-common strong section maven

hadoop - Hadoop DB 的 ORM 支持

我正在尝试使用Hadoop和Spring(MVC、IOC、数据、安全性)引导应用程序。我想知道哪种ORM适合这些技术。最佳答案 ApacheGora开源框架为大数据提供内存数据模型和持久性。Gora支持持久存储到列存储、键值存储、文档存储和RDBMS，并通过广泛的ApacheHadoop™MapReduce支持分析数据。-查看更多信息:http://gora.apache.org/#sthash.aHUqfiFl.dpuf 关于hadoop-HadoopDB的ORM支持，我们在Stac

hadoop section stackoverflow orm

hadoop - java.lang.IncompatibleClassChangeError : Found interface org. apache.hadoop.mapreduce.JobContext，但类是预期的安装示例

我正在运行来自http://giraph.apache.org/quick_start.html#qs_section_2的示例成功安装Giraph后，我创建文件/tmp/tiny_graph.txt并运行$HADOOP_HOME/bin/hadoopjar/usr/local/giraph/giraph-examples/target/giraph-examples-1.2.0-SNAPSHOT-for-hadoop-1.2.1-jar-with-dependencies.jarorg.apache.giraph.GiraphRunnerorg.apache.giraph.examp

hadoop IncompatibleClassChangeError apache mapreduce java installation giraph

149 150 151152153 154 155