草庐IT

Hadoop-Solr

全部标签

java - 运行 Hadoop : insufficient memory for the Java Runtime Environment to continue

我有一个在3gb内存上运行的32位linux系统。当我尝试运行hadoop示例时,它失败了,说没有足够的内存分配给jre。生成的结果是:hadoopjarmapreduce/hadoop-mapreduce-examples-*.jargrepinputoutput‘dfs[a-z.]+’15/01/1110:17:04INFOclient.RMProxy:ConnectingtoResourceManagerat/127.0.0.1:803215/01/1110:17:05WARNmapreduce.JobSubmitter:Nojobjarfileset.Userclassesma

hadoop - 使用 sqoop 将数据从 Hive 导出到 rdbms 时如何处理主键

这是我的场景,我在配置单元仓库中有一个数据,我想将此数据导出到mysql中名为“测试”数据库的“示例”表中。如果一列是sample.test中的主键,并且hive中的数据(我们正在导出)在该键下有重复值,那么作业显然会失败,那么我该如何处理这种情况?提前致谢 最佳答案 如果你希望你的mysql表只包含重复项中的最后一行,你可以使用以下内容:sqoopexport--connectjdbc:mysql:///test-tablesample--usernameroot-P--export-dir/user/hive/warehouse

hadoop - 输入格式决定

我想找出给定的答案中哪个最适合这个问题:Givenadirectoryoffileswiththefollowingstructure:linenumber,tabcharacter,string:Example:1abialkjfjkaoasdfjksdlkjhqweroij2kadfjhuwqounahagtnbvaswslmnbfgy3kjfteiomndscxeqalkzhtopedkfsikjYouwanttosendeachlineasonerecordtoyourMapper.WhichInputFormatshouldyouusetocompletetheline:co

hadoop - Ambari 1.7 安装无法注册主机 - 数据库中不存在主机条目

我正在尝试通过Ambari1.7在Centos6.5节点上安装HDP2.2。我必须承认安装说明有点困惑,但我相信我已经完成了Ambari安装向导工作所需的所有必要步骤。Ambari服务器设置很顺利,我已经为Ambari创建了一个MySQL数据库并运行了生成模式的创建SQL脚本等。现在,当我尝试通过向导注册主机时,出现异常,提示我的主机不存在于数据库中。好吧,没错,我的主机表是空的。我的最终问题是如何通过此错误并继续安装。但我相信它可能就像需要运行一些插入到ambari数据库主机表的脚本一样简单。有谁知道该表何时被写入?我已经使用完全限定的主机名和安装指南中提到的各种其他配置更改更新了我

hadoop - 我可以在 HDFS 中有不同的 block 放置策略吗?

即一个集群有多个应用程序,每个应用程序在副本位置方面有不同的要求-我可以设置它以支持这些多个应用程序吗? 最佳答案 是的,这是可能的。注意:自行承担风险。编写block放置策略极其复杂且具有风险。您的应用程序需要确定如何放置副本,这似乎是一种代码味道。想想你是否真的需要编写block放置策略。警告过您之后,如果您想知道如何完成此操作,请继续。通常,此功能用于控制群集的平衡程度。例如。由Hadoop供应商之一构建的策略之一是将block放置在磁盘使用百分比最低的磁盘上。这里有一堆资源供您查看:SO发布同样的问题:Modifyingth

hadoop - 文件系统 listStatus 抛出 NullPointerException

我正在尝试列出HDFS中存在的目录的内容。我尝试了以下代码:publicstaticvoidmain(String[]args)throwsIOException{Stringuri=args[1];Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(URI.create(uri),conf);for(inti=0;i但是我遇到了一个异常(exception):Exceptioninthread"main"java.lang.NullPointerExceptionatorg.apache.hadoop.fs

hadoop - HDFS 中的文本文件未正确压缩

我的本​​地有一个.txt文件,我想把这个文件压缩成.gz,然后上传到HDFS的某个位置。下面是我试过的代码:StringcodecClassName=args[1];Stringsource=args[2];Stringdest=args[3];InputStreamin=newBufferedInputStream(newFileInputStream(source));ClasscodecClass=Class.forName(codecClassName);Configurationconf=newConfiguration();CompressionCodeccodec=(C

hadoop - 在 MapReduce 中因为/n 读取被分解成两行的记录

我正在尝试编写一个自定义阅读器,用于读取具有定义字段数的记录(位于两行中)。例如1,2,3,4(","canbethereornot),5,6,7,8我的要求是读取记录并将其作为单个记录推送到映射器中,如{1,2,3,4,5,6,7,8}。请提供一些意见。更新:publicbooleannextKeyValue()throwsIOException,InterruptedException{if(key==null){key=newLongWritable();}//Currentoffsetisthekeykey.set(pos);if(value==null){value=newT

hadoop - Apache Hadoop(大数据)

在hadoop中,数据被分成64mb或128mb的block。假设我有一个大小为70mb的文件。它是否分成两个block64mb和6mb。如果是这样,第二个block只占用了6mb,该block中的其他空间是被浪费了还是被另一个block占用了? 最佳答案 在hadoop中,block大小可以由通过dfs.blocksize属性写入hdfs的应用程序选择:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml对于应该

hadoop - 语义异常 [错误 10007] : Ambiguous column reference _c1

我在配置单元查询中使用四级嵌套时遇到问题。以下是我正在执行的查询-SELECT*,SUM(qtod.amount)OVER(PARTITIONBYqtod.id,qtod.year_begin_dateORDERBYqtod.tran_date)FROM(SELECT*,SUM(mtod.amount)OVER(PARTITIONBYmtod.id,mtod.quarter_begin_dateORDERBYmtod.tran_date)FROM(SELECT*,SUM(wtod.amount)OVER(PARTITIONBYwtod.id,wtod.month_begin_dateO