草庐IT

version-numbering

全部标签

hadoop - Hive 总是给出 "Number of reduce tasks determined at compile time: 1",无论我做什么

createexternaltableifnotexistsmy_table(customer_idSTRING,ip_idSTRING)location'ip_b_class';然后:hive>setmapred.reduce.tasks=50;hive>selectcount(distinctcustomer_id)frommy_table;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1里面有160GB,1个reducer需要很长时间...[ihadanny@lv

hadoop - 配置单元 2.3.3 MetaException(消息 :Version information not found in metastore.)

我有Hive2.3.3和Hadoop3.1.0。我可以在终端上使用hive命令启动Hive,但是当我尝试创建表时,我收到以下错误:user$hivereadlink:illegaloption--fusage:readlink[-n][file...]SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/Users/caiocesare/Desktop/hive/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinde

sql - 如何在 hive sql 中获取每个组的最大 row_number()

在配置单元SQL中使用row_number(),我可以通过在where子句中选择1来过滤重复项/选择id的第一个实例,如下所示。我在这里需要的是如何找到每个组中的最后一个实例。select*from(selectc1,c2,c3,c4,c5,id,row_number()over(partitionbyidORDERBYid)asseqfromtable)ascntwhereseq=1;我的要求是,例如,如果id1212有3个实例,而1313有5个实例,如下表所示,我可以使用上面的查询并通过在where子句中选择1来仅获取一个实例。但是我想要下面的id12123和5id1313。c1,

hadoop - 亚马逊电子病历 : Set unique number of mappers and reducers per EMR instance

我正在运行一个具有M个核心实例和N个任务实例的AmazonEMR集群。我的作业每天运行多次并且对时间敏感,因此我保持M核心实例24/7全天候运行,这样我就没有与S3之间的数据传输开销。N个任务节点正在根据需要动态启动和终止。M个核心节点为c1.mediums,N个任务节点为m2.xlarge。有没有办法为每个实例配置mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum?对于我想要的核心节点:mapred.tasktracker.map.tasks.maximum=2mapred.task

java - 获取 E0902 : Exception occured:[Server IPC version 9 cannot communicate with client version 4]

我的hadoop版本是2.7.1,我的oozie版本是3.3.2。我已经创建了oozie.war文件成功。但是,当我尝试使用以下命令在hdfs中创建共享库时,oozie-setup.shsharelibcreate-fshdfs://training-21:54310我得到以下异常,Stacktracefortheerrorwas(fordebugpurposes):--------------------------------------org.apache.oozie.service.HadoopAccessorException:E0902:Exceptionoccured:[

java - org.apache.solr.common.SolrException : Bad Request Bad Request request: http://localhost:8080/solr/update? wt=javabin&version=2

请大家帮帮我我正在尝试使用NUTCH抓取网站,但它给我错误“java.io.IOException:Jobfailed!”我正在运行此命令“bin/nutchsolrindexhttp://:8080/solr/crawl/crawldb-linkdbcrawl/linkdbcrawl/segments/*”并且我正在使用NUTCH1.5.1和SOLR3.6.1以及jdkjava-7-openjdk-i386和ubuntu12.04。在hadoop.log存在于NUTCH/log文件夹中显示以下内容:2012-09-1312:56:10,524INFOsolr.SolrIndexer-

hadoop - HBase错误: Server IPC version 8 cannot communicate with client version 4

我使用的是hbase-0.94.9,我试着按照HBase在线书籍的介绍,但是我得到了错误:org.apache.hadoop.hbase.master.HMasterCommandLine:Failedtostartmasterjava.net.ConnectException:Calltolocalhost/127.0.0.1:8020failedonconnectionexception:java.net.ConnectException然后我在网上发现我必须先设置Hadoop,我在Hadoop2.0.5-alpha中使用了start-dfs.sh但是现在我得到这个错误,当我尝试运

hadoop -version 给我错误的结果为什么? Hadoop 1.2.1

我在hadoop版本1.2.1上执行了以下命令:hadoop-versionvishrant@ubuntu:~$hadoop-versionjavaversion"1.7.0_79"OpenJDKRuntimeEnvironment(IcedTea2.5.5)(7u79-2.5.5-0ubuntu0.12.04.1)OpenJDKServerVM(build24.79-b02,mixedmode)我期待的是hadoop版本,但我的系统上安装了JDK版本。我知道正确的命令是hadoopversion[withouthyphen]但我没有收到错误,而是收到了JDK的版本,为什么?

java - 线程 "main"org.apache.hadoop.ipc.RemoteException : Server IPC version 9 cannot communicate with client version 4. 中的异常如何解决?

我在NetBeansIDE8.0.2中使用hadoop2.7.0和javaoraclejdk1.7.0_79。当我尝试使用Java文件与Hadoop通信时,出现以下错误。是否涉及任何依赖性问题?或者我该如何解决这个错误?我看过相关问题的帖子,但没有一个有助于清楚地传达答案。所以,请帮帮我。谢谢!Exceptioninthread"main"org.apache.hadoop.ipc.RemoteException:ServerIPCversion9cannotcommunicatewithclientversion4atorg.apache.hadoop.ipc.Client.call

hadoop - 运行 "hadoop version"命令时找不到文件/命令。 Hadoop安装

我正在按照MichealNoll教程安装hadoop。我按原样遵循了每一步。但是在root中执行“hadoopversion”命令时,出现两个错误:/usr/local/hadoop/hadoop-common-project/hadoop-common/src/main/bin/hadoop:line26:/usr/local/hadoop/hadoop-common-project/hadoop-common/src/main/bin/../libexec/hadoop-config.sh:Nosuchfileordirectory/usr/local/hadoop/hadoop-