草庐IT

author_name

全部标签

hadoop - Apache pig -错误 6007 : Unable to check name

我正在尝试运行Pig教程(http://pig.apache.org/docs/r0.11.1/start.html#pig-scripts)中的基本脚本,如下所示:/*myscript.pigMyscriptissimple.ItincludesthreePigLatinstatements.*/A=LOAD'student'USINGPigStorage()AS(name:chararray,age:int,gpa:float);--loadingdataB=FOREACHAGENERATEname;--transformingdataDUMPB;--retrievingresul

hadoop - 当我们 select * table_name where id = 10; 时运行了多少映射器和缩减器;在 hive

当我们select*table_namewhereid=10;时运行了多少映射器和缩减器;在hive?它是基于输入分割还是文件大小?在这种情况下如何确定映射器和缩减器的数量?有什么建议吗? 最佳答案 对于输入表的每个输入拆分,将调度一个映射器,其中输入拆分的默认大小将是block大小。您可以通过修改mapreduce.input.fileinputformat.split.maxsize来改变映射器的数量和mapreduce.input.fileinputformat.split.minsize属性。谈到Hive中的reducer数

hadoop - 了解 mapreduce.framework.name wrt Hadoop

我正在学习Hadoop并了解到该框架有两个版本:Hadoop1和Hadoop2。如果我的理解是正确的,在Hadoop1中,执行环境基于两个守护进程,即TaskTracker和JobTracker而在Hadoop2中(又名yarn),执行环境基于“新守护进程”,即ResourceManager、NodeManager、ApplicationMaster。如有不妥请指正我了解到以下配置参数:mapreduce.framework.namepossiblevalueswhichitcantake:local,classic,yarn我不明白它们到底是什么意思;例如,如果我安装Hadoop2,

scala - Spark 标度 : select column name from other dataframe

有两个json,第一个json有更多的列,并且总是超集。valdf1=spark.read.json(sqoopJson)valdf2=spark.read.json(kafkaJson)除了操作:我喜欢在df1和df2上应用except操作,但是df1有10列,而df2只有8列。如果手动从df1中删除2列,则except将起作用。但是我有50多个表/json,需要对所有50组表/json执行EXCEPT。问题:如何从DF1中仅选择DF2(8)列中可用的列并创建新的df3?所以df3将拥有来自df1的有限列的数据,并且它将与df2列匹配。 最佳答案

hadoop - Hadoop DataNode 错误 : host:port authority

伙计们。当我尝试运行hadoop集群时,但我没有成功。主要错误是这样的:但奇怪的是,除了dataNode,NameNode、JobTracker、SecondNameNode和TaskTracker都没问题。我的其他配置是这样的:hdfs-site.xml核心站点.xmlmapred-site.xml 最佳答案 我不确定它是否有帮助,但是checkthispage从那里引用,EventhoughtIconfiguredthecore-site.xml,mapred-site.xml&hdfs-site.xmlunder/usr/lo

hadoop - 无法启动 TaskTracker.Says 无法启动任务跟踪器,因为 java.lang.IllegalArgumentException : Does not contain a valid host:port authority:

编辑了mapred-site.xml、core-site.xml、hadoop-env.sh、hdfs-site.xml、masters和slaves。我有1个DataNode和2个Namenode。它们都成功启动,我可以在浏览器中看到它们。启动了start-mapred.sh并在Namenode上启动了JobTracker和TaskTracker,但无法在datanaode上启动Tasktracker。启动Tasktracker,输出如下。->hadooptasktrackerWarning:$HADOOP_HOMEisdeprecated.13/10/1703:21:55INFOm

shell - 如何在HBase shell中使用describe 'table_name'创建表。

我必须在不同的集群中创建一个表,我只有hbase表的描述很方便。我如何在不同的集群中创建新的hbase表? 最佳答案 输入Hbaseshell进入hbaseshell在你的新集群的终端,然后给出命令create‘’,’’给你表名和列族名,你已经从describe'tablename'来自之前的集群。更多信息:https://www.tutorialspoint.com/hbase/hbase_create_table.htmhttps://www.tutorialspoint.com/hbase/hbase_describe_and

hadoop - 当我点击 jps 命令时,namenode datanode 和 sec name node 没有启动

我在Ubuntu中以伪分布式模式使用Hadoop1.2.1,一切正常。但后来我不得不重新启动我的系统。现在,当我在给出start-all.sh后点击jps命令时,我只能看到tasktracker和jobtracker正在运行。谁能告诉我这个问题的可能原因?并指导我解决这个问题?************************************************************/2017-03-1318:41:16,733INFOorg.apache.hadoop.hdfs.server.datanode.DataNode:STARTUP_MSG:/*********

hadoop - Hadoop 2.7在windows 7 64位启动时 : Name or service not knownstname localhost

我正在使用Cygwin在Windows764位上安装Hadoop。成功格式化Hadoop后,我想使用以下命令启动它:启动-dfs.sh。但它报告为:$sbin/start-dfs.sh17/03/2617:35:27WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable]tartingnamenodeson[localhost:Nameorservicenotknownstnamelocalhostalwang@

hadoop - 在配置单元 "Unable to retrieve URL for Hadoop Task logs. Does not contain a valid host:port authority: local"上出现错误

在涉及mapreduce的hive上执行任何查询时,我收到此错误。“UnabletoretrieveURLforHadoopTasklogs.Doesnotcontainavalidhost:portauthority:local” 最佳答案 报告的异常出现在旧版本的Hadoop中(即YARN之前)。大多数情况下,您使用的是旧版本的Hadoop。当mapred.job.tracker的值出现异常参数在local中设置为“mapred-site.xml”相反,它应该是:. 关于hadoop