USER_NAME_草庐IT

hadoop - Apache pig -错误 6007 : Unable to check name

我正在尝试运行Pig教程(http://pig.apache.org/docs/r0.11.1/start.html#pig-scripts)中的基本脚本，如下所示:/*myscript.pigMyscriptissimple.ItincludesthreePigLatinstatements.*/A=LOAD'student'USINGPigStorage()AS(name:chararray,age:int,gpa:float);--loadingdataB=FOREACHAGENERATEname;--transformingdataDUMPB;--retrievingresul

hadoop - 当我们 select * table_name where id = 10; 时运行了多少映射器和缩减器；在 hive

当我们select*table_namewhereid=10;时运行了多少映射器和缩减器；在hive？它是基于输入分割还是文件大小？在这种情况下如何确定映射器和缩减器的数量？有什么建议吗？最佳答案对于输入表的每个输入拆分，将调度一个映射器，其中输入拆分的默认大小将是block大小。您可以通过修改mapreduce.input.fileinputformat.split.maxsize来改变映射器的数量和mapreduce.input.fileinputformat.split.minsize属性。谈到Hive中的reducer数

射器缩减 section code hadoop hive

hadoop - 在 Hive 中添加 JAR 给出错误 "Query returned non-zero code: 1, cause:/user/hive/warehouse/abc.jar does not exist."

我创建了一个UDF并将jar导出为abc.jar。将jar复制到/user/hive/warehouse中的hdfs。现在，我遇到以下错误:hive>ADDJAR/user/hive/warehouse/abc.jar;/user/hive/warehouse/abc.jardoesnotexistQueryreturnednon-zerocode:1,cause:/user/hive/warehouse/abc.jardoesnotexist.hive>当我这样做时，hadoopfs-ls/user/hive，我可以在/user/hive/warehouse看到abc.jar路径。我

amp warehouse section hive hadoop hive-udf

hadoop - Sqoop 导入 hive 数据库不会发生在/user/hive/warehouse

我已经安装了hadoop2.7.2，同时尝试使用下面的sqoop命令将数据导入到配置单元表中，为什么它试图插入到/user/root/而不是插入到/user/hive/warehousesqoopimport-all-tables\--num-mappers1\--connect"jdbc:mysql://localhost:3306/retail_db"\--username=root\--password=root\--hive-import\--hive-overwrite\--hive-databasesqoop_import\--create-hive-table

hive warehouse code section hadoop sqoop

hadoop - 了解 mapreduce.framework.name wrt Hadoop

我正在学习Hadoop并了解到该框架有两个版本:Hadoop1和Hadoop2。如果我的理解是正确的，在Hadoop1中，执行环境基于两个守护进程，即TaskTracker和JobTracker而在Hadoop2中(又名yarn)，执行环境基于“新守护进程”，即ResourceManager、NodeManager、ApplicationMaster。如有不妥请指正我了解到以下配置参数:mapreduce.framework.namepossiblevalueswhichitcantake:local,classic,yarn我不明白它们到底是什么意思；例如，如果我安装Hadoop2，

framework mapreduce code strong section hadoop hadoop-yarn hadoop2 mrv2

hadoop - 我必须创建/tmp 和/user/hive/warehouse 吗？

来自https://cwiki.apache.org/confluence/display/Hive/GettingStartedRunningHiveHiveusesHadoop,so:youmusthaveHadoopinyourpathORexportHADOOP_HOME=Inaddition,youmustusebelowHDFScommandstocreate/tmpand/user/hive/warehouse(akahive.metastore.warehouse.dir)andsetthemchmodg+wbeforeyoucancreateatableinHive.

warehouse hadoop mkdir hive

hadoop - Sqoop Teradata 连接器问题 - 错误 : The user does not have CREATE TABLE access to database

当我尝试从TeradataView导入表时，我遇到了Sqoop的Teradata连接器问题。我只能访问View。但不知何故，当sqoop作业开始时，它试图在我正在访问的TeradataDB中创建一个表，但无权在该DB/schema中创建任何表我低于错误13/05/3103:40:12ERRORtool.ImportTool:EncounteredIOExceptionrunningimportjob:com.teradata.hadoop.exception.TeradataHadoopSQLException:com.teradata.jdbc.jdbc_4.util.JDBCExc

Teradata database java apache hadoop hdfs sqoop

scala - Spark 标度 : select column name from other dataframe

有两个json，第一个json有更多的列，并且总是超集。valdf1=spark.read.json(sqoopJson)valdf2=spark.read.json(kafkaJson)除了操作:我喜欢在df1和df2上应用except操作，但是df1有10列，而df2只有8列。如果手动从df1中删除2列，则except将起作用。但是我有50多个表/json，需要对所有50组表/json执行EXCEPT。问题:如何从DF1中仅选择DF2(8)列中可用的列并创建新的df3？所以df3将拥有来自df1的有限列的数据，并且它将与df2列匹配。最佳答案

dataframe column section strong df scala apache-spark hadoop apache-spark-sql

user-interface - Hue 安装在 vanilla hadoop 上

有人试过在ApacheHadoop上安装HUE吗？我们正在使用hadoop0.20.2，我想知道在我投入时间之前是否有人成功使用它。任何指针将不胜感激。最佳答案看来不可能...http://getsatisfaction.com/cloudera/topics/issue_with_cloudera_plugin_loading_in_hadoop 关于user-interface-Hue安装在vanillahadoop上，我们在StackOverflow上找到一个类似的问题：

user-interface interface section cloudera hadoop installation

shell - 如何在HBase shell中使用describe 'table_name'创建表。

我必须在不同的集群中创建一个表，我只有hbase表的描述很方便。我如何在不同的集群中创建新的hbase表？最佳答案输入Hbaseshell进入hbaseshell在你的新集群的终端，然后给出命令create‘’,’’给你表名和列族名，你已经从describe'tablename'来自之前的集群。更多信息:https://www.tutorialspoint.com/hbase/hbase_create_table.htmhttps://www.tutorialspoint.com/hbase/hbase_describe_and

shell 何在 hbase section tutorialspoint hadoop hortonworks-data-platform bigdata