草庐IT

wp_insert_user

全部标签

hadoop - 配置单元 0.14.0.2.2.4.10-1 : Multi Insert - Empty partition

我正在尝试使用以下查询进行多次插入。Fromkiran.employee_partepinsertoverwritetablekiran.employee_ext_partpartition(pdept='gbm',pspm='ajay')selectep.id,ep.name,ep.dept,ep.skill,ep.sal,ep.mgr,ep.spm,ep.commentwhereep.pdept='gbm'andep.pspm='ajay'insertoverwritetablekiran.employee_ext_partpartition(pdept='rw',pspm='pr

hadoop - INSERT INTO 产生一个新文件

我在文本格式的外部表上使用配置单元。我每小时填充一次该表,但我按月对表进行分区(数据集相对较小)。每小时我都想将新数据插入一些分区。INSERTINTO子句导致在包含旧数据的现有分区中创建新文件。这样到月底,每个分区中将有大约700个小文件。HIVE有没有办法将数据附加到分区中的旧文件(不对旧数据使用UNIONALL)? 最佳答案 不幸的是,目前这是不可能的。希望随着文件追加补丁近来获得更多关注,它最终将成为追加到现有文件的新功能。我认为这是Hive的主要缺点之一……尤其是当您开始处理更小的插入时。

java - dfs.data.dir : Failed to set permissions of path:\tmp\hadoop-user\dfs\data to 0755 中的无效目录

我是hadoop框架的新手,目前我正在处理大数据项目,在Windows7中使用cygwin、hadoop-0.19.1、eclipse-3.3.1(Europa)。现在我正在尝试从hadoop-0.19进行更改.1到hadoop-1.2.1version.i如下配置hadoop-1.2.1核心站点.xml:fs.default.namehdfs://localhost:9100hdfs.xmldfs.replication1mapred-site.xmlmapred.job.trackerlocalhost:9101但是我在启动数据节点时出错,如下所示$bin/hadoopdatano

linux - 运行 hadoop 集群时在 Google Cloud Platform 上获取 'sudo: unknown user: hadoop' 和 'sudo: unable to initialize policy plugin error'

我正在尝试部署Google在https://github.com/GoogleCloudPlatform/solutions-google-compute-engine-cluster-for-hadoop提供的示例Hadoop应用程序在谷歌云平台上。我逐步按照那里给出的所有设置说明进行操作。我能够设置环境并成功启动集群。但是我无法运行MapReduce部分。我正在我的终端上执行这个命令:./compute_cluster_for_hadoop.pymapreduce[--prefix]--inputgs://\--outputgs://\--mappersample/shortest

hadoop - MapReduce 作业作为用户在/user/yarn/.staging 目录上获得权限错误运行

我有一个运行Hive操作的Oozie工作流。配置单元操作非常简单,它只是从一个表中读取副本到另一个表。该作业具有以下属性:user.name=yarnmapreduce.job.user.name=cloudfeeds作业失败并出现以下错误:15/07/1618:45:25INFOmapreduce.Job:Jobjob_1435680786374_0060failedwithstateFAILEDdueto:Applicationapplication_1435680786374_0060failed2timesduetoAMContainerforappattempt_143568

hadoop - 运行 YARN 应用程序时获取 "User [dr.who] is not authorized to view the logs for application <AppID>"

我在HDP2.5集群中使用ApacheTwill运行自定义Yarn应用程序,但是当我转到我的容器网页时,我无法看到我自己的容器日志(syslog、stderr和stdout):当我导航到此页面时,登录名也从我的kerberos更改为“dr.who”。但是我可以看到map-reduce作业的日志。Hadoop版本为2.7.3,集群启用了yarnacl。 最佳答案 我在使用hadoopui时遇到了这个问题。我在this中找到doc,hadoop.http.staticuser.user默认设置为dr.who,您需要将其包含在相关设置文件

Hadoop HDFS : input/output error when creating user folder

我已按照Hadoopthedefinitiveguide,4thedition:AppendixA中的说明进行操作在伪分布式模式下配置Hadoop。一切正常,除了我尝试创建目录时:hadoopfs-mkdir-p/user/$USER命令返回以下消息:mkdir:/user/my_user_name':Input/outputerror。虽然,当我第一次登录到我的根帐户sudo-s然后键入hadoopfs-mkdir-p/user/$USER命令时,目录'user/root'被创建(路径中的所有目录)。我想我遇到了Hadoop权限问题。任何帮助将不胜感激,谢谢。

hadoop - 在少数情况下,Hive insert overwrites 会截断表

我正在研究一种解决方案,发现在某些特定情况下,hiveinsertoverwritetruncates表,但在少数情况下不会。有人可以向我解释一下它的行为吗?为了解释这一点,我表了两个表,source和target并尝试使用insertoverwrite将数据从源表插入master当源表有分区时如果源表有分区,并且如果您编写条件分区不存在,那么它不会截断主表。createtablesource(nameString)partitionedby(ageint);insertintosourcepartition(age)values("gaurang",11);createtableta

hadoop - 如果 INSERT OVERWRITE 的 SELECT 查询没有返回任何结果,有没有办法防止 Hive 表被覆盖

我正在开发一个批处理作业,将数据从HDFS文件加载到Hive表中。数据流向如下使用外部Hive表读取HDFS中接收到的文件从应用某些转换的外部Hive表中插入覆盖最终的Hive表将收到的文件移动到存档如果输入目录中有一个文件供外部表在步骤1中读取,则此流程工作正常。如果没有文件,外部表将为空,因此执行步骤2将清空最终表。如果外部表为空,我想保留最终表中的现有数据(上次执行时加载的数据)。是否有我可以设置的配置单元属性,以便仅当我们用某些数据覆盖最终表时才覆盖它?我知道我可以使用HDFS命令检查输入文件是否存在,并有条件地启动Hive请求。但我想知道我是否可以直接在Hive中实现相同的行

python - 对 SQL INSERT 语句使用 Python dict

我正在尝试使用dict来执行SQLINSERT。逻辑基本上是:INSERTINTOtable(dict.keys())VALUESdict.values()但是,我很难找出正确的语法/流程来执行此操作。这是我目前拥有的:#data={...}sorted_column_headers_list=[]sorted_column_values_list=[]fork,vindata.items():sorted_column_headers_list.append(k)sorted_column_values_list.append(v)sorted_column_headers_stri