草庐IT

local-user

全部标签

hadoop - 缺少 Hive 执行 Jar :/usr/local/apache-hive-2. 1.0-bin/lib/hive-exec-*.jar

运行hive时出现以下错误MissingHiveExecutionJar:/usr/local/apache-hive-2.1.0-bin/lib/hive-exec-*.jar查看所有相关帖子,例如MissingHiveExecutionJar:/usr/local/hadoop/hive/lib/hive-exec-*.jar但没有帮助..!!几乎什么都试过了按照这里的步骤安装http://www.bogotobogo.com/Hadoop/BigData_hadoop_Hive_Install_On_Ubuntu_16_04.php这是我的所有设置#HADOOPVARIABLES

hadoop - Data locality 概念是否也适用于 Reducers?

我的理解:数据局部性的概念仅适用于Mapper,因为它处理输入文件。Reducers在处理时是否也会使用Datalocality概念?数据局部性:数据局部性是指通过对数据进行计算而不是从其位置请求数据来处理数据所在的位置。在计算数据时,Mappers和Reducers会工作。映射器在计算数据时使用数据局部性。Reducers将输入作为Mappers的输出。假设Mappers输出(中间数据)存储在不同的数据节点。Reducers在计算时是否使用数据局部性? 最佳答案 不,数据局部性概念仅适用于MAPPERS。Reducer是根据par

Hadoop 网络用户 : No such user

在运行hadoop多节点集群时,我的主日志中出现以下错误消息,有人可以建议该怎么做吗..?我需要创建一个新用户还是可以在这里提供我现有的Machine用户名2013-07-2519:41:11,765WARNorg.apache.hadoop.security.UserGroupInformation:Nogroupsavailableforuserwebuser2013-07-2519:41:11,778WARNorg.apache.hadoop.security.ShellBasedUnixGroupsMapping:gotexceptiontryingtogetgroupsfor

DataStage登录报错:Failed to authenticate the current user against the selected Services Tier.

背景:近期同事一直在使用DataStage登录查找作业,突然今天无法登陆了。报错:FailedtoauthenticatethecurrentuseragainsttheselectedServicesTier.结论:解决了。报错处理过程1.开始第一反应是重装DataStage,毕竟我和另外几个同事的能够正常连接,他那边测试DS节点主机名都可以ping通,但是问题来了,发现2个问题:1)安装地址默认跳转到IE11,也就是MicrosoftEdge浏览器。2)MicrosoftEdge浏览器无法完成对DataStage的安装或者卸载动作。2.要处理第一个问题,先要在MicrosoftEdge浏览

java - 从 Windows 机器加载 Hive 表(Load data local inpath)

我正在尝试使用来自Windows的文件加载Hive表。但是我收到以下错误:java.sql.SQLException:Errorwhilecompilingstatement:FAILED:IllegalArgumentExceptionjava.net.URISyntaxException:Expectedscheme-specificpartatindex2:C:我正在使用TalendETL工具来处理文件。下面是Talend生成的代码:Stringpath_tHiveLoad_1="file:///C:/employee.txt";Stringtablename_tHiveLoad

scala - Spark-Scala HBase 表创建失败(MetaException(消息 :file:/user/hive/warehouse/src is not a directory or unable to create one)

我的VM中运行着hortonworks沙盒。我已经完成了所有的hive-site.xml配置并放置在Spark/conf文件中。我可以使用PySpark访问HBase并创建/更新表,但是当我在Scala中执行相同的实现时,会出现以下错误:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:file:/user/hive/warehouse/srcisnotadirectoryorunabletocreateone)我也更改了对“hive/war

multithreading - 为什么hadoop任务的real时间明显大于user+sys时间?

在hadoop任务上运行time命令时,出现如下结果:real0m25.839suser0m1.362ssys0m0.184我在VM上运行单个节点,并尝试在基准测试中记录hadoop任务的时间。 最佳答案 假设为I/O休眠所花费的时间不是原因,也许是VM本身作为主机上的进程运行这一事实导致了巨大的差异。实时表示挂钟时间。此处报告的user+sys时间是任务在VM处理器上花费的时间。因此,报告的实时时间将包括VM上运行的其他进程以及主机上运行的VM以外的进程使用的时间。 关于multith

hadoop - 执行 Pig 脚本 -x local script.pig 和 just script.pig 之间的区别

目前我正在执行我的脚本:/usr/bin/pig/somepath/myscript.pig出于某种原因,pig总是卡在这个阶段。2014-01-2816:49:31,328[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher-0%complete如果我用`/usr/bin/pig-xlocal/somepath/myscript.pig`出于某种原因提示路径:Input(s):Failedtoreaddatafrom"file:///path_from_root

hadoop - spark-submit --proxy-user 在 yarn 集群模式下不工作

目前我使用的是clouderahadoop单节点集群(启用了kerberos。)在客户端模式下我使用以下命令kinitspark-submit--masteryarn-client--proxy-userclouderaexamples/src/main/python/pi.py这很好用。在集群模式下,我使用以下命令(没有完成kinit并且缓存中没有TGT)spark-submit--principal--keytab--masteryarn-clusterexamples/src/main/python/pi.py也很好用。但是当我在集群模式下使用以下命令时(没有完成kinit并且缓

hadoop - "LOAD DATA LOCAL INPATH"如何到远程hiveserver

我想使用“LOADDATALOCALINPATH..”在本地机器上导入文件但是,我不能导入$beeline-ujdbc:hive2://example:10000-e"LOADDATALOCALINPATH'tmp/file_20161024.dat'OVERWRITEINTOTABLEsome_tablePARTITION(dt=20161024);"Connectingtojdbc:hive2://example:10000Connectedto:ApacheHive(version2.1.0)Driver:HiveJDBC(version1.2.1)Transactionisol