草庐IT

Hadoop 网络用户 : No such user

在运行hadoop多节点集群时,我的主日志中出现以下错误消息,有人可以建议该怎么做吗..?我需要创建一个新用户还是可以在这里提供我现有的Machine用户名2013-07-2519:41:11,765WARNorg.apache.hadoop.security.UserGroupInformation:Nogroupsavailableforuserwebuser2013-07-2519:41:11,778WARNorg.apache.hadoop.security.ShellBasedUnixGroupsMapping:gotexceptiontryingtogetgroupsfor

DataStage登录报错:Failed to authenticate the current user against the selected Services Tier.

背景:近期同事一直在使用DataStage登录查找作业,突然今天无法登陆了。报错:FailedtoauthenticatethecurrentuseragainsttheselectedServicesTier.结论:解决了。报错处理过程1.开始第一反应是重装DataStage,毕竟我和另外几个同事的能够正常连接,他那边测试DS节点主机名都可以ping通,但是问题来了,发现2个问题:1)安装地址默认跳转到IE11,也就是MicrosoftEdge浏览器。2)MicrosoftEdge浏览器无法完成对DataStage的安装或者卸载动作。2.要处理第一个问题,先要在MicrosoftEdge浏览

scala - Spark-Scala HBase 表创建失败(MetaException(消息 :file:/user/hive/warehouse/src is not a directory or unable to create one)

我的VM中运行着hortonworks沙盒。我已经完成了所有的hive-site.xml配置并放置在Spark/conf文件中。我可以使用PySpark访问HBase并创建/更新表,但是当我在Scala中执行相同的实现时,会出现以下错误:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:file:/user/hive/warehouse/srcisnotadirectoryorunabletocreateone)我也更改了对“hive/war

multithreading - 为什么hadoop任务的real时间明显大于user+sys时间?

在hadoop任务上运行time命令时,出现如下结果:real0m25.839suser0m1.362ssys0m0.184我在VM上运行单个节点,并尝试在基准测试中记录hadoop任务的时间。 最佳答案 假设为I/O休眠所花费的时间不是原因,也许是VM本身作为主机上的进程运行这一事实导致了巨大的差异。实时表示挂钟时间。此处报告的user+sys时间是任务在VM处理器上花费的时间。因此,报告的实时时间将包括VM上运行的其他进程以及主机上运行的VM以外的进程使用的时间。 关于multith

mysql - sqoop 从 mysql 导入配置单元,用户名被更改(拒绝用户访问)

我正在尝试通过sqoop将一些数据从mysql导入到hive。当sqoop和mysqldb在同一台主机上时它工作,否则失败。这是我正在执行的查询。[user@xyz~]$sqoopimport--connect"jdbc:mysql://abc.something.com/test"--usernameuser--passwordpass--tabledataSql--hive-import--hive-tabletest.dataHive--target-dir/tmp/sqoop$RANDOM请注意,我目前在主机xyz上,我正在尝试连接到主机abc上的mysql数据库。以下是我看到

hadoop - 使用 hadoop/pig 从日志中提取相似用户

作为启动产品的一部分,我们需要计算“相似用户特征”。我们决定选择pig。我已经学习pig几天了,了解它是如何工作的。所以从这里开始是日志文件的样子。userurltimeuser1http://someurl.com1235416user1http://anotherlik.com1255330user2http://someurl.com1705012user3http://something.com1705042user3http://someurl.com1705042由于用户和url的数量可能很大,我们不能在这里使用暴力破解方法,所以首先我们需要找到至少可以访问公共(publi

hadoop - mapreduce 中的高效集合操作

我继承了一个mapreduce代码库,它主要计算随着时间的推移看到的不同广告的唯一用户ID的数量。在我看来,它的执行效率似乎并不高,我想知道是否有人对如何在mapreduce中尽可能高效地执行此类计算有任何提示或建议。我们使用Hadoop,但我将在伪代码中给出一个例子,没有所有的废话:map(key,value):ad_id=..//extractfromvalueuser_id=...//extractfromvaluecollect(ad_id,user_id)reduce(ad_id,user_ids):uniqe_user_ids=newSet()foreach(user_id

hadoop - pig 条件语句

我想我已经知道了这个问题的答案,但我只是想在我放弃并做一些丑陋的事情之前检查一下。我有一个查询需要计算总点击次数以及不同用户的总数。总点击次数就是这段代码没有区别:report=FOREACHreportGENERATEuser,genre,title;report=DISTINCTreport;report=GROUPreportBY(genre,title);我的问题本质上是:有没有办法编写一个条件语句来跳过这个过程中的DISTINCT步骤?伪:report=FOREACHreportGENERATEuser,genre,title;if$report_type=='users':

hadoop - spark-submit --proxy-user 在 yarn 集群模式下不工作

目前我使用的是clouderahadoop单节点集群(启用了kerberos。)在客户端模式下我使用以下命令kinitspark-submit--masteryarn-client--proxy-userclouderaexamples/src/main/python/pi.py这很好用。在集群模式下,我使用以下命令(没有完成kinit并且缓存中没有TGT)spark-submit--principal--keytab--masteryarn-clusterexamples/src/main/python/pi.py也很好用。但是当我在集群模式下使用以下命令时(没有完成kinit并且缓

MySQL新建表:1044 - Access denied for user ‘root‘@%‘ to database ‘XXX‘终极解决方案

1.问题描述情况一:Navicat连接远程mysql数据库,创建数据库时出现错误:情况二:在linux中命令创建数据库出现如下报错:2.原因分析root权限不够,先使用“SELECThost,user,Grant_priv,Super_privFROMmysql.user;”查询,发现已经是Y了。通过SELECT*FROMmysql.user;命令查询权限信息,可以看到root对应的很多权限都是N,如下图所示:至于为什么会出现root权限不够,可能是安装mysql的时候MySQL权限配置不正确,或者修改了相关的配置文件等。3.解决方案将root权限全部修改为Y,执行如下代码(记得退出mysql