草庐IT

HADOOP_OPTS

全部标签

hadoop - Spark YARN 应用程序中 Kerberos 中的 HDFS 写入问题

我有一个spark应用程序,它从Kafka读取数据并将数据写入HDFS。我的应用程序在几分钟内工作正常,但一段时间后它开始出现以下错误并失败。2018-01-0217:59:20LeaseRenewer:username@nameservicename[WARN]UserGroupInformation-PriviledgedActionExceptionas:username@REALM_NAME(auth:KERBEROS)cause:javax.security.sasl.SaslException:GSSinitiatefailed[CausedbyGSSException:N

hadoop - 如何为 Titan MR 作业设置 yarn 作业队列

Titan版本是1.0.0无论我尝试过什么,所有yarn应用程序最终都在默认队列中。这些是我试过的东西:1)在titan-hbase-solr.properties中设置属性(以下均无效)mapred.job.queue.name=myqueuemapreduce.job.queue.name=myqueuemapred.mapreduce.job.queue.name=myqueue2)在gremlinshell中设置属性gremlin>graph=TitanFactory.open("/usr/iop/4.2.5.0-0000/titan/conf/titan-hbase-solr

hadoop - 使用配置单元中的另一个表创建表时出现问题

hive中有一个测试表。表数据有多个小文件,所以我想使用该测试表创建另一个表,这样新创建的表将具有更少的分区并且查询会很快。但是我创建新表时它给了我错误。CREATETABLEIFNOTEXISTStest_mergeSTOREDASparquetASSELECT*FROMtest;错误ERROR:Status:FailedERROR:FAILED:ExecutionError,returncode3fromorg.apache.hadoop.hive.ql.exec.spark.SparkTaskINFO:Completedexecutingcommand(queryId=hive_

Hadoop Kerberos : Datanode cannot connect to Namenode. 由 jsvc 启动 Datanode 以绑定(bind)特权端口(不使用 SASL)

我设置了一个运行良好的HAHadoop集群。但是添加Kerberos认证后datanode无法连接namenode。验证Namenode服务器成功启动并且没有记录错误。我用用户'hduser'启动所有服务$sudonetstat-tuplen...tcp0010.28.94.150:80190.0.0.0:*LISTEN1001202181518/javatcp0010.28.94.150:500700.0.0.0:*LISTEN1001202071447/javatcp0010.28.94.150:90000.0.0.0:*LISTEN1001202351447/java数据节点以r

hadoop - Oozie HUE 仪表板未显示图表

正如我的标题所说,oozie工作流仪表板未在UI上显示图表。随着研究,我发现了很多问题,JIRAS以及hortonworksportal中的问题,这真的对我没有帮助。我正在从命令行创建job.properties和workflow.xml并从命令行提交作业,通过UI执行不是我的选择。下面是我正在运行的示例工作流.XML${jobTracker}${nameNode}mapreduce.job.queuename${queueName}SCRIPT.sh${Path}/SCRIPT.sh#SCRIPT.sh${configFile}提前致谢!! 最佳答案

hadoop - 从 Prediction-IO App 中删除事件

我们使用Hbase、Hadoop作为内部使用PredictionIO的通用推荐应用程序的事件存储。数据已经变得非常大,经过深思熟虑,我们认为最好删除超过6个月的数据。(添加另一台机器作为数据节点是完全不可能的)。经过多次查看后,我看到删除事件的唯一方法是查询事件服务器、获取事件ID并为每个事件ID调用删除请求。问题是在随机时间,事件服务器响应InternalServerError,因此删除被停止。当我在Postman中点击相同的查询时,它有时会响应事件,有时会响应服务器无法及时响应您的请求。为了确认实际上是否没有事件,我进行了检查在Hbase中。有些事件比我在查询中询问的事件更早。查询

hadoop - 配置单元 - 为不同的列值插入行

老实说,我不知道如何简单地在标题行中描述问题而不是展示示例。我有一个包含两列的配置单元表:ID和日期IDDate3101-01-20173101-02-20173101-03-201712301-01-201712301-01-2017...在这个表中,我想包括另一列是小时,如下所示IDDateHour3101-01-2017003101-01-2017013101-01-2017023101-01-2017033101-01-201704...3101-01-2017233101-02-2017003101-02-201701...基本上,对于每一行,我想添加一个小时值从00到23的

hadoop - 我不明白这个示例代码中的 jar 和 class-name 是什么

我正在尝试使用sqoop合并hdfs上的增量数据,这是我在googlehttps://developer.ibm.com/hadoop/2017/02/28/typical-scenario-sqoop-incremental-import-merge/上找到的示例代码我不明白那里的jar文件和类名是什么,我应该提供哪个jar文件的路径以及什么类名?有人可以帮我理解吗?谢谢。sqoopmerge--new-data/apps/hive/warehouse/student/part-m-00000--onto/apps/hive/warehouse/student/part-m-0000

hadoop - QueryDatabaseTable Nifi 处理器从 mysql 数据库中获取重复行

QueryDatabaseTable在2节点集群上两次从Mysql表中获取行。当执行设置被配置到所有节点时,抓取过程本身不会被分发。每个节点获取相似的数据,这不是我需要的理想输出。换成主节点也能正常工作,但是一个节点承担了整个获取数据的过程,这就违背了分布式计算的意义。有解决方法吗? 最佳答案 QueryDatabaseTable设计为仅在主节点上运行一个任务,它只执行一次提取,不是分布式解决方案。对于集群中的并行/分布式抓取,您需要以下内容:GenerateTableFetch->RemoteProcessGroup->输入端口-

hadoop - cleanup() 方法如何工作?

我目前是Hadoop的新手。所以我在MapReduce中解决了这段代码,它找出了“每年‘数据工程师’工作最多的国家/地区的部分”(例如,如果格式为(Year,Region,Count(Jobs))是"2016,'XYZ',35"和"2016,'ABC',25"和"2015,'sdf',14",答案将是"2016,'XYZ',35"和"2015,'sdf',14"),但我无法理解reducer中的部分,如下所示:-if(Top5DataEngineer.size()>1)Top5DataEngineer.remove(Top5DataEngineer.firstKey());}//Ign