草庐IT

hadoop-worker

全部标签

hadoop - 无法从配置单元创建 hbase 表

这是我正在运行的查询,但出现异常。我将所有jar保存在hive/lib文件夹中,但我仍然面临这个问题。谁能给我建议如何解决这个问题。提前致谢。hive>CREATETABLEhbase_shipper(s_idint,s_namestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,cf1:val")TBLPROPERTIES("hbase.table.name"="hive_shipper");FAILED:E

java - Hadoop 单例模式的使用

我正在尝试实现单例,它将在hadoop中缓存和验证mapreduce作业的配置。我们将其命名为ConfigurationManager。这是我目前拥有的:publicclassConfigurationManager{privatestaticvolatileConfigurationManagerinstance;privatestaticfinalStringCONF_NAME="isSomethingEnabled";privatebooleanisSomethingEnabled;privateConfigurationManager(Configurationconfigur

hadoop - 为什么 mapreduce 作业指向本地主机 :8080?

我正在处理MapReduce作业并使用ToolRunner的运行方法执行它。这是我的代码:publicclassMaxTemperatureextendsConfiguredimplementsTool{publicstaticvoidmain(String[]args)throwsException{System.setProperty("hadoop.home.dir","/");intexitCode=ToolRunner.run(newMaxTemperature(),args);System.exit(exitCode);}@Overridepublicintrun(Stri

hadoop - 在 pyspark 数据帧计数函数中得到 `java.nio.BufferOverflowException`

我正在使用以下环境:spark=2.0.0,hdp=2.5.3.0,python=2.7,yarn客户端我的PySpark代码大部分时间都运行良好。但是有时我在df.count()函数中遇到异常适合我的代码:df=spark.read.orc("${path}")df.count()出现异常的代码:df=spark.read.orc("${path}")df=df.cache()df.count()堆栈跟踪:Jobabortedduetostagefailure:Task0instage4.0failed4times,mostrecentfailure:Losttask0.3insta

hadoop - 如何在协调器中将当前月、日或年设置为工作流参数(在 Hue 上)

我有一个Oozie工作流,它具有三个参数,分别期望日、月和年。此工作流程与手动输入完美配合。我现在正在寻找一个协调器,它每天运行这个工作流并自动用当前的日期、月份和年份填充这些参数。我已经尝试了Hue似乎提议的${DAY}、${MONTH}和${YEAR}但我明白了使用例如提交协调器时出现以下错误${MONTH}作为我的月份参数的值。E1004:Expressionlanguageevaluationerror,Unabletoevaluate:${MONTH}:我正在CDH5.8上尝试这个。 最佳答案 我自己找到了答案,Hue也向

hadoop - 在每个应用程序上重新读取哪些 YARN 配置参数?

我有一份工作比我日常工作流程中运行的其他50份左右的工作要大得多。我希望属性yarn.app.mapreduce.am.resource.mb更大一些,以便完成大工作。我运气好吗?我如何知道哪些属性需要完全重启集群中的哪些YARN片段才能更改? 最佳答案 无需重启YARN服务即可在作业级别更改此设置。一般很难说什么时候可以更改每个MR属性。通常可以在作业级别更新作业级别的属性,如mapper/reducer/appmaster内存设置。可以查看thishelpfulpost以更深入地了解这个主题。

hadoop - 重新执行如何成为容错的主要来源?

在一篇关于MapReduce的研究论文中,有一句话:Ouruseofafunctionalmodelwithuserspecifiedmapandreduceoperationsallowsustoparallelizelargecomputationseasilyandtousere-executionastheprimarymechanismforfaulttolerance.我不明白重新执行的实际含义以及重新执行如何成为容错的主要机制? 最佳答案 我想给出一个笼统的答案。错误或失败的原因:节点故障/无法访问换句话说,这意味着该

hadoop - 从 Hive 中的 collect_list 结果构造映射

一系列UNIONALL生成我想用来构建MAP的键值对列表。所需的功能是这样的:selectid1,id2,map(collect_list(col))asmeasurementsfrom(selectid1,id2,"height"ascolunionallselectid1,id2,count(*)ascolfromtable1unionallselectid1,id2,"weight"ascolunionallselectid1,id2,count(*)ascolfromtable2)什么是正确的实现方式?我希望得到的结果是:id1id2measurements110{"heigh

hadoop - Apache HAWQ 生产使用

我不知道还有什么地方可以问这个问题,所以我会在这里问,因为我认为这可以为future可能有类似问题的用户提供一个很好的引用。ApacheHAWQ是否有任何已知的生产用途(http://hawq.incubator.apache.org/)?我想将这项服务与Presto、Spark、Impala等其他服务进行比较。但除了漂亮的基准测试之外,我还没有发现它在现实世界中的任何用法。最后,如果您亲自使用过它,您的使用体验如何? 最佳答案 目前apachehawq没有独立的文档。但是社区正在将文档从pivotalhdb转移到apachehaw

hadoop - pig 第三高的薪水

如何在pig中获得第三高的薪水,即使它包含重复项。请帮我解决这个问题。输入:Sri30000Abhi15000SAS15000mansa18000asdf5262dnaj20000harda20000 最佳答案 您可以使用RANK来实现这一点,并在不同的薪资关系中获得排名第三的记录。我将使用LIMIT。A=LOAD'data.txt'USINGPigStorage('\t')AS(name:chararray,salary:int);B=FOREACHAGENERATEA.Salary;C=DISTINCTB;D=ORDERCBYC