草庐IT

期末作业

全部标签

hadoop - MapReduce 作业无法与启用 Kerberos 的 CDH 集群上的 Hbase 对话

我正在编写一个MapReduce应用程序来访问启用了Kerberos的CDH集群上的Hbase数据。我的CDH版本是5.9.0,运行在3个节点上,Kerberos版本是1.10.1。现在,我面临一个问题,希望有人能提供帮助。我的代码:conf.set("hadoop.security.authentication","Kerberos");UserGroupInformation.setConfiguration(conf);UserGroupInformation.loginUserFromKeytab("jj@example.com","jj.keytab");HTabletabl

amazon-web-services - 我可以像在本地集群上一样在 EMR 上运行作业吗

我已经在我的笔记本电脑上构建了一个本地集群(伪模式)。我在哪里运行不同的mapreduce命令,例如hadoop-streaming-Dmapred.output.compress=true\-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec\-filesmy_mapper.py,my_reducer.py\-mappermy_mapper.py\-reducermy_reducer.py\-input/aws/input/input_warc.txt\-output/aws/output现

hadoop - 为什么 mapreduce 作业指向本地主机 :8080?

我正在处理MapReduce作业并使用ToolRunner的运行方法执行它。这是我的代码:publicclassMaxTemperatureextendsConfiguredimplementsTool{publicstaticvoidmain(String[]args)throwsException{System.setProperty("hadoop.home.dir","/");intexitCode=ToolRunner.run(newMaxTemperature(),args);System.exit(exitCode);}@Overridepublicintrun(Stri

hadoop - 本地缓存后映射减少占用空间的作业

我正在使用Hortonworks环境进行大数据处理。我观察到,作为来自Hive/Oozie/Pig等的MapReduce作业的一部分,我下面的本地缓存目录正在被填满。它为每个使用jar文件的mapreduce执行创建一个文件夹。/hadoop/yarn/local/usercache/root/filecache直接删除这些文件夹可以吗?有没有我可以设置为自动删除它的配置? 最佳答案 这些目录应该每600000毫秒(10分钟)自动清理一次。或者您可以通过在yarn-site.xml中设置此属性来缩短此时间段,yarn.nodeman

hadoop - 如何为 Titan MR 作业设置 yarn 作业队列

Titan版本是1.0.0无论我尝试过什么,所有yarn应用程序最终都在默认队列中。这些是我试过的东西:1)在titan-hbase-solr.properties中设置属性(以下均无效)mapred.job.queue.name=myqueuemapreduce.job.queue.name=myqueuemapred.mapreduce.job.queue.name=myqueue2)在gremlinshell中设置属性gremlin>graph=TitanFactory.open("/usr/iop/4.2.5.0-0000/titan/conf/titan-hbase-solr

java - 如何将第三方 jar 添加到 mapreduce 作业?

寻找将第三方jar添加到mapreduce作业中的解决方案。目前,我们正在将第三方jar捆绑到mapreduce作业中。似乎有时mapreduce作业jar的大小会变高。有没有另一种方法来克服这个问题 最佳答案 我相信“-libjarsjar1,jar2,...”是您在这里需要的 关于java-如何将第三方jar添加到mapreduce作业?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/quest

hadoop - Mapreduce 作业消耗更多资源和更改队列

我有一个运行超过1.7亿条记录的MapReduce作业。这导致消耗了98%的队列资源和89%的集群资源。管理团队建议他们创建配置有限的新队列,我应该将我的工作推送到该队列中。这里有问题,我有:-1-我怎样才能将我的mapreduce作业(“hadoopjar”)推送到新队列并进行最少的更改?2-由于新创建的队列资源有限,如果队列容量已满怎么办?它会导致长期运行或作业失败吗?3-是否有任何其他最佳方法来防止作业消耗所有资源,如果作业运行时间稍长一点,我们就可以接受。请指教。任何帮助都会很棒。 最佳答案 如果您正在使用容量/公平份额调度

java - Map Reduce - 如何在单个作业中分组和聚合多个属性

我目前在MapReduce方面遇到了一些困难。我有以下数据集:1,John,Computer2,Anne,Computer3,John,Mobile4,Julia,Mobile5,Jack,Mobile6,Jack,TV7,John,Computer8,Jack,TV9,Jack,TV10,Anne,Mobile11,Anne,Computer12,Julia,Mobile现在我想应用带分组的MapReduce和聚合此数据集,以便输出不仅显示哪个人购买某物的次数,以及该人订购最多的产品是什么。所以输出应该是这样的:John3ComputerAnne3MobileJack4TVJulia

web前端期末大作业——HTML+CSS简单的旅游网页设计与实现

👨‍🎓静态网站的编写主要是用HTMLDⅣV+CSSJS等来完成页面的排版设计👩‍🎓,一般的网页作业需要融入以下知识点:div布局、浮动定位、高级css、表格、表单及验证、js轮播图、音频视频Fash的应用、uli、下拉导航栏、鼠标划过效果等知识点,学生网页作业源码,制作水平和原创度都适合学习或交作业用,记得点赞。🏀精彩专栏推荐👇🏻👇🏻👇🏻💝【作者主页——🔥获取更多优质源码】💝【web前端期末大作业——🔥🔥毕设项目精品实战案例(1000套)】文章目录🌰一、网站题目👨‍🎓二、网站描述✍️三、网站介绍📖四、网站效果🌐五、网站代码制作部分📕HTML结构代码🧱六、遇到问题及如何解决🔍七、实训总结😊八、更

java - hadoop 使用类名提交作业,为什么需要 job.setJarByClass()?

例如我有一个hadoop字数统计程序(来自互联网),字数统计.java:publicstaticclassWordCount{publicstaticvoidmain(String[]args)throwsException{....Jobjob=Job.getInstance(newConfiguration(),"wordcount");job.setJarByClass(WordCount.class);//Why?}}像这样将它编译成一个jar并提交给yarn:hadoopjarwordcount.jarWordCount[input-hdfs][output-hdfs]在这个