草庐IT

test_tasks

全部标签

hadoop - 在配置单元 "Unable to retrieve URL for Hadoop Task logs. Does not contain a valid host:port authority: local"上出现错误

在涉及mapreduce的hive上执行任何查询时,我收到此错误。“UnabletoretrieveURLforHadoopTasklogs.Doesnotcontainavalidhost:portauthority:local” 最佳答案 报告的异常出现在旧版本的Hadoop中(即YARN之前)。大多数情况下,您使用的是旧版本的Hadoop。当mapred.job.tracker的值出现异常参数在local中设置为“mapred-site.xml”相反,它应该是:. 关于hadoop

hadoop - Hive on tez in EMR schedule tasks very slow

我正在尝试在tez上使用Hive来查询存储在S3中的orc格式数据。TezAM定时任务非常慢,很多Map任务长时间处于“PENDING”状态。集群中有足够的资源(我会说足够了。有超过6TB的内存和超过1000个vcores可用,在这个作业中每个容器只花费2GB内存。这是唯一在集群中运行的作业yarncluster),但它们在调度任务方面做得很慢。有什么方法可以加快这个过程吗? 最佳答案 我遇到了同样的问题。我决定更换Hive的引擎。试试这个命令:设置hive.execution.engine=mr;在任何情况下,MR都是最好的。AW

hadoop - HBase:表test在meta中不存在但有znode。运行 hbck 修复不一致(失败)

我最近在开始使用HBase时添加了一个表test。由于一些问题,我决定重新安装HBase。重新安装并运行HBaseshell后,我尝试了:hbase(main):004:0>listTABLE0row(s)in0.0070seconds=>[]所以没有表格。现在我尝试添加表testhbase(main):005:0>create'test','testfamily'ERROR:Tablealreadyexists:test!我查看了日志文件并找到了以下条目2018-06-2107:53:30,646WARN[ProcedureExecutor-2]procedure.CreateTab

hadoop - 能否在 Hadoop 集群中的 Map Task 中启动特定进程?

我使用具有一个节点的Hadoop和YARN集群。所有hadoop和yarn守护进程都在这个节点中启动。我还使用ApacheNutch1.15分布式爬网启动了一个获取步骤,成功完成了注入(inject)和生成步骤。我正在尝试使用Selenium3.149.54FirefoxDriver在YarnChild容器上运行的maptask中运行Firefox浏览器。Firefox进程启动,但弹出一个窗口,提示Firefox配置文件丢失或无法访问,maptask被阻止,直到我关闭该窗口。Selenium3.141.54FirefoxDriver使用geckodriver启动Firefox,从容器用

Hadoop 管道 : how to pass large data records to map/reduce tasks

我正在尝试使用map/reduce来处理大量二进制数据。该应用程序的特点如下:记录的数量可能很大,因此我真的不想将每条记录作为单独的文件存储在HDFS中(我打算将它们全部连接到单个二进制序列文件),并且每个记录都是一个大的连贯(即不可拆分)blob,大小在一到几百MB之间。这些记录将由C++可执行文件使用和处理。如果不是为了记录的大小,HadoopPipesAPI会很好:但这似乎是基于将输入作为连续的字节block传递给map/reduce任务,这在这种情况下是不切实际的。我不确定执行此操作的最佳方法。是否存在任何类型的缓冲接口(interface)允许每个M/R任务以可管理的bloc

unit-testing - MR单元 : Tests fail with custom writable

我正在尝试使用MRUnit为我的hadoop作业实现单元测试.对于我自己的Writable,断言在withOutput(K2k2,V2v2)失败。我已经尝试覆盖Object的equals(Objecto)方法,但这没有帮助。当两个Writable实际上相同时,有什么想法可以告诉MRUnit吗? 最佳答案 为了使runTest()成功,必须覆盖inthashCode()。 关于unit-testing-MR单元:Testsfailwithcustomwritable,我们在StackOve

hadoop - 如何在hbase中搜索像 '%test%'这样的列值

我在co列中保存了大文本内容,我想搜索co列是否包含特定单词,就像我们在中所做的那样RDBMSeg:wherecolike%test%,要实现这个我应该写任何过滤器还是Mapreduce?有人可以举例说明如何实现这一目标吗? 最佳答案 你可以做类似的事情RegexStringComparatorcomp=newRegexStringComparator(".test.");//or(\W|^)test(\W|$)ifyouwantcompletewordsonly或SubstringComparatorcomp=newSubstri

hadoop - 并行运行多个 map task

我正在使用hadoop2.0。当我使用job.setNumMapTasks更改maptask的数量时,数量符合预期(输出文件夹中的序列文件数量和容器数量),但它们不会并行运行,但一次只有2个。例如,当我将map任务的数量设置为5时,它会先执行其中的2个,然后再执行2个,然后再执行1个。我有一个8核系统,想充分利用它。一些在线搜索(包括StackOverflow)似乎提出了一些建议,我尝试了以下方法:调整了mapred-site.xml中的参数“mapred.tasktracker.map.tasks.maximum”来设置并行运行的任务数。我将其设置为8。减少了参数“mapred.ma

java - SparkOnHBase : NullPointerException during build tests "distributedScan"

我对Hadoop、Spark和HBase还很陌生。我正在尝试构建SparkOnHBasemvncleanpackage(ApacheMaven3.3.3)库但是我在构建过程中遇到了以下失败的测试:-distributedScantotestHBaseclient***FAILED***java.lang.NullPointerException:atorg.apache.hadoop.net.DNS.reverseDns(DNS.java:92)atorg.apache.hadoop.hbase.mapreduce.TableInputFormatBase.reverseDNS(Tab

hadoop - Spark : Minimize task/partition size skew with textFile's minPartitions option?

我正在通过sc.textFile("/data/*/*/*")之类的方式将数万个文件读入rdd>一个问题是这些文件中的大多数都是微小的,而其他的则巨大。这会导致任务不平衡,从而导致各种众所周知的问题。我能否通过sc.textFile("/data/*/*/*",minPartitions=n_files*5)读取数据来拆分最大的分区,其中n_files是输入文件的个数吗?如约定elsewhere在stackoverflow上,minPartitions被传递到hadooprabithole,并在org.apache.hadoop.mapred.TextInputFormat.getSp