作业组

hadoop - 具有 gzip 格式的大文本文件的 Spark 作业

我正在运行一个Spark作业，它花费了很长时间来处理输入文件。输入文件为6.8GBGzip格式，包含1.1亿行文本。我知道它是Gzip格式，所以它不可拆分，并且只有一个执行程序将用于读取该文件。作为调试过程的一部分，我决定只看看将gzip文件转换为parquet需要多长时间。我的想法是，一旦我转换为parquet文件，然后如果我在该文件上运行我的原始Spark作业，在这种情况下它将使用多个执行程序并且输入文件将被并行处理。但即使是小工作也比我预期的要花更长的时间。这是我的代码:valinput=sqlContext.read.text("input.gz")input.write.pa

大文本文 li 的 Spark hadoop apache-spark amazon-s3 spark-dataframe parquet

hadoop - OOZIE:全局作业 xml 中引用的文件中定义的属性在 workflow.xml 中不可见

我是hadoop的新手，现在我正在测试仅使用单个sqoop操作的简单工作流。如果我使用纯值而不是全局属性，它会起作用。然而，我的目标是在job-xml中引用的文件中定义一些全局属性。全局部分中的标记。经过长时间的斗争和阅读很多文章，我仍然无法让它工作。我怀疑一些简单的事情出了问题，因为我发现有文章表明此功能可以正常工作。希望你能给我一个提示。简而言之:我有属性，dbserver,dbuser和dbpassword在/user/dm/conf/environment.xml中定义我的/user/dm/jobs/sqoop-test/workflow.xml中引用了这些属性在运行时，我收到

xml workflow code gt lt hadoop sqoop oozie

java - 使用 Hadoop 计数器 - 多个作业

我正在使用Hadoop进行mapreduce项目。我目前有3个顺序工作。我想使用Hadoop计数器，但问题是我想在第一个作业中进行实际计数，但在第三个作业的reducer中访问计数器值。我怎样才能做到这一点？我应该在哪里定义enum？我需要通过它扔第二份工作吗？它也有助于查看一些代码示例来执行此操作，因为我还找不到任何东西。注意:我使用的是Hadoop2.7.2编辑:我已经尝试过解释的方法here它没有成功。我的情况不同，因为我想从不同的工作访问计数器。(不是从映射器到reducer)。我尝试做的事情:第一份工作:publicstaticvoidstartFirstJob(String

Hadoop java job code CountersClass mapreduce counter

hadoop - 通过 Web 界面跟踪 Hadoop 作业状态？ (将Hadoop暴露给公司内部客户)

我想开发一个网站，允许公司内的分析师运行Hadoop作业(从一组定义的作业中选择)并查看其作业的状态\进度。有没有一种简单的方法可以通过Ruby\Python执行此操作(获取正在运行的作业状态等)？您如何向公司内部客户公开Hadoop集群？最佳答案我找到了一种在JobTracker上获取职位信息的方法。这是代码:Configurationconf=newConfiguration();conf.set("mapred.job.tracker","URL");JobClientclient=newJobClient(newJobC

Hadoop jobStatus lastTaskEndTime section

java - 我无法在以独立模式配置的 hadoop 上执行 map-reduce 作业

我正在尝试在我的计算机(MacOS10.7)上的本地文件系统(独立模式)上测试一个非常简单的hadoopmap-reduce作业。该作业采用.csv文件(data-01)并计算某些字段的出现次数。我下载了CDH4hadoop，运行作业，它似乎正常启动，但在处理完所有拆分后，我收到以下错误:13/03/1212:11:18INFOmapred.MapTask:Processingsplit:file:/path/in/data-01:9999220736+3355443213/03/1212:11:18INFOmapred.MapTask:Mapoutputcollectorclass=

map-reduce hadoop mapred MapTask java heap-memory

卫星6作业调用搜索查询：使用事实（更快）

我正在使用卫星6来管理EL5、6和7X主机。我一直在尝试根据我写的自定义事实（事实称为ad_domain，基本上告诉您它的活动活动），在许多服务器上执行工作调用（通过Monitor-＆Gt;Jobs-＆gt;运行工作）目录是否加入）。但是我不知道该怎么做。...这甚至可能吗？我是卫星新手...我什至不知道我可以在搜索查询中使用哪些参数来执行此操作。谁能帮助启发？是否可以在搜索查询中指定因子/FACETER值，以便它仅解对于匹配该值的主机？事先感谢您的帮助，Sue看答案你可以试试facts.ad_domain=值

调用更快 section 可以 ad_domain

scala - Spark 作业失败，退出状态为 15

我正在尝试在spark中运行简单的字数统计作业，但在运行作业时出现异常。Formoredetailedoutput,checkapplicationtrackingpage:http://quickstart.cloudera:8088/proxy/application_1446699275562_0006/Then,clickonlinkstologsofeachattempt.Diagnostics:Exceptionfromcontainer-launch.Containerid:container_1446699275562_0006_02_000001Exitcode:15

scala Spark apache java hadoop apache-spark

hadoop 2.2.0 作业列表抛出 NPE

我编译了hadoop2.2.0x64并在集群上运行它。当我执行hadoopjob-list或hadoopjob-listall时，它会抛出这样的NPE:14/01/2817:18:39INFOConfiguration.deprecation:session.idisdeprecated.Instead,usedfs.metrics.session-id14/01/2817:18:39INFOjvm.JvmMetrics:InitializingJVMMetricswithprocessName=JobTracker,sessionId=Exceptioninthread"main"j

hadoop NPE section code

algorithm - 图上的 Hadoop 作业结构

我有一个算法必须在可以并行化的图形上执行大量计算，虽然我可以使用Hadoop将这些计算分配给映射器，然后在缩减器上恢复结果，但我正在努力并开始认为也许我正在使用Hadoop来做一些我不应该使用Hadoop的事情(你知道，当你有一把锤子时，一切看起来都像钉子)。您可以在https://gist.github.com/brenes/79d980708aae463079b8查看该算法的ruby版本但是，在某种程度上，它是这样的:我们有一个图表。我们得到一个配置(节点和边的列表)来帮助我们控制整个图。我们摆脱了这种配置的一个(随机)节点，并获得了一系列替代配置。然后我们得到这些配置之一(随

algorithm Hadoop 射器 java controllability-samping-algorithm graph

python - 从 Hadoop mapreduce 作业打开 HDFS 上的文件

通常，我可以用这样的东西打开一个新文件:aDict={}withopen('WordLists/positive_words.txt','r')asf:aDict['positive']={line.strip()forlineinf}withopen('WordLists/negative_words.txt','r')asf:aDict['negative']={line.strip()forlineinf}这将打开WordLists文件夹中的两个相关文本文件，并将每一行作为正面或负面附加到词典中。但是，当我想在Hadoop中运行mapreduce作业时，我认为这行不通。我正在这样

mapreduce python code pre hadoop hadoop-streaming

57 58 596061 62 63