作业队_草庐IT

scala - Spark 作业未在本地并行化(使用本地文件系统中的 Parquet + Avro)

编辑2通过将RDD重新分区为8个分区间接解决了问题。遇到avro对象不是“javaserialisable”的障碍，找到了一个片段heretodelegateavroserialisationtokryo.原来的问题依然存在。编辑1:删除了map函数中的局部变量引用我正在编写一个驱动程序，使用parquet和avroforio/schema在spark上运行计算繁重的作业。我似乎无法得到Spark来使用我所有的核心。我究竟做错了什么？是因为我已将键设置为null吗？我刚刚开始了解hadoop如何组织文件。据我所知，因为我的文件有1GB的原始数据，我应该期望看到与默认block和页面大小

java - Hadoop 作业因大数据上的 native SimString C 代码而失败

我在使用SimStringNative库在hadoop集群上运行大数据(~15G)作业时遇到问题。然而，作业在中/小型数据集(~200M)上运行良好。在作业期间，SimString首先创建一个基于文件的数据库来匹配字符串，然后对给定的字符串与数据库中的字符串进行匹配。作业完成后，它会删除基于文件的数据库。该作业以多线程(100个线程)方式运行。为作业执行创建了大约22个映射器，每个映射器运行100个线程。总体而言，机器内存为4G错误日志如下:14/02/1200:15:53INFOmapred.JobClient:map0%reduce0%14/02/1200:16:13INFOm

大数 SimString 201402091522 attempt 000001 java hadoop native-code

python - 如何使用 avro 文件作为 MRJob 作业的输入？

我需要将avro文件作为mrjobhadoop作业的输入。除非我将额外的命令传递给hadoopstreamingjar，否则我找不到任何关于如何执行此操作的文档。这会使开发复杂化，因为我一直在使用inlinerunner在本地进行测试。是否可以使用inlinerunner通过MRJob读取avro文件？最佳答案您需要的是告诉Hadoop您的Hadoop作业的“输入格式”是什么格式:hadoopjarhadoop-streaming.jar;;otherparamsgohere-inputformatorg.apache.avro

python MRJob section code hadoop hadoop-streaming

java - 无法通过java客户端获取Hadoop作业信息

我正在使用Hadoop1.2.1并尝试通过java客户端打印作业详细信息，但它没有打印任何内容，这是我的java代码Configurationconfiguration=newConfiguration();configuration.addResource(newPath("/usr/local/hadoop/conf/core-site.xml"));configuration.addResource(newPath("/usr/local/hadoop/conf/hdfs-site.xml"));configuration.addResource(newPath("/usr/lo

java Hadoop lt configuration gt

java - 打包和部署 Hadoop MapReduce 作业的正确方法？

我在本地节点CentOS上运行Hadoop2.2.0.2.0.6.0-101。当我将/usr/lib/hadoop和/usr/lib/hive中的必要jar作为Eclipse项目中的依赖项包含时，我的MapReduce作业在Eclipse中编译。寻找必要的jar是一项真正的任务!grep是我完成这项工作的唯一工具，它可以执行诸如grep-ri-l"FacebookService"/usr/lib/hadoop尽管如此，当我尝试在编译它的同一本地节点上运行我的应用程序时，我遇到了异常。我放弃了寻找必要的jar的尝试——在一个异常被修复后，一个新的异常出现了。现在，在通过从/usr/lib

MapReduce Hadoop code section java deployment jar

hadoop - 来自集群未知主机名的主机的 Spark YARN 客户端作业？

我有一些私有(private)主机可以从YARN集群中通过IP而不是通过主机名可见。当他们尝试以YARN客户端模式提交任何Spark作业时，会尝试从集群连接驱动程序主机。由于默认情况下spark.driver.host配置为本地主机名，因此失败。那么有什么好的选择来处理这个问题吗？诸如自动将``spark.driver.host`设置为用于连接到集群的客户端IP接口(interface)地址之类的东西？正确的DNS解析不是选项。不可能。最佳答案基于此http://spark.apache.org/docs/latest/conf

hadoop Spark section 中通 apache-spark hadoop-yarn

hadoop - 从 SQL Server 导入数据的 Sqoop 作业卡在 Map 0%

我有一个运行CDH5.0.2的伪分布式hadoop集群。我正在运行sqoop导入命令:sudo-usqoopsqoopimport--connect"jdbc:sqlserver://x.x.x.x:1433;databaseName=yyyyy"--usernamex--passwordy--tabletable_name我只是导入一个非常小的表，它有12行和2列用于测试。该作业已运行半小时。在我的资源管理器上，映射器任务的状态列为NEW，它们的状态列为SCHEDULED。我认为它永远不会运行!当我使用yarn列出作业时:yarnapplication-list我得到:14/07/0

hadoop Server mapreduce apache sqoop hadoop-yarn

hadoop - 为什么 YARN 中的压缩会使作业减慢数倍？

当我使用压缩(snappy)在YARN(2.4.0)中运行作业时，对作业完成时间有很大影响。例如，我进行了以下实验。工作:invertedindex集群:10个从属VM(4CPU8GBRAM)。5GBinvertedindex无压缩作业完成时间(snappy):226s，有压缩:1600s50GBinvertedindex无压缩作业完成时间(snappy):2000s，有压缩:14000s我在mapred-site.xml中的配置是这样的:mapreduce.map.output.compresstruemapred.map.output.compress.codecorg.apach

hadoop YARN section code compress mapreduce hadoop-yarn hadoop2

java - 如何在不在 libjars 中编写完整类路径的情况下在 scalding/hadoop 作业中运行 slim jar

有没有一种方法可以在不使用libjars和明确以逗号分隔编写每个jar的情况下运行需要类路径的scalding作业。我想把我所有的jar放在一个库中，而不是只写-libjars=./lib/*而不是所有的jar。有经典的方法吗？？使用烫金版scalding-core_2.100.8.5hadoop版本2.0.0-cdh4.5.0附言我正在使用maven来打包jar和lib 最佳答案您应该创建一个“fatjar”，其中包含您将使用libjars添加的依赖项以及主类。可以在一个jar中查看带有Scalding和依赖项的sbt项目的具体

中运何在 section scalding jar java hadoop maven-3

caching - 如何在 hadoop map reduce 作业中有效地缓存大文件？

我的工作流程如下:我正在处理大量数据。我有一个需要缓存的MapFile。此文件的大小现在为1GB，但我希望它最终会变大。MapFile的内容应该是这样的:12345,45464192.34.23.133214,45321123.45.32.1在map-phase中，我处理来自TextInputFormat格式的输入文件中的每条记录。我解析该行(按标记拆分)并检索前两个标记，token1和token2。如果(token1,token2)对不在缓存文件中，那么我调用API，获取信息，保存在缓存中(如果可能)并继续处理。privateParserparser=newcustomParser(

大文何在 section code cache caching hadoop mapreduce distributed-cache map-files