作业队

java - 由于某些未知原因，Spark 作业在 saveAsHadoopDataset 阶段失败，因为执行器丢失

我有一个在yarn上运行的spark作业，它处理大约150gb的数据集，并进行多次随机播放操作，最后将数据存储到hbase中。它在saveAsHadoopDataset处一直失败基本上，多个执行程序在报告高GCActivity后在此阶段失败。但是，执行程序日志、驱动程序日志或节点管理器日志均未指示任何OutOfMemory错误或GCOverheadExceeded错误或超出内存限制错误。我在sparkui中也没有看到执行器失败的任何其他原因。valhConf=HBaseConfiguration.createhConf.setInt("hbase.client.scanner.cach

Hadoop MapReduce 作业权限被拒绝

我正在尝试运行mapreduce作业以使用Hive获取表中的用户数。我在这样做时遇到了AccessControlException。命令提示符上的消息:hive>selectcount(*)frombxbookratings;QueryID=nikhilbarar_20160726214949_ddeb51ca-4833-48af-88ec-3a1129b5f741Totaljobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadforareduc

MapReduce Hadoop apache java permissions hive hdfs

hadoop - 关闭 Hadoop MapReduce 作业的数据局部性

我有一个YARN集群，集群中有几十个节点。我的程序是一个只有map的工作。它的Avro输入非常小，只有几百万行，但处理一行需要大量的CPU资源。我观察到许多maptask在单个节点上运行，而其他节点不参与。这会导致某些节点非常慢并影响整体HDFS性能。我假设这种行为是由于Hadoop数据局部性造成的。我很好奇是否可以将其关闭，或者是否有其他方法可以强制YARN在集群中更均匀地分配maptask？谢谢! 最佳答案假设您不能轻松地在集群中更均匀地重新分配数据(肯定不是所有数据都在一个节点上吧？!)这似乎是放松局部性的简单方法:yarn

MapReduce hadoop section 分配数 stackoverflow hdfs hadoop-yarn hortonworks-data-platform

hadoop - 如何在远程 Yarn 资源管理器上部署 samza 作业

我们在hadoopyarn上运行samza作业。到目前为止，我们都是通过在ResourceManager主机上调用run-job.sh来手动部署作业。run-job.sh--config-factory=org.apache.samza.config.factories.PropertiesConfigFactory--config-path=file:///usr/share/promo-rules-consumer/config/config.propertiesSamza部署脚本和samza分发tar"samza-dist.tar.gz"都放在资源管理器本地文件系统上。但现在我想

上部何在 config blockquote samza hadoop hadoop-yarn apache-samza

hadoop - Oozie 作业失败

我正在尝试运行一个简单的Oozie作业，以使用Sqoop从本地MySQL数据库中提取数据。下面是我的workflow.xml:horton-n2.hdp.local:8050hdfs://horton-n1.hdp.local:8020mapred.compress.map.outputtrueimport--connectjdbc:mysql://horton-n1.hdp.local/sqooptest--tablesampledata--usernamesqoop--passwordsqoop123--target-dir--drivercom.mysql.jdbc.Driver

hadoop Oozie lt gt 34 hdfs sqoop

hadoop - 如何使用 Cloudera Quickstart Docker 容器执行 MapReduce 作业/JAR

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭5年前。Improvethisquestion我需要一些关于如何使用ClouderaDocker容器运行MapReduce程序/作业的帮助。我正在使用Linux(ElementaryOS)高配置。笔记本电脑(24GB内存，i7处理器)。我能够安装Clouderadocker镜像，运行它并毫无问题地执行以下操作:1.看到#提示符并运行HDFS命令(hadoopfs-ls)，尽管它没有返回任何内容。2.可以访问Hue

容器 Quickstart section class notice hadoop cloudera-cdh cloudera-manager cloudera-quickstart-vm

hadoop - 使用用户定义的类链接作业

我必须使用MapReduce实现图形算法。为此，我必须链接作业。MAP1->REDUCE1->MAP2->REDUCE2->...我将从MAP1中的文件中读取相邻矩阵并创建一个用户定义的java类Node，它将包含数据和子信息。我想将此信息传递给MAP2。但是，在我写的REDUCE1中context.write(node,NullWritable.get());节点数据使用Node类的toString()以文本格式保存在文件中。当MAP2尝试读取此节点信息时，publicvoidmap(LongWritablekey,Nodenode,Contextcontext)throwsIOEx

hadoop 使用 blockquote section Node mapreduce hadoop-streaming chaining

java - 尝试使用 Java MapReduce 作业批量加载到 titan 时发生 ClassNotFoundException

我们目前正在尝试使用mapreduce作业和titan依赖项将一些文件从HDFS批量加载到titan。但是，一旦map作业开始时找不到tinkerpop类，我们就会遇到问题。这是错误:java.lang.ClassNotFoundException:org.apache.tinkerpop.gremlin.structure.Vertex我在某处读到Titan1.0.0仅与Tinkerpop3.0.1-incubating兼容，因此这就是我们的依赖项版本。查看我们的pom.xml和代码可能会有所帮助pom.xml:4.0.0replacementIDreplacementID0.0.1

ClassNotFoundException MapReduce apache gt lt java maven hadoop titan tinkerpop

java - Spark 作业与 yarn-client 一起正常工作，但与 yarn-cluster 完全不工作

我在用yarn提交spark作业jar时遇到问题。当我使用--masteryarn-client提交它时，它运行良好并给我预期的结果命令如下；./spark-submit--classmain.MainClass--masteryarn-client--driver-memory4g--executor-memory4g--num-executors4--executor-cores2job.jar其他选项但是当提交到集群模式时同样不起作用；命令如下;./spark-submit--classmain.MainClass--masteryarn--deploy-modecluster-

yarn yarn-cluster 03 INFO gt java hadoop apache-spark spark-submit

mysql - Sqoop 导出到 MySQL 导出作业失败工具.ExportTool 但得到记录

这是来自的后续问题sqoopexportlocalcsvtoMySQLerroronmapreduce我能够运行sqoop作业并使用以下命令将数据从本地.csv文件导入MySQL:$sqoopexport-fslocal-jtlocal-D'mapreduce.application.framework.path=/usr/hdp/2.5.0.0-1245/hadoop/mapreduce.tar.gz'--connectjdbc:mysql://172.52.21.64:3306/cf_ae07c762_41a9_4b46_af6c_a29ecb050204--usernameuse

ExportTool mysql mapreduce java mapred csv hadoop sqoop

170 171 172173174 175 176