Start-Job_草庐IT

performance - Mapreduce Job - 完成时间太长

我们已经编写了一个mapreduce作业来处理日志文件。到目前为止，我们有大约52GB的输入文件，但处理数据大约需要一个小时。它默认只创建一个reducer作业。我们经常会看到reduce任务中出现超时错误，然后它会重新启动并完成.以下是成功完成工作的统计数据。请告诉我们如何改进性能。FileSystemCountersFILE:Numberofbytesread=876100387FILE:Numberofbyteswritten=1767603407FILE:Numberofreadoperations=0FILE:Numberoflargereadoperations=0FILE

hadoop - 在 spark 上执行 hive 查询 - java.lang.NoClassDefFoundError org/apache/hive/spark/client/Job

我试图让HiveonSpark正常工作，但它似乎没有加载hive-exec-2.0.1.jar。我可以让Hiveonmr工作得很好。我正在使用Hive2.0.1和Spark1.6.1。遵循了HiveonSpark教程。我在hive-site.xml上设置了所有必要的属性，将sparkassemblyjar链接到hivelib文件夹中，我已经设置了所有环境变量(SPARK_HOME等)。我启动了Sparkmaster和worker。还以DEBUG级别启动了hiveserver2。尝试运行一个简单的查询“selectcount(*)...”，据我在配置单元日志中看到的那样，它执行带有所有必

spark NoClassDefFoundError java URLClassLoader ClassLoader hadoop apache-spark hive

hadoop - java IOException : Write end dead during a hadoop job 异常

我有一个map-onlyhadoop作业，它在工作期间抛出几个IO异常:1)java.io.IOException:写结束2)java.io.IOException:管道关闭它设法完成了它的工作，但有异常(exception)让我担心。我做错了什么吗？几乎相同的工作每天都在另一个小20倍的数据集上工作，并且没有抛出任何异常。作业由Googledataproc运行。我正在使用的配置文件:#!/bin/bashhadoopjar/usr/lib/hadoop-mapreduce/hadoop-streaming.jar\-Dmapreduce.output.fileoutputformat

hadoop IOException java at google-cloud-dataproc

hadoop - Ended Job = job_local644049657_0014 with errors Error during job, 获取调试信息

如何找到日志文件请指导我已经检查了资源管理器的url。但是我没有找到任何日志文件这是完整的错误QueryID=hadoop_20170325120040_d54d136a-1904-4af9-8f8d-4167343db072Totaljobs=1LaunchingJob1outof1Numberofreducetasksissetto0sincethere'snoreduceoperatorJobrunningin-process(localHadoop)2017-03-2512:00:42,954Stage-0map=0%,reduce=0%EndedJob=job_local64

644049657 job_local section gt lt hadoop mapreduce hadoop2

scala - Google dataproc spark 作业失败并显示 "Node was restarted while executing a job."消息

我正在为各种Spark流作业运行多个数据处理集群。所有集群都配置为单节点。最近(大约10天前)我开始在所有集群上遇到作业失败。每个作业运行大约。3天后失败并显示相同的消息:===========CloudDataprocAgentError===========com.google.cloud.hadoop.services.agent.AgentException:Nodewasrestartedwhileexecutingajob.Thiscouldbeuser-initiatedorcausedbyComputeEnginemaintenanceevent.(TASK_FAILE

amp restarted google java com scala hadoop apache-spark spark-streaming google-cloud-dataproc

hadoop - 无法在 oozie 中运行 "sqoop job --exec"

需要一些建议我正在尝试在oozie中运行sqoop作业，但它突然被杀死并且oozie-error.log中有这个警告2018-01-2117:30:12,473WARNSqoopActionExecutor:523-SERVER[edge01.domain.com]USER[linknet]GROUP[-]TOKEN[]APP[sqoop-wf]JOB[0000006-180121122345026-oozie-link-W]ACTION[0000006-180121122345026-oozie-link-W@sqoop-node]LauncherERROR,reason:Mainc

中运 amp sqoop oozie gt hadoop

csv - cloudera quick start 使用终端加载 csv 表 hdfs

我对这一切还很陌生，因为我才上第二个学期，我只需要帮助来理解我需要执行的命令。我正在尝试使用终端将本地csv文件加载到cloudera上的hdfs。我必须使用这些数据并与Pig一起完成一项任务。我已经尝试了所有方法，但它仍然给我'nosuchfileordirectory'。我关闭了安全模式，检查了目录，甚至确保可以读取文件。以下是我尝试加载数据的命令:hadoopfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csvhdfsdfs-copyFromLocal2008.csv/user/roothdfsdfs-copyFromLoca

csv cloudera code copyFromLocal hadoop terminal hdfs

apache-spark - 在 rapidminer : error occurred during submitting or starting the spark job 上运行 Spark

我正在使用rapidminer从大型数据集中提取规则。Radoop是hadoop生态系统的扩展，而sparkRM运算符允许进行fp-growth，从从hive检索数据到探索分析。我正在尝试:-Windows8.1-hadoop6.2-Spark1.5-hive2.1我已将spark-default-conf配置如下:#spark.masteryarn#spark.eventLog.enabledtrue#spark.eventLog.dirhdfs://namenode:8021/directory#spark.serializerorg.apache.spark.serializer

spark apache-spark gt lt property hadoop hadoop-yarn rapidminer resourcemanager

hadoop - org.apache.kylin.job.exception.ExecuteException : java. lang.NoClassDefFoundError: org/apache/hadoop/hive/serde2/typeinfo/TypeInfo 问题

我在https://issues.apache.org/jira/browse/KYLIN-2511上发现了类似的错误环境:hadoop-2.7.1hbase-1.3.2apache-hive-2.1.1-binapache-kylin-1.6.0-hbase1.x-bin我已经尝试将所有的hive库复制到kylin，但是又出现了另一个错误。org.apache.hadoop.mapred.YarnChild:Errorrunningchild:java.lang.NoClassDefFoundError:org/apache/hadoop/hive/serde2/typeinfo/T

hadoop apache section hive kylin

hadoop - 尝试在 HDP Sandbox 2.6 中执行 kylin.sh start 时出错

我按照官方安装指南安装了ApacheKylinhttp://kylin.apache.org/docs/install/index.html,在HDP沙盒2.6中当我运行脚本时，$KYLIN_HOME/bin/kylin.shstart，我得到以下错误:我该怎么做才能解决这个错误？提前致谢最佳答案检查Hive服务是否在你的ambari中启动，当Hive服务关闭时，Kylin找不到它并给出错误。还要检查.bash_profile。当这两个问题得到解决时，kylin应该能够找到hive依赖项的位置。

时出 Sandbox section kylin noreferrer hadoop hive