草庐IT

apache-spark-1.6

全部标签

java - 将 Apache Pig 连接到 Hadoop 集群

我正在使用ApachePig对Hadoop集群进行一些数据分析工作。我在hadoop集群中部署了一个集合节点和32个从节点。但是,当我使用Pig以mapreduce模式运行脚本并连接到该Hadoop集群时,它总是只启动一个map和一个reduce。我如何设置Pig或Hadoop以使用所有32个从站?作业状态如下图所示:JobStats(timeinseconds):JobIdMapsReducesMaxMapTimeMinMapTimeAvgMapTimeMedianMapTimeMaxReduceTimeMinReduceTimeAvgReduceTimeMedianReduceti

apache - Cloudera 服务监视器无法启动

在docker容器中重新启动cloudera管理服务时出现以下错误:quickstart:latest,我在错误显示服务监视器未运行后重新启动:Mar15,8:45:43.760AMERRORcom.cloudera.cmon.firehose.MainFailedtostartFirehosejava.io.IOException:UnknownversionoftheversionedLevelDBstore.atcom.cloudera.cmon.tstore.leveldb.LDBUtils.openVersionedDB(LDBUtils.java:253)atcom.clo

hadoop - 在集群部署模式下运行 spark 提交作业失败但通过客户端

EDITI:通过删除应用程序中“setMaster”的conf设置,我能够成功运行yarn-cluster-如果有人可以帮助sparkmaster作为集群部署-那太棒了我正在尝试在本地测试机上设置spark,以便我可以从s3存储桶中读取数据,然后写回它。使用客户端运行jar/应用程序工作正常,很好,很好,因为它进入存储桶并创建一个文件并再次返回。然而,我需要它在集群模式下工作,以便它更接近我们的生产环境,但它总是失败——我能看到的日志中没有真正有意义的消息,也没有什么反馈可以继续。非常感谢任何帮助-我是spark/hadoop的新手,所以可能忽略了一些明显的事情。我也尝试以yarn-c

hadoop - 从 Spark 作业创建 FS 的快照

我想在运行spark作业时创建底层HDFS的快照。特定步骤涉及删除某些Parquet文件的内容。我想创建快照执行删除操作,验证操作结果并继续执行后续步骤。但是,我找不到从我的spark作业访问HDFSAPI的好方法。我要创建快照的目录在HDFS中被标记/标记为可快照。创建快照的命令行方法有效,但是我需要以编程方式执行此操作。我在CDH5.5上运行Spark1.5。关于如何执行此操作的任何提示线索?谢谢内存开发 最佳答案 我还没有验证这一点,但至少我没有遇到编译错误,理论上这个解决方案应该有效。这是Scala代码:valsc=newS

hadoop - Spark Streaming 可以选择特定文件吗

我的程序不断从hadoop文件夹(例如/hadoopPath/)读取流。它从上述文件夹中挑选所有文件。我可以只为这个文件夹拍摄特定的文件类型吗(比如:/hadoopPath/*.log)我还有一个与Spark和流相关的问题:Issparkstreamingworkswithboth"cp"and"mv" 最佳答案 几个小时以来,我一直在为同一个问题苦苦挣扎,虽然它看起来很简单,但我在网上找不到任何相关信息。最后,我找到了适合我的情况的解决方案。我把它放在这里是为了为遇到同样问题的其他人节省一些时间。假设您只想读取具有“path-to

Hadoop IO 错误 : Type mismatch in key from map : expected org. apache.hadoop.io.Text,收到 RegexMatcher.CustomKey

我收到以下错误:java.lang.Exception:java.io.IOException:Typemismatchinkeyfrommap:expectedorg.apache.hadoop.io.Text,receivedRegexMatcher.CustomKeyatorg.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)atorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)Caused

hadoop - 如何将一行与 spark 数据集中的所有其他行进行比较?

我有一个从MySQL加载的spark数据集,我想将每一行与数据集中的所有其他行进行比较,并使用获得的结果创建一个新的数据集。有什么办法可以实现吗? 最佳答案 您可能想通过匹配行的字段来连接两个数据集。你可以像这样匹配两个数据集并加入这两个数据集valResult=DF1.join(DF2,(DF1("USER_ID")===DF2("USER_ID"))&&(DF1("SESSION_ID")===DF2("SESSION_ID"))&&(DF1("日期")===DF2("日期"))).select(DF1("USER_ID"),D

r - Spark 错误 : No rows dropped by 'na.omit' call

当我尝试将ml_decision_tree或ml_logistic_regresion与Sparklyr包一起使用时,出现以下错误。我在cloudera集群上使用spark2.1.0。>Norowsdroppedby'na.omit'call.Errorin>stop(simpleError(sprintf(fmt,...),if(call.)>sys.call(sys.parent()))):baderrormessage下面是我运行的代码片段:at%ft_string_indexer(input.col=col,output.col=paste0(col,"_in"))%>%ft_

hadoop - 缺少 Hive 执行 Jar :/usr/local/apache-hive-2. 1.0-bin/lib/hive-exec-*.jar

运行hive时出现以下错误MissingHiveExecutionJar:/usr/local/apache-hive-2.1.0-bin/lib/hive-exec-*.jar查看所有相关帖子,例如MissingHiveExecutionJar:/usr/local/hadoop/hive/lib/hive-exec-*.jar但没有帮助..!!几乎什么都试过了按照这里的步骤安装http://www.bogotobogo.com/Hadoop/BigData_hadoop_Hive_Install_On_Ubuntu_16_04.php这是我的所有设置#HADOOPVARIABLES

java - 由于不可序列化的对象,Spark 作业失败

我正在运行一个spark作业来为我的HBase数据存储生成HFiles。它曾经在我的Cloudera集群上运行良好,但是当我们切换到EMR集群时,它失败并显示以下堆栈跟踪:Serializationstack:-objectnotserializable(class:org.apache.hadoop.hbase.io.ImmutableBytesWritable,value:5031363132373033345f493635383431353835);notretryingSerializationstack:-objectnotserializable(class:org.apa