apache-spark-1.3

java - Spark 和 Java : Error ClassCastException

我完全按照这个例子https://github.com/rathboma/hadoop-framework-examples/tree/master/spark当我尝试运行时，我收到此消息:java.lang.ClassCastException:org.apache.spark.api.java.Optionalcannotbecasttocom.google.common.base.Optional我不知道如何修复它，因为我是使用Spark的新手。谢谢!!有什么建议吗？最佳答案这是因为您使用Spark1.x编译代码，但在Sp

Hadoop:无法找到或加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

在安装Hadoop后，我试图启动一个相当简单的WordCount(我非常关注thistutorial)，但我得到了这个:2018-04-0516:51:00,192INFOmapreduce.Job:Jobjob_1522936330711_0007failedwithstateFAILEDdueto:Applicationapplication_1522936330711_0007failed2timesduetoAMContainerforappattempt_1522936330711_0007_000002exitedwithexitCode:1Failingthisattem

MRAppMaster mapreduce code HADOOP hadoop-yarn macos-sierra word-count

hadoop - oozie 中的 org.apache.hadoop.mapred.lib.MultipleOutputs.addNamedOutput()

我正在尝试使用MultipleOutputs来更改reducer中的输出文件名。我正在使用oozie工作流来运行mapreduce作业。我找不到在oozie工作流中添加以下属性的方法-MultipleOutputs.addNamedOutput(job,"text",TextOutputFormat.class,Text.class,Text.class);因为它是ooziemapreduce操作，所以我没有驱动程序类放在上面的代码。最佳答案答案就在方法的源代码中。来自hadoopcore1.2.1jar/**/publicst

hadoop MultipleOutputs namedOutput mapreduce hadoop2 mapper reducers

hadoop - Apache Nutch 在限制后刷新 gora 记录

我已经为Nutch2.3.1配置了Hadoop/Hbase生态系统。我没有更改gora.buffer.read.limit和gora.buffer.read.limit，即在这两种情况下都使用它们的默认值10000。在生成阶段，我将topN设置为100,000。在生成作业期间，我得到以下信息org.apache.gora.mapreduce.GoraRecordWriter:Flushingthedatastoreafter60000records工作完成后，我发现有100,000个url被标记为已提取，我想成为。但我很困惑上面的警告显示了什么？gora.buffer.read.lim

hadoop Apache code section gora hbase nutch nutch2

apache-spark - 如何在具有不同内存和核心数量的集群上调整 spark 作业

我正在开发一个spark项目，我正在使用具有以下配置的3个节点的hadoop集群:8coresand16goofRam(Namenode,ApplicationMaster,nodemanagerandsparkmasterandworker).4coresand8goofRam(datanode,nodemanagerandworker)Ram的4cores和4go(datanode、nodemanager和worker)所以我使用以下配置:pyspark--masteryarn-client--driver-memory3g--executor-memory1g--num-exec

spark 上调 section executor strong apache-spark hadoop pyspark

apache-spark - spark.executor.extraJavaOptions 在 spark-submit 中被忽略

我是一名新手，正在尝试介绍本地Spark工作。这是我尝试执行的命令，但我收到一条警告，指出我的执行程序选项被忽略，因为它们是非spark配置属性。错误:Warning:Ignoringnon-sparkconfigproperty:“spark.executor.extraJavaOptions=javaagent:statsd-jvm-profiler-2.1.0-jar-with-dependencies.jar=server=localhost,port=8086,reporter=InfluxDBReporter,database=profiler,username=profi

spark extraJavaOptions profiler section apache-spark hadoop

apache-spark - 执行 hbase 扫描时出现异常

我正在尝试hbasesparkdistributedscanexample.我的简单代码如下所示:publicclassDistributedHBaseScanToRddDemo{publicstaticvoidmain(String[]args){JavaSparkContextjsc=getJavaSparkContext("hbasetable1");ConfigurationhbaseConf=getHbaseConf(0,"","");JavaHBaseContextjavaHbaseContext=newJavaHBaseContext(jsc,hbaseConf);Sca

时出 apache-spark apache hbase hadoop apache-zookeeper

apache-spark - Spark 根据字母分区写入 Parquet

我对这个话题做了很多研究。我有一个3TB大小的数据集。以下是该表的数据架构:root|--user:string(nullable=true)|--attributes:array(nullable=true)||--element:string(containsNull=true)每天，我都会得到一份我需要其属性的用户列表。我想知道我是否可以将上述模式写入包含前2个用户字母的Parquet文件。例如，Omkar|[a,b,c,d,e]Mac|[a,b,c,d,e]Zee|[a,b,c,d,e]Kim|[a,b,c,d,e]Kelly|[a,b,c,d,e]在上面的数据集上，我可以做这

apache-spark Parquet section 34 code hadoop

scala - 如何从 spark-shell 从 S3 文件加载 RDD？

我在S3中有一个文本文件，我想使用spark-shell将其加载到RDD中。我已经下载Spark2.3.0forHadoop.天真地，我希望我只需要设置hadoop设置就可以了。valinFile="s3a://some/path"valaccessKey="some-access-key"valsecretKey="some-secret-key"sc.hadoopConfiguration.set("fs.s3a.access.key",accessKey)sc.hadoopConfiguration.set("fs.s3a.secret.key",secretKey)sc.tex

spark-shell scala code hadoop spark apache-spark amazon-s3

python - Spark 缓存和取消持久化订单

我找到了类似的主题:UnderstandingSpark'scaching但这仍然不是我的问题。让我们考虑以下代码片段:选项A:rdd1=sc.textFile()rdd1.cache()rdd2=rdd1.map().partionBy()rdd3=rdd1.reduceBy().map()rdd2.cache()rdd1.unpersist()data=rdd2.collect()选项B:rdd1=sc.textFile()rdd1.cache()rdd2=rdd1.map().partionBy()rdd3=rdd1.reduceBy().map()rdd2.cache()dat

持久 python code rdd rdd1 apache-spark hadoop pyspark bigdata