草庐IT

apache-spark-1.3

全部标签

java - Spark 和 Java : Error ClassCastException

我完全按照这个例子https://github.com/rathboma/hadoop-framework-examples/tree/master/spark当我尝试运行时,我收到此消息:java.lang.ClassCastException:org.apache.spark.api.java.Optionalcannotbecasttocom.google.common.base.Optional我不知道如何修复它,因为我是使用Spark的新手。谢谢!!有什么建议吗? 最佳答案 这是因为您使用Spark1.x编译代码,但在Sp

Hadoop:无法找到或加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

在安装Hadoop后,我试图启动一个相当简单的WordCount(我非常关注thistutorial),但我得到了这个:2018-04-0516:51:00,192INFOmapreduce.Job:Jobjob_1522936330711_0007failedwithstateFAILEDdueto:Applicationapplication_1522936330711_0007failed2timesduetoAMContainerforappattempt_1522936330711_0007_000002exitedwithexitCode:1Failingthisattem

hadoop - oozie 中的 org.apache.hadoop.mapred.lib.MultipleOutputs.addNamedOutput()

我正在尝试使用MultipleOutputs来更改reducer中的输出文件名。我正在使用oozie工作流来运行mapreduce作业。我找不到在oozie工作流中添加以下属性的方法-MultipleOutputs.addNamedOutput(job,"text",TextOutputFormat.class,Text.class,Text.class);因为它是ooziemapreduce操作,所以我没有驱动程序类放在上面的代码。 最佳答案 答案就在方法的源代码中。来自hadoopcore1.2.1jar/**/publicst

hadoop - Apache Nutch 在限制后刷新 gora 记录

我已经为Nutch2.3.1配置了Hadoop/Hbase生态系统。我没有更改gora.buffer.read.limit和gora.buffer.read.limit,即在这两种情况下都使用它们的默认值10000。在生成阶段,我将topN设置为100,000。在生成作业期间,我得到以下信息org.apache.gora.mapreduce.GoraRecordWriter:Flushingthedatastoreafter60000records工作完成后,我发现有100,000个url被标记为已提取,我想成为。但我很困惑上面的警告显示了什么?gora.buffer.read.lim

apache-spark - 如何在具有不同内存和核心数量的集群上调整 spark 作业

我正在开发一个spark项目,我正在使用具有以下配置的3个节点的hadoop集群:8coresand16goofRam(Namenode,ApplicationMaster,nodemanagerandsparkmasterandworker).4coresand8goofRam(datanode,nodemanagerandworker)Ram的4cores和4go(datanode、nodemanager和worker)所以我使用以下配置:pyspark--masteryarn-client--driver-memory3g--executor-memory1g--num-exec

apache-spark - spark.executor.extraJavaOptions 在 spark-submit 中被忽略

我是一名新手,正在尝试介绍本地Spark工作。这是我尝试执行的命令,但我收到一条警告,指出我的执行程序选项被忽略,因为它们是非spark配置属性。错误:Warning:Ignoringnon-sparkconfigproperty:“spark.executor.extraJavaOptions=javaagent:statsd-jvm-profiler-2.1.0-jar-with-dependencies.jar=server=localhost,port=8086,reporter=InfluxDBReporter,database=profiler,username=profi

apache-spark - 执行 hbase 扫描时出现异常

我正在尝试hbasesparkdistributedscanexample.我的简单代码如下所示:publicclassDistributedHBaseScanToRddDemo{publicstaticvoidmain(String[]args){JavaSparkContextjsc=getJavaSparkContext("hbasetable1");ConfigurationhbaseConf=getHbaseConf(0,"","");JavaHBaseContextjavaHbaseContext=newJavaHBaseContext(jsc,hbaseConf);Sca

apache-spark - Spark 根据字母分区写入 Parquet

我对这个话题做了很多研究。我有一个3TB大小的数据集。以下是该表的数据架构:root|--user:string(nullable=true)|--attributes:array(nullable=true)||--element:string(containsNull=true)每天,我都会得到一份我需要其属性的用户列表。我想知道我是否可以将上述模式写入包含前2个用户字母的Parquet文件。例如,Omkar|[a,b,c,d,e]Mac|[a,b,c,d,e]Zee|[a,b,c,d,e]Kim|[a,b,c,d,e]Kelly|[a,b,c,d,e]在上面的数据集上,我可以做这

scala - 如何从 spark-shell 从 S3 文件加载 RDD?

我在S3中有一个文本文件,我想使用spark-shell将其加载到RDD中。我已经下载Spark2.3.0forHadoop.天真地,我希望我只需要设置hadoop设置就可以了。valinFile="s3a://some/path"valaccessKey="some-access-key"valsecretKey="some-secret-key"sc.hadoopConfiguration.set("fs.s3a.access.key",accessKey)sc.hadoopConfiguration.set("fs.s3a.secret.key",secretKey)sc.tex

python - Spark 缓存和取消持久化订单

我找到了类似的主题:UnderstandingSpark'scaching但这仍然不是我的问题。让我们考虑以下代码片段:选项A:rdd1=sc.textFile()rdd1.cache()rdd2=rdd1.map().partionBy()rdd3=rdd1.reduceBy().map()rdd2.cache()rdd1.unpersist()data=rdd2.collect()选项B:rdd1=sc.textFile()rdd1.cache()rdd2=rdd1.map().partionBy()rdd3=rdd1.reduceBy().map()rdd2.cache()dat