草庐IT

sparking

全部标签

hadoop - Apache Spark 通过跨集群访问 hdfs 中的数据

我在AmazonEMR上运行Spark,假设其公共(public)DNS为23.21.40.15。现在我正在这个集群上执行我的SparkJar,我想将我的Spark作业的输出写入公共(public)DNS为29.45.56.72的其他AmazonEMRHDFS。我可以访问我自己的集群HDFS,即23.21.40.15,但我无法写入集群29.45.56.72。我需要做什么才能让我的spark作业可以跨集群访问HDFS??如果可能,谁能分享一个示例代码?? 最佳答案 当您在spark作业中设置输出目录时,您可以设置凭据以像这样访问它:h

hadoop - 使用 spark/scala,我使用 saveAsTextFile() 到 HDFS,但是 hiveql("select count(*) from...) return 0

我创建了如下外部表...hive-e"createexternaltabletemp_db.temp_table(achar(10),bint)PARTITIONEDBY(PART_DATEVARCHAR(10))ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/work/temp_db/temp_table'"我在IntelliJIDEA中将saveAsTextFile()与scala一起使用,如下所示...itemsRdd.map(_.makeTsv).saveAsTextFile("hdfs://w

hadoop - Hbase Upsert 与 Spark

我有sparkstreaming工作,在这个过程中有些人正在做一些聚合,现在我想将该记录插入到HBase但它不是典型的插入我想做UPSERT如果rowkey可用而不是列值sum(newvalue+oldvalue)应该发生。有人在java中共享伪代码吗?我该如何实现? 最佳答案 像这样的……byte[]rowKey=null;//ProvidedTabletable=null;//ProvidedlongnewValue=1000;//Providedbyte[]FAMILY=newbyte[]{0};//Definedbyte[]

performance - 我如何评估我的 spark 应用程序

你好我刚刚创建了我的第一个spark应用程序,现在我可以访问一个集群(12个节点,每个节点有2个处理器Intel(R)Xeon(R)CPUE5-26502.00GHz,每个处理器有8个内核),我想知道帮助我调整应用程序和观察其性能的标准是什么。我已经访问过spark的官方网站,它在谈论数据序列化,但我无法确切地了解它是什么或如何指定它。它也在谈论“内存管理”、“并行级别”,但我不明白如何控制这些。还有一件事,我知道数据的大小有影响,但我拥有的所有files.csv文件的大小都很小,我怎样才能获得大文件(10GB、20GB、30GB、50GB,100GB,300GB,500GB)请尽量为

hadoop - 从 sbt 文件中的 spark 库中排除 hadoop 依赖

我正在开发spark1.3.0。我的build.sbt看起来如下:libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"1.3.0"%"provided","org.apache.spark"%%"spark-sql"%"1.3.0"%"provided","org.apache.spark"%%"spark-streaming"%"1.3.0"%"provided","org.apache.spark"%%"spark-mllib"%"1.3.0"%"provided","org.springframework.sec

hadoop - 在 spark-submit 执行时覆盖 core-site.xml 属性值

有没有办法在执行sparksubmit时覆盖core-site属性值?我可以在spark-env.sh中使用HADOOP_CONF_DIR变量来指向一个新的核心站点文件,但我只想覆盖几个值以便为每个spark作业使用不同的存储帐户。 最佳答案 找到了我自己问题的答案。hadoop相关的配置可以通过预先固定“spark.hadoop”到属性键来覆盖,然后提交给sparkconf。即Spark提交--sparkconfspark.hadoop.io.file.buffer.size12952查看源代码:https://github.co

hadoop - CentOS 7 上的 Spark 和 IPython

我正在试验Hadoop和Spark,因为我工作的公司正准备开始加速Hadoop,并希望使用Spark和其他资源对我们的数据进行大量机器学习。大部分都落在我身上,所以我正在通过自己的学习来准备。我有一台机器,我已将其设置为单节点Hadoop集群。这是我所拥有的:CentOS7(最小服务器安装,为GUI添加了XOrg和OpenBox)python2.7Hadoop2.7.2星火2.0.0我按照这些指南进行了设置:http://www.tecmint.com/install-configure-apache-hadoop-centos-7/http://davidssysadminnotes

hadoop - 从 kafka Spark 流接收时获取空值

我是Sparkstreaming的新手,我正在实现一些小练习,例如从kafka发送XML数据,并且需要接收>通过sparkstreaming流式传输数据。我尝试了所有可能的方式..但每次我都得到空值。Kafka端没有问题,唯一的问题是从Spark端接收Streaming数据。这是我实现的代码:packagecom.package;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.streaming.Duration;import

scala - 使用 hadoop IncompatibleClassChangeError 在 EC2 上运行 spark 应用程序失败

我有一个简单的spark应用程序,它使用spark-submit在我的笔记本电脑上运行正常。但是,当我在AmazonEC2集群上使用spark-submit运行它时出现此运行时错误:$/root/spark/bin/spark-submit--classapplication.Example--masterspark://ec2-54-227-170-20.compute-1.amazonaws.com:7077/root/example-assembly-0.1-SNAPSHOT.jarjava.lang.IncompatibleClassChangeError:Foundclass

python - 不要在 Spark (Python) 中写入 None 或空行

我是Spark的新手,但我对Hadoop有一些经验。我正在尝试调整我在Hadoop流中使用的python代码,以过滤掉一些JSON格式的推文。通常,我的函数有一个条件,如果条件为真,则将推文打印到标准输出,否则不打印任何内容。deffilter(tweet):ifcriteria(tweet)isTrue:printjson.dumps(tweet)这样,最终的输出文件将只包含我想要的推文。但是,当尝试使用Spark时,我不得不用return更改print语句,所以如果条件为真,我会返回推文,并且无否则。deffilter(tweet):ifcriteria(tweet)isTrue: