sparking

hadoop - Apache Spark 通过跨集群访问 hdfs 中的数据

我在AmazonEMR上运行Spark，假设其公共(public)DNS为23.21.40.15。现在我正在这个集群上执行我的SparkJar，我想将我的Spark作业的输出写入公共(public)DNS为29.45.56.72的其他AmazonEMRHDFS。我可以访问我自己的集群HDFS，即23.21.40.15，但我无法写入集群29.45.56.72。我需要做什么才能让我的spark作业可以跨集群访问HDFS??如果可能，谁能分享一个示例代码？？最佳答案当您在spark作业中设置输出目录时，您可以设置凭据以像这样访问它:h

hadoop - 使用 spark/scala，我使用 saveAsTextFile() 到 HDFS，但是 hiveql("select count(*) from...) return 0

我创建了如下外部表...hive-e"createexternaltabletemp_db.temp_table(achar(10),bint)PARTITIONEDBY(PART_DATEVARCHAR(10))ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/work/temp_db/temp_table'"我在IntelliJIDEA中将saveAsTextFile()与scala一起使用，如下所示...itemsRdd.map(_.makeTsv).saveAsTextFile("hdfs://w

saveAsTextFile hadoop code temp_table temp hive hdfs hiveql

hadoop - Hbase Upsert 与 Spark

我有sparkstreaming工作，在这个过程中有些人正在做一些聚合，现在我想将该记录插入到HBase但它不是典型的插入我想做UPSERT如果rowkey可用而不是列值sum(newvalue+oldvalue)应该发生。有人在java中共享伪代码吗？我该如何实现？最佳答案像这样的……byte[]rowKey=null;//ProvidedTabletable=null;//ProvidedlongnewValue=1000;//Providedbyte[]FAMILY=newbyte[]{0};//Definedbyte[]

hadoop Upsert section byte QUALIFIER apache-spark hbase

performance - 我如何评估我的 spark 应用程序

你好我刚刚创建了我的第一个spark应用程序，现在我可以访问一个集群(12个节点，每个节点有2个处理器Intel(R)Xeon(R)CPUE5-26502.00GHz，每个处理器有8个内核)，我想知道帮助我调整应用程序和观察其性能的标准是什么。我已经访问过spark的官方网站，它在谈论数据序列化，但我无法确切地了解它是什么或如何指定它。它也在谈论“内存管理”、“并行级别”，但我不明白如何控制这些。还有一件事，我知道数据的大小有影响，但我拥有的所有files.csv文件的大小都很小，我怎样才能获得大文件(10GB、20GB、30GB、50GB,100GB,300GB,500GB)请尽量为

performance spark section strong csv hadoop apache-spark cluster-computing

hadoop - 从 sbt 文件中的 spark 库中排除 hadoop 依赖

我正在开发spark1.3.0。我的build.sbt看起来如下:libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"1.3.0"%"provided","org.apache.spark"%%"spark-sql"%"1.3.0"%"provided","org.apache.spark"%%"spark-streaming"%"1.3.0"%"provided","org.apache.spark"%%"spark-mllib"%"1.3.0"%"provided","org.springframework.sec

hadoop 中排 34 spark section apache-spark sbt spark-streaming hadoop2

hadoop - 在 spark-submit 执行时覆盖 core-site.xml 属性值

有没有办法在执行sparksubmit时覆盖core-site属性值？我可以在spark-env.sh中使用HADOOP_CONF_DIR变量来指向一个新的核心站点文件，但我只想覆盖几个值以便为每个spark作业使用不同的存储帐户。最佳答案找到了我自己问题的答案。hadoop相关的配置可以通过预先固定“spark.hadoop”到属性键来覆盖，然后提交给sparkconf。即Spark提交--sparkconfspark.hadoop.io.file.buffer.size12952查看源代码:https://github.co

行时 spark-submit section spark hadoop apache-spark

hadoop - CentOS 7 上的 Spark 和 IPython

我正在试验Hadoop和Spark，因为我工作的公司正准备开始加速Hadoop，并希望使用Spark和其他资源对我们的数据进行大量机器学习。大部分都落在我身上，所以我正在通过自己的学习来准备。我有一台机器，我已将其设置为单节点Hadoop集群。这是我所拥有的:CentOS7(最小服务器安装，为GUI添加了XOrg和OpenBox)python2.7Hadoop2.7.2星火2.0.0我按照这些指南进行了设置:http://www.tecmint.com/install-configure-apache-hadoop-centos-7/http://davidssysadminnotes

IPython hadoop Spark section apache-spark pyspark

hadoop - 从 kafka Spark 流接收时获取空值

我是Sparkstreaming的新手，我正在实现一些小练习，例如从kafka发送XML数据，并且需要接收>通过sparkstreaming流式传输数据。我尝试了所有可能的方式..但每次我都得到空值。Kafka端没有问题，唯一的问题是从Spark端接收Streaming数据。这是我实现的代码:packagecom.package;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.streaming.Duration;import

hadoop Spark strong gt section apache-spark streaming apache-kafka spark-streaming

scala - 使用 hadoop IncompatibleClassChangeError 在 EC2 上运行 spark 应用程序失败

我有一个简单的spark应用程序，它使用spark-submit在我的笔记本电脑上运行正常。但是，当我在AmazonEC2集群上使用spark-submit运行它时出现此运行时错误:$/root/spark/bin/spark-submit--classapplication.Example--masterspark://ec2-54-227-170-20.compute-1.amazonaws.com:7077/root/example-assembly-0.1-SNAPSHOT.jarjava.lang.IncompatibleClassChangeError:Foundclass

IncompatibleClassChangeError hadoop spark code scala apache-spark amazon-ec2

python - 不要在 Spark (Python) 中写入 None 或空行

我是Spark的新手，但我对Hadoop有一些经验。我正在尝试调整我在Hadoop流中使用的python代码，以过滤掉一些JSON格式的推文。通常，我的函数有一个条件，如果条件为真，则将推文打印到标准输出，否则不打印任何内容。deffilter(tweet):ifcriteria(tweet)isTrue:printjson.dumps(tweet)这样，最终的输出文件将只包含我想要的推文。但是，当尝试使用Spark时，我不得不用return更改print语句，所以如果条件为真，我会返回推文，并且无否则。deffilter(tweet):ifcriteria(tweet)isTrue:

空行 python code section tweet hadoop apache-spark pyspark

213 214 215216217 218 219