spark-graphx

hadoop - 是否可以使用 spark 的 jdbc 驱动程序将 apache spark 与 jasper 集成？

我们想使用apachespark进行实时分析？我们目前使用hive/MR进行数据处理，使用mysqlsql存储聚合结果，使用jasper报告进行分析？由于mysql的可伸缩性问题，这种方法远非理想。我们正在探索apachespark在hdfs或cassandra之上运行，唯一的问题是是否有办法让spark与jasper服务器集成？如果不是，还有哪些其他UI选项可以与spark一起使用？最佳答案我找到了共享的答案和想法，如果你将hivemetastore与spark一起使用，你可以将RDD持久化为hive表，一旦你这样做了，任何使

spark 驱动 section hive hadoop jasper-reports apache-spark spark-streaming

hadoop - Apache Spark 在工作开始前做什么

我有一个在AWSEMR上连续运行的ApacheSpark批处理作业。它从AWSS3中提取数据，使用该数据运行几个作业，然后将数据存储在RDS实例中。但是，作业之间似乎有很长一段时间没有事件。这是CPU使用情况:这是网络:注意每列之间的间隙，它几乎与事件列的大小相同!起初我以为这两列发生了移动(当它从S3中提取时，它没有使用大量CPU，反之亦然)但后来我注意到这两个图表实际上是相互跟随的。这是有道理的，因为RDD是惰性的，因此会在作业运行时拉动。这引出了我的问题，那段时间Spark在做什么？在那段时间里，所有的Ganglia图表似乎都归零了。就好像集群决定在每个作业之前休息一下。谢谢。编

hadoop Apache code INFO executor amazon-web-services amazon-s3 apache-spark emr

java - spark map 方法抛出序列化异常

我是Spark的新手，我在map函数中遇到序列化问题。这是代码的一些元素privateFunctionSparkMap()throwsIOException{returnnewFunction(){publicStringcall(Rowrow)throwsIOException{/*somecode*/}};}publicstaticvoidmain(String[]args)throwsException{MyClassmyClass=newMyClass();SQLContextsqlContext=newSQLContext(sc);DataFramedf=sqlContext

spark java code MyClass myPackage hadoop serialization apache-spark

scala - 使用 HBase 的 Spark 作业失败

我运行的任何涉及HBase访问的Spark作业都会导致以下错误。我自己的工作是在Scala中，但提供的python示例以相同的方式结束。集群是Cloudera，运行CDH5.4.4。相同的作业在使用CDH5.3.1的不同集群上运行良好。非常感谢任何帮助!...15/08/1521:46:30WARNTableInputFormatBase:initializeTablecalledmultipletimes.Overwritingconnectionandtablereference;TableInputFormatBasewillnotclosetheseoldreferencesw

scala HBase TableInputFormatBase section java hadoop apache-spark cloudera

java - 如何使用 Spark Streaming Java API 将 Twitter 推文写入 HDFS

SparkConfconf=newSparkConf().setMaster("local[2]").setAppName("SparkTwitterHelloWorldExample");JavaStreamingContextjssc=newJavaStreamingContext(conf,newDuration(60000));System.setProperty("twitter4j.oauth.consumerKey",consumerKey);System.setProperty("twitter4j.oauth.consumerSecret",consumerSecre

Streaming Twitter section SparkTwitterHelloWorldExample String java hadoop apache-spark spark-streaming

java - 通过java代码spark-submit

我正在尝试通过Java代码进行spark-submit。我指的是以下示例。https://github.com/mahmoudparsian/data-algorithms-book/blob/master/misc/how-to-submit-spark-job-to-yarn-from-java-code.md但是我得到了TheconstructorClientArguments(String[],SparkConf)isundefined这是我的代码。importorg.apache.spark.deploy.yarn.Client;importorg.apache.spark.

java spark-submit spark code 34 maven hadoop apache-spark hadoop-yarn

hadoop - Spark 合并与 HDFS getmerge

我正在用Spark开发一个程序。我需要将结果放在一个文件中，因此有两种方法可以合并结果:合并(Spark):myRDD.coalesce(1,false).saveAsTextFile(pathOut);之后在HDFS中合并它:hadoopfs-getmergepathOutlocalPath哪个最有效、最快速？是否有任何其他方法可以合并HDFS中的文件(如“getmerge”)，将结果保存到HDFS，而不是将其保存到本地路径？最佳答案如果您确定您的数据适合内存，那么coalesce可能是最好的选择，但在其他情况下，为了避免OO

getmerge hadoop section apache apache-spark hdfs coalesce

java - 从 Spark 类路径中删除 Jars

我正在使用ElasticSearchSparkJar。但出于某种原因，当我启动我的sparkcontext时，它还会从/usr/lib/hive/lib/elasticsearch-hadoop-hive-2.1.0.jar这会导致两者发生冲突的elasticrdd问题。有谁知道那个Jar是如何进入Spark的，以及我如何最好在启动上下文之前将它从spark类路径中删除？谢谢。最佳答案事实证明，这是加载该目录的conf/spark-env.sh中的默认配置。这很容易通过加载一个不同的文件夹来解决，其中包含您想要的jar而不是您不

Spark java section SPARK_DIST_CLASSPATH CLASSPATH hadoop elasticsearch jar apache-spark

JAVA - SPARK - saveAsTextFile 不能应用于 '(java.lang.String, org.apache.hadoop.io.compress.CompressionCodec)'

我正在使用Spark在JAVA中编写程序。我有一个名为“copied_logs”的JavaRDD，它使用映射并从位于hdfs上的日志中复制几个字段。现在，我想用Bzip2压缩“copied_logs”然后保存。我想使用“saveAsTextFile”函数将这些数据保存在hdfs上。我的压缩保存代码如下:CompressionCodeccodec=newBZip2Codec();copied_logs.saveAsTextFile(output_dir+"copied_logs.json",codec);但是我得到这个错误:Error:(128,69)java:incompatiblet

CompressionCodec saveAsTextFile section copied_logs java hadoop apache-spark

scala - 如何使用scala在apache spark中存储一个 Action 的结果

如何在apacheSparkScala的输出目录中存储从以下操作生成的结果:计数？valcountval=data.map((_,"")).reduceByKey((_+_)).count以下命令不起作用，因为计数未存储为RDD:countval.saveAsTextFile("OUTPUTLOCATION")有什么方法可以将countval存储到本地/hdfs位置？最佳答案 @szefuf说的是正确的，在count之后你有一个Long，你可以用任何你想要的方式保存它。如果您想使用.saveAsTextFile()将其保存为RDD

scala apache code section countval hadoop apache-spark

65 66 676869 70 71