sparking_草庐IT

python - 使用 spark-commit 执行时导入 pymongo_spark 不起作用

我在使用spark-submit运行我的脚本时遇到了问题。主脚本甚至不会运行，因为importpymongo_spark返回ImportError:Nomodulenamedpymongo_spark我检查了thisthread和thisthread试图找出问题所在，但到目前为止还没有结果。我的设置:$HADOOP_HOME设置为/usr/local/cellar/hadoop/2.7.1我的hadoop文件所在的位置$SPARK_HOME设置为/usr/local/cellar/apache_spark/1.5.2我也尽可能地关注了这些线程和在线指南以获取exportPYTHONPA

行时 spark code hadoop python mongodb apache-spark

scala - 当您在 RDD 之外的 Spark 中执行 Java 数据操作时会发生什么

我正在使用Spark从hdfs读取一个csv文件。它进入一个FSDataInputStream对象。我不能使用textfile()方法，因为它按换行符拆分csv文件，而我正在读取文本字段内有换行符的csv文件。来自sourcefourge的Opencsv处理单元格内的换行，这是一个不错的项目，但它接受Reader作为输入。我需要将它转换为字符串，以便我可以将它作为StringReader传递给opencsv。因此，HDFSFile->FSdataINputStream->String->StringReader->一个opencsv字符串列表。下面是代码...importjava.io

scala Spark private val import csv hadoop apache-spark rdd

apache-spark - 什么是 hadoop(单节点和多节点)、spark-master 和 spark-worker？

我想了解以下术语:hadoop(单节点和多节点)Spark大师星火worker名称节点数据节点到目前为止我的理解是sparkmaster是工作执行者并处理所有sparkworker。而hadoop是hdfs(我们的数据所在的地方)，sparkworker根据给他们的工作从那里读取数据。如果我错了，请纠正我。我也想了解namenode和datanode的作用。虽然我知道namenode的作用(拥有所有数据节点的元数据信息，最好只有一个，但可以是两个)并且数据节点可以是多个并拥有数据。datanodes是同一个hadoop节点吗？最佳答案

spark apache-spark section noreferrer hadoop hdfs

linux - 如何从命令行检查 Spark 配置？

基本上，我想通过命令行检查Spark配置的一个属性，例如“spark.local.dir”，即不编写程序。有没有办法做到这一点？最佳答案没有从命令行查看spark配置属性的选项。相反，您可以在spark-default.conf文件中检查它。另一种选择是从webUI查看。位于http://driverIP:4040的应用程序WebUI在“环境”选项卡中列出Spark属性。只有通过spark-defaults.conf、SparkConf或命令行明确指定的值才会出现。对于所有其他配置属性，您可以假定使用默认值。更多详情可以引用Sp

linux Spark section noreferrer scala hadoop apache-spark

hadoop - BOINC 与 Hadoop/Spark/等的区别

BOINChttps://en.wikipedia.org/wiki/Berkeley_Open_Infrastructure_for_Network_Computing有什么区别？对比通用Hadoop/Spark/等。大数据框架？它们似乎都是分布式计算框架-有什么地方可以让我了解差异或特别是BOINC？似乎欧盟的大型强子对撞机正在使用BOINC，为什么不使用Hadoop？谢谢。最佳答案 BOINCissoftwarethatcanusetheunusedCPUandGPUcyclesonacomputertodoscientif

hadoop section BOINC distributed-computing bigdata

java - 运行 Apache Spark Kafka Stream 时获取 Hadoop OutputFormat RunTimeException

我正在运行一个程序，该程序使用ApacheSpark从ApacheKafka集群获取数据并将数据放入Hadoop文件中。我的程序如下:publicfinalclassSparkKafkaConsumer{publicstaticvoidmain(String[]args){SparkConfsparkConf=newSparkConf().setAppName("JavaKafkaWordCount");JavaStreamingContextjssc=newJavaStreamingContext(sparkConf,newDuration(2000));MaptopicMap=ne

RunTimeException OutputFormat String code Integer java scala hadoop apache-spark apache-kafka

scala - 来自值列表的循环数，在 Spark 和 Scala 中是正数和负数的混合

有一个包含值列表的RDD，这些值是正值和负值的混合。需要根据此数据计算周期数。例如，valrange=List(sampleRange(2020,2030,2040,2050,-1000,-1010,-1020,起点,-1030,2040,-1020,2050,2040,2020,终点,-1060,-1030,-1010)上面列表中每个值之间的间隔是1秒。即，2020和2030以1秒为间隔记录，依此类推。它从负转正并保持正>=2秒的次数。如果>=2秒，则为一个循环。周期数:逻辑示例1:列表(1,2,3,4,5,6,-15,-66)循环次数为1。原因:当我们从列表的第一个元素移动到第6个

scala Spark strong section 负值 hadoop apache-spark bigdata

scala - NLineInputFormat 在 Spark 中不起作用

我想要的基本上是让每个数据元素由10行组成。但是，使用以下代码，每个元素仍然是一行。我在这里犯了什么错误？valconf=newSparkConf().setAppName("MyApp")conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")conf.registerKryoClasses(Array[Class[_]](classOf[NLineInputFormat],classOf[LongWritable],classOf[Text]))valsc=newSparkContext(co

NLineInputFormat scala classOf section hadoop apache-spark

scala - Scala Spark 属性的最佳实践

我正在使用HadoopSpark开始一个项目。我将使用Scala进行开发。我正在从头开始创建项目，我想知道如何处理属性。我来自Java背景，在那里我使用.properties文件并在开始时加载它们。然后我有一个类用于访问我的属性的不同值。这在Scala中也是一种好的做法吗？尝试谷歌搜索，但没有任何与此相关的内容。最佳答案可以像Java一样在scala中读取properties文件importscala.io.Source.fromUrlvalreader=fromURL(getClass.getResource("conf/fp

scala section properties hadoop apache-spark

hadoop - NoSuchMethodError : org. apache.spark.sql.SQLContext.applySchema

我正在尝试使用以下代码使用ApacheSpark中提供的sqlcontext查询存储在hdfs中的文件，但我收到NoSuchMethodErrorpackageSQLimportorg.apache.spark.SparkContextimportorg.apache.spark.sql._objectSparSQLCSV{defmain(args:Array[String]){valsc=newSparkContext("local[*]","home")valsqlContext=neworg.apache.spark.sql.SQLContext(sc)valpeople=sc.

NoSuchMethodError applySchema spark apache section hadoop apache-spark apache-spark-sql