草庐IT

spark-ml

全部标签

scala - 使用 Scala 在 Spark 中创建映射值

我是spark-scala开发的新手。我正在尝试使用scala在spark中创建映射值,但出现类型不匹配错误。scala>valnums=sc.parallelize(Map("red"->"#FF0000","azure"->"#F0FFFF","peru"->"#CD853F")):21:error:typemismatch;found:scala.collection.immutable.Map[String,String]required:Seq[?]Erroroccurredinanapplicationinvolvingdefaultarguments.valnums=sc

python - Spark Python提交报错: File does not exist: pyspark. zip

我正在尝试在yarn-cluster模式下提交pythonspark应用程序。Seq(System.getenv("SPARK_HOME")+"/bin/spark-submit","--master",sparkConfig.getString("spark.master"),"--executor-memory",sparkConfig.getString("spark.executor-memory"),"--num-executors",sparkConfig.getString("spark.num-executors"),"python/app.py")!我遇到以下错误,D

hadoop - Apache Spark 和 Apache Arrow 有什么区别?

ApacheArrow和ApacheSpark之间有什么区别?ApacheArrow会取代Hadoop吗? 最佳答案 ApacheArrow是一个提议内存数据层,旨在支持不同的分析负载。ApacheSpark是一种与存储无关的集群计算框架。这两者不属于同一类别,也不会相互竞争,就像Arrow不与Hadoop竞争一样。 关于hadoop-ApacheSpark和ApacheArrow有什么区别?,我们在StackOverflow上找到一个类似的问题: https

hadoop - Spark 是 Apache Hadoop 的替代品吗

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭5年前。Improvethisquestion我们在hadoop上工作了很多年。它被用于分布式数据存储和数据处理。现在我们已经知道spark比hadoop更好。这是否意味着我们应该用spark替换hadoop生态系统?有人可以详细说明吗?对于我们的场景,我们必须分析大量数据并且我们期望很快得到结果。这就是我们考虑使用Spark的原因。

hadoop - 为什么 Hadoop 不尊重 pyspark 中设置的 'spark.hadoop.fs' 属性?

这个问题在这里已经有了答案:Howtosethadoopconfigurationvaluesfrompyspark(3个答案)关闭5年前。我希望能够动态设置我的spark-defaults.conf中的三个属性:spark.driver.maxResultSizespark.hadoop.fs.s3a.access.keyspark.hadoop.fs.s3a.secret.key这是我的尝试:frompysparkimportSparkConffrompyspark.sqlimportSparkSessionconf=(SparkConf().setMaster(spark_mas

database - 将 Spark 与 Cassandra 结合使用的优势

我看到结合使用Spark和Cassandra比较流行。我知道Cassandra是一种大数据解决方案,提供可靠性而不是一致性,因此适合实时系统。它还为查询提供类似SQL的语法,但在底层管理其数据的方式与普通数据库截然不同。另一方面,Hadoop提供的一致性优于可靠性,因此适合分析系统。它的接口(interface)是MapReduce,对于现在来说速度很慢而且级别太低。所以这就是Sparks的用武之地。Sparks使用Hadoop的HDFS并用更好的架构取代旧的MapReduce,该架构更多地利用内存而不是硬盘,并公开更好的接口(interface),例如RDD和数据帧。所以我的问题是:

scala - Spark Dataframe - 如何访问 json 结构

我有一个像这样的json文件:{"employeeDetails":{"name":"xxxx","num":"415"},"work":[{"monthYear":"01/2007","workdate":"1|2|3|....|31","workhours":"8|8|8....|8"},{"monthYear":"02/2007","workdate":"1|2|3|....|31","workhours":"8|8|8....|8"}]}我必须从这个json数据中获取工作日期和工作时间。我正在使用Spark2.1.1我试过这样的:valspark=SparkSession.bu

scala - 如何删除以 Apache Spark 中的某个单词开头的多个 hdfs 目录

我使用dstream.saveAsObjectFiles("/temObj")方法在sparkstreaming中保存了对象文件,它在hdfs中显示了多个文件。temObj-1506338844000temObj-1506338848000temObj-1506338852000temObj-1506338856000temObj-1506338860000我想在全部读取后删除所有temObj文件。在spark.js中做这件事的最佳方式是什么?我试过了valhdfs=org.apache.hadoop.fs.FileSystem.get(newjava.net.URI("hdfs://

hadoop - Pyspark ML 错误对象没有属性映射

下面是我的数据框和代码df=abcd13101102512112361711248110442下面是我的代码spark=SparkSession.builder.appName('dev_member_validate_spark').config('spark.sql.crossJoin.enabled','true').getOrCreate()sqlCtx=SQLContext(spark)frompyspark.ml.linalgimportDenseVectorfrompyspark.mllib.regressionimportLabeledPointtemp=df.sele

scala - 在 Spark/Hadoop 中保存为自定义输出格式

我有一个包含多个数据结构的RDD,而这些数据结构之一是Map[String,Int]。为了便于可视化,我在map转换后得到以下内容:valdata=...//ThisisaRDD[Map[String,Int]]在这个RDD的一个元素中,Map包含以下内容:*keyvalue*map_id->7753Oscar->39Jaden->13Thomas->1Chris->52然后在RDD的其他元素中包含其他名称和数字,每个map包含一个特定的map_id。无论如何,如果我简单地执行data.saveAsTextFile(path),我将在我的文件中获得以下输出:Map(map_id->77