草庐IT

sparking

全部标签

apache-spark - 将 JSON 字符串列拆分为多列

我正在寻找一种通用解决方案,以将所有json字段提取为JSON字符串列中的列。df=spark.read.load(path)df.show()'path'中文件的文件格式为parquet示例数据|id|json_data|1|{"name":"abc","depts":["dep01","dep02"]}|2|{"name":"xyz","depts":["dep03"],"sal":100}|3|{"name":"pqr","depts":["dep02"],"address":{"city":"SF","state":"CA"}}预期输出|id|name|depts|sal|ad

hadoop - 使用 globStatus 和 Google Cloud Storage 存储桶作为输入时无法运行 Spark 作业

我正在使用Spark1.1。我有一个Spark作业,它只在存储桶下寻找特定模式的文件夹(即以...开头的文件夹),并且应该只处理那些。我通过执行以下操作实现了这一点:FileSystemfs=FileSystem.get(newConfiguration(true));FileStatus[]statusArr=fs.globStatus(newPath(inputPath));ListstatusList=Arrays.asList(statusArr);ListpathsStr=convertFileStatusToPath(statusList);JavaRDDpaths=sc.

scala - 使用 Scala 在 Spark 中创建映射值

我是spark-scala开发的新手。我正在尝试使用scala在spark中创建映射值,但出现类型不匹配错误。scala>valnums=sc.parallelize(Map("red"->"#FF0000","azure"->"#F0FFFF","peru"->"#CD853F")):21:error:typemismatch;found:scala.collection.immutable.Map[String,String]required:Seq[?]Erroroccurredinanapplicationinvolvingdefaultarguments.valnums=sc

python - Spark Python提交报错: File does not exist: pyspark. zip

我正在尝试在yarn-cluster模式下提交pythonspark应用程序。Seq(System.getenv("SPARK_HOME")+"/bin/spark-submit","--master",sparkConfig.getString("spark.master"),"--executor-memory",sparkConfig.getString("spark.executor-memory"),"--num-executors",sparkConfig.getString("spark.num-executors"),"python/app.py")!我遇到以下错误,D

hadoop - Apache Spark 和 Apache Arrow 有什么区别?

ApacheArrow和ApacheSpark之间有什么区别?ApacheArrow会取代Hadoop吗? 最佳答案 ApacheArrow是一个提议内存数据层,旨在支持不同的分析负载。ApacheSpark是一种与存储无关的集群计算框架。这两者不属于同一类别,也不会相互竞争,就像Arrow不与Hadoop竞争一样。 关于hadoop-ApacheSpark和ApacheArrow有什么区别?,我们在StackOverflow上找到一个类似的问题: https

hadoop - Spark 是 Apache Hadoop 的替代品吗

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭5年前。Improvethisquestion我们在hadoop上工作了很多年。它被用于分布式数据存储和数据处理。现在我们已经知道spark比hadoop更好。这是否意味着我们应该用spark替换hadoop生态系统?有人可以详细说明吗?对于我们的场景,我们必须分析大量数据并且我们期望很快得到结果。这就是我们考虑使用Spark的原因。

hadoop - 为什么 Hadoop 不尊重 pyspark 中设置的 'spark.hadoop.fs' 属性?

这个问题在这里已经有了答案:Howtosethadoopconfigurationvaluesfrompyspark(3个答案)关闭5年前。我希望能够动态设置我的spark-defaults.conf中的三个属性:spark.driver.maxResultSizespark.hadoop.fs.s3a.access.keyspark.hadoop.fs.s3a.secret.key这是我的尝试:frompysparkimportSparkConffrompyspark.sqlimportSparkSessionconf=(SparkConf().setMaster(spark_mas

database - 将 Spark 与 Cassandra 结合使用的优势

我看到结合使用Spark和Cassandra比较流行。我知道Cassandra是一种大数据解决方案,提供可靠性而不是一致性,因此适合实时系统。它还为查询提供类似SQL的语法,但在底层管理其数据的方式与普通数据库截然不同。另一方面,Hadoop提供的一致性优于可靠性,因此适合分析系统。它的接口(interface)是MapReduce,对于现在来说速度很慢而且级别太低。所以这就是Sparks的用武之地。Sparks使用Hadoop的HDFS并用更好的架构取代旧的MapReduce,该架构更多地利用内存而不是硬盘,并公开更好的接口(interface),例如RDD和数据帧。所以我的问题是:

scala - Spark Dataframe - 如何访问 json 结构

我有一个像这样的json文件:{"employeeDetails":{"name":"xxxx","num":"415"},"work":[{"monthYear":"01/2007","workdate":"1|2|3|....|31","workhours":"8|8|8....|8"},{"monthYear":"02/2007","workdate":"1|2|3|....|31","workhours":"8|8|8....|8"}]}我必须从这个json数据中获取工作日期和工作时间。我正在使用Spark2.1.1我试过这样的:valspark=SparkSession.bu

scala - 如何删除以 Apache Spark 中的某个单词开头的多个 hdfs 目录

我使用dstream.saveAsObjectFiles("/temObj")方法在sparkstreaming中保存了对象文件,它在hdfs中显示了多个文件。temObj-1506338844000temObj-1506338848000temObj-1506338852000temObj-1506338856000temObj-1506338860000我想在全部读取后删除所有temObj文件。在spark.js中做这件事的最佳方式是什么?我试过了valhdfs=org.apache.hadoop.fs.FileSystem.get(newjava.net.URI("hdfs://