scala-cats

scala - 从spark中的json模式动态生成df.select语句

我正在从宽字符串中选择列，其偏移量如下所示df2=df.select(substring(col("a"),4,6).as("c")).cast(IntegerType)但是我必须从字符串中提取1000列，如果我可以提供诸如列名、数据类型、宽度、起始位置和结束位置等详细信息，那么如何使用jsonsparkstruct模式生成select语句。另外，我不得不将一些列转换为intergertype或longtype，但是我观察到这些字段被像111111111将在转换为integertype时转换为1 最佳答案如果可以使用configf

select scala section 列名 apache-spark hadoop bigdata

scala - 配置后端状态以使用 hdfs 时出错

我正在尝试将后端状态设置为hdfsvalstateUri="hdfs/path_to_dir"valbackend:RocksDBStateBackend=newRocksDBStateBackend(stateUri,true)env.setStateBackend(backend)我正在运行具有以下依赖项的flink1.7.0(我尝试了所有组合):"org.apache.flink"%%"flink-connector-filesystem"%flinkV"org.apache.flink"%"flink-hadoop-fs"%flinkV"org.apache.hadoop"%"

时出 scala flink code apache hadoop apache-flink

scala - Spark 流 : Write Data to HDFS by reading from one HDFSdir to another

我正在尝试使用SparkStreaming将数据从一个HDFS位置读取到另一个位置下面是我在spark-shell上的代码片段但我看不到在HDFS输出目录上创建的文件能否指出如何在HDFS上加载文件scala>sc.stop()scala>importorg.apache.spark.SparkConfscala>importorg.apache.spark.streamingscala>importorg.apache.spark.streaming.{StreamingContext,Seconds}scala>valconf=newSparkConf().setMaster("l

HDFSdir another scala section streamingcontext_dir apache-spark hadoop hdfs

scala - Spark Streaming - 刷新静态数据

我有一个SparkStreaming作业，它在启动时查询Hive并创建一个Map[Int,String]对象，然后该对象用于作业执行的部分计算。我遇到的问题是Hive中的数据每2小时就有可能发生变化。我希望能够按计划刷新静态数据，而不必每次都重新启动Spark作业。map对象的初始加载大约需要1分钟。非常欢迎任何帮助。最佳答案您可以使用监听器。每次为spark上下文中的任何流启Action业时都会触发。由于您的数据库每两个小时更新一次，因此每次更新AFAIK都没有什么坏处。sc.addSparkListener(newSpark

Streaming scala section stackoverflow Spark apache-spark hadoop hive spark-streaming

scala - 如何在 Spark 上执行大型计算

我在Hive中有2个表:user和item我正在尝试计算每个表的2个特征之间的余弦相似度，以获得2个表之间的笛卡尔积，即交叉连接。大约有20000个users和5000个items导致1亿行计算。我在具有12个内核的HiveCluster上使用ScalaSpark运行计算。代码有点像这样:valpairs=userDf.crossJoin(itemDf).repartition(100)valresults=pairs.mapPartitions(computeScore)//computeScoreisafunctiontocomputethesimilarityscoresInee

何在大型 code section Spark scala apache-spark dataframe hadoop bigdata

scala - Spark : Would a dataframe repartitioned to one node experience a shuffle when a groupBy is called on it?

假设我有一些数据都在同一个分区上(我之前在数据帧上执行了.coalesce(1))。我现在想对数据进行分组并对其进行聚合。如果我在数据框上使用.groupBy，这些组会被放置到不同的节点上吗？如果这是真的，我想避免这种情况，因为我想对这些组执行这些计算而不需要过多改组。最佳答案首先，coalesce(1)并不能保证你的所有数据都在一个节点中，要确保你必须使用repartition(1)，这将迫使您将所有数据统一在一个节点中。coalesce仅对同一节点中的分区进行分组，因此如果您的数据分布在5个节点中(每个节点中有多个分区)，它

repartitioned experience 点中 code section scala apache-spark hadoop apache-spark-sql bigdata

scala - 如何在 EMR 上使用 spark 有效地读取/解析 s3 文件夹中的 .gz 文件负载

我正在尝试通过在EMR上执行的spark应用程序读取s3目录中的所有文件。数据以典型格式存储，如“s3a://Some/path/yyyy/mm/dd/hh/blah.gz”如果我使用深度嵌套的通配符(例如“s3a://SomeBucket/SomeFolder/////*.gz”)，性能会很糟糕并且需要大约40分钟阅读几万个gzip压缩的小json文件。它可以工作，但是浪费40分钟来测试一些代码真的很糟糕。我的研究告诉我还有另外两种方法性能更高。使用hadoop.fs库(2.8.5)我尝试读取我提供的每个文件路径。privatedefgetEventDataHadoop(events

何在 scala String section dateFormatter apache-spark hadoop amazon-s3 amazon-emr

scala - 从 scala 脚本中执行 hdfs 命令

我正在尝试从集群模式下由Spark执行的Scala脚本内部执行一个HDFS特定命令。命令下方:valcmd=Seq("hdfs","dfs","-copyToLocal","/tmp/file.dat","/path/to/local")valresult=cmd.!!作业在此阶段失败，错误如下:java.io.FileNotFoundException:/var/run/cloudera-scm-agent/process/2087791-yarn-NODEMANAGER/log4j.properties(Permissiondenied)atjava.io.FileInputStr

scala hdfs apache java FileInputStream apache-spark hadoop

scala - 我应该添加哪个依赖项以使用 intelliJ 使用 scala-spark 在 s3 中获取 txt 文件？

我正在使用IntelliJide和scala语言，我想使用IAM用户凭证访问存储在AWSS3中的文本文件。我还没有使用依赖项在我的系统上下载Hadoop。我已经使用Aws依赖项和jets3t依赖项完成了此操作。但我想用Spark来做。我遇到的基本错误是:java.lang.RuntimeException:java.lang.ClassNotFoundException:Classorg.apache.hadoop.fs.s3a.S3AFileSystemnotfound,java.lang.RuntimeException:java.lang.ClassNotFoundExcepti

scala scala-spark 34 hadoop apache apache-spark

scala - 在 Spark Scala 中动态创建数据帧

我有几列数据来自Dataframe1，在一个循环中(来自不同的行)。我想用所有这些不同的行/列数据创建一个Dataframe2。下面是示例数据，我尝试使用Seq:varDF1=Seq(("11111111","0101","6573","X1234",12763),("44444444","0148","8382","Y5678",-2883),("55555555","0154","5240","Z9011",8003))我想在上面的Seq下面添加2个动态行，然后使用最终的Seq创建一个Dataframe。("88888888","1333","7020","DEF34",500)(

scala Spark 34 acctRulesPosDF String apache-spark hadoop hdfs dynamic-programming

127 128 129130131 132 133