scala-cats

scala - 从数据框中选择时重命名列名

我有2个数据框:df1和df2，我将它们都加入到id列并将其保存到另一个名为df3的数据框。下面是我正在使用的代码，它按预期工作正常。valdf3=df1.alias("tab1").join(df2.alias("tab2"),Seq("id"),"left_outer").select("tab1.*","tab2.name","tab2.dept","tab2.descr");我想在上述语句中将tab2.descr列重命名为dept_full_description。我知道我可以像下面这样创建一个seqval并使用toDF方法valcolumnsRenamed=Seq("id",

列名中选 34 section tab scala hadoop apache-spark dataframe pyspark

scala - 如何使用配置单元上下文有效地查询 spark 中的配置单元表？

我有一个包含时间序列数据的1.6THive表。我正在使用Hive1.2.1和scala中的Spark1.6.1。以下是我在代码中的查询。但我总是遇到Java内存不足错误。valsid_data_df=hiveContext.sql(s"SELECTtime,total_field,sid,year,dateFROMtablenameWHEREsid='$stationId'ORDERBYtimeLIMIT4320000")通过一次从配置单元表中迭代选择几条记录，我试图在结果dataframe上做一个滑动窗口我有一个由4个节点组成的集群，具有122GB内存和44个vCore。我正在使用4

配置单下文 code spark section scala hadoop apache-spark hive hiveql

scala - 使用 spark 在 hive 中流式传输数据存储

我正在创建一个应用程序，在其中获取流式数据，这些数据进入kafka，然后在spark上。使用数据，应用一些登录，然后将处理后的数据保存到配置单元中。数据速度非常快。我在1分钟内获得50K条记录。Spark流中有1分钟的窗口，它处理数据并将数据保存在配置单元中。我的问题是生产前瞻性架构可以吗？如果是，我如何将流数据保存到配置单元中。我正在做的是，创建1分钟窗口数据的数据框，并使用将其保存在配置单元中results.write.mode(org.apache.spark.sql.SaveMode.Append).insertInto("stocks")我还没有创建管道。可以吗，还是我必须修

中流 scala section 配置单 spark hadoop apache-spark hive spark-streaming

scala - 在 Apache Spark 中按列分区到 S3

有我们想要从具有JSON的S3读取文件的用例。然后，基于特定的JSON节点值，我们希望对数据进行分组并将其写入S3。我能够读取数据，但找不到关于如何根据JSONkey对数据进行分区然后上传到S3的好例子。任何人都可以提供任何示例或指向可以帮助我处理此用例的教程吗？创建数据框后我得到了我的数据模式:root|--customer:struct(nullable=true)||--customerId:string(nullable=true)|--experiment:string(nullable=true)|--expiryTime:long(nullable=true)|--par

Apache scala 34 true StructField hadoop apache-spark amazon-s3 mapreduce

scala - 与文件名中的冒号 ':' 作斗争

我有以下代码用于加载大量“csv.gz”并将它们转储到其他文件夹中，源文件名作为一列。objectDailyMergerextendsApp{defallFiles(path:File):List[File]={valparts=path.listFiles.toList.partition(_.isDirectory)parts._2:::parts._1.flatMap(allFiles)}valsqlContext=SparkSession.builder().appName("DailyMerger").master("local").getOrCreate()valfiles

冒号 amp apache org spark scala hadoop apache-spark

scala - 从 spark 中列出/检索 HDFS 分区作为 Map(String,List(String))

我想知道是否有某种方法可以利用spark.hdfs文件夹结构中已经存在的元数据信息。例如，我正在使用以下代码将数据写入hdfs，valcolumns=Seq("country","state")dataframe1.write.partitionBy(columns:_*).mode("overwrite").save(path)这会生成类似的目录结构，path/country=xyz/state=1path/country=xyz/state=2path/country=xyz/state=3path/country=abc/state=4我想知道的是使用spark，有没有办法将所有

String scala country state path apache-spark hadoop hdfs

scala - 我怎样才能让 HBase 与 sbt 的依赖管理配合得很好？

我正在尝试启动一个使用CDH3的Hadoop和HBase的sbt项目。我正在尝试使用project/build/Project.scala文件来声明对HBase和Hadoop的依赖关系。(我承认我对sbt、maven和ivy的掌握有点薄弱。如果我说或做一些愚蠢的事情，请原谅我。)Hadoop依赖项使一切顺利进行。添加HBase依赖项导致对Thrift0.2.0的依赖项，似乎没有repo协议(protocol)，或者从这个SOpost.听起来是这样的所以，真的，我有两个问题:1.老实说，我不想依赖Thrift，因为我不想使用HBase的Thrift接口(interface)。有没有办法告

scala HBase section 34 noreferrer hadoop thrift sbt

scala - 在scala spark中将文件读入数组列表

我对spark和scala完全陌生。我想将文件读入数组列表。这就是它在java中的实现方式。ListsourceRecords;sourceRecords=newArrayList();BufferedReaderSW;SW=newBufferedReader(newFileReader(srcpath[0].toString()));Stringsrcline;while((srcline=SW.readLine())!=null){sourceRecords.add(srcline.toString());}spark中的scala怎么实现最佳答案

读入 scala code section sourceRecords hadoop apache-spark

scala - SPARK_EXECUTOR_INSTANCES 在 SPARK SHELL、YARN 客户端模式下不工作

我是spark的新手。正在尝试运行sparkonyarninyarn-clientmode.SPARKVERSION=1.0.2HADOOPVERSION=2.2.0yarn集群有3个事件节点。spark-env.sh中设置的属性SPARK_EXECUTOR_MEMORY=1GSPARK_EXECUTOR_INSTANCES=3SPARK_EXECUTOR_CORES=1SPARK_DRIVER_MEMORY=2GCommandused:/bin/spark-shell--masteryarn-client但是在登录spark-shell之后，它只注册了1个执行器，并为其分配了一些默认

SPARK SPARK_EXECUTOR_INSTANCES code Dspark scala hadoop apache-spark hadoop-yarn

scala - 为什么创建 HiveContext 失败并返回 "java.lang.OutOfMemoryError: PermGen space"？

我正在使用SparkSQL解析JSON，它工作得非常好，它找到了模式，我正在用它进行查询。现在我需要“扁平化”JSON，并且我在论坛上读到最好的方法是使用Hive(横向View)爆炸，所以我尝试对它做同样的事情。但我什至无法创建上下文...Spark给我一个错误，我找不到如何修复它。正如我所说，此时我只是想创建上下文:println("CreateSparkContext:")valsc=newSparkContext("local","Simple","$SPARK_HOME")println("CreateHivecontext:")valhiveContext=newHiveCo

OutOfMemoryError HiveContext apache 34 scala hadoop apache-spark hive

53 54 555657 58 59