spark_libs_草庐IT

scala - Spark : scala - how to convert collection from RDD to another RDD

如何将调用take(5)后返回的集合转换为另一个RDD，以便在输出文件中保存前5条记录？如果我使用saveAsTextfile它不允许我一起使用take和saveAsTextFile(这就是为什么你会看到下面注释的行).它按排序顺序存储来自RDD的所有记录，因此前5个记录是前5个国家，但我只想存储前5个记录-是否可以在RDD中转换集合[take(5)]？valStrips=txtFileLines.map(_.split(",")).map(line=>(line(0)+","+(line(7).toInt+line(8).toInt))).sortBy(x=>x.split(",")

apache-spark - 文件大于 HDFS 中的 block 大小

众所周知，写入大于HDFSblock大小的单个文件并不是最佳选择，许多非常小的文件也是如此。但是，当在spark中执行repartition('myColumn)操作时，它将为每个项目创建一个分区(假设是一天)，其中包含所有记录(作为单个文件)，这些记录可能是几GB大小(假设20GB)，而HDFSblock大小配置为256MB。文件太大真的不好吗？当读回文件时(假设它是一个可拆分文件，如parquet或带有gzip或zlib压缩的orc)spark正在为每个文件创建>>1任务，即这是否意味着我不需要担心指定maxRecordsPerFile/文件大小大于HDFSblock大小？

apache-spark apache section code block hadoop hdfs

apache-spark - HDFS 和 Spark : Best way to write a file and reuse it from another program

我有一些来自Spark应用程序的结果作为名为part-r-0000X(X=0、1等)的文件保存在HDFS中。而且，因为我想将所有内容加入到一个文件中，所以我使用了以下命令:hdfsdfs-getmergesrcDirdestLocalFile前面的命令在bash脚本中使用，该脚本清空输出目录(保存part-r-...文件的位置)，并在循环内执行上面的getmerge命令。问题是我需要在另一个Spark程序中使用生成的文件，该程序需要将该合并文件作为HDFS的输入。所以我将其保存为本地，然后将其上传到HDFS。我想到了另一种选择，即以这种方式从Spark程序写入文件:outputData

apache-spark another a-hdfs-path code hdfs hadoop

apache-spark - 如何将作业提交到其他集群上的 yarn ？

我有一个安装了spark的docker容器，我正在尝试使用marathon将作业提交到其他集群上的yarn。docker容器具有yarn和hadoopconf目录的导出值，yarn文件还包含emrmasterip的正确地址，但我不确定它从哪里作为本地主机？ENVYARN_CONF_DIR="/opt/yarn-site.xml"ENVHADOOP_CONF_DIR="/opt/spark-2.2.0-bin-hadoop2.6"yarn.xmlyarn.resourcemanager.hostnamexx.xxx.x.xx命令:"cmd":"/opt/spark-2.2.0-bin-h

交到 apache-spark spark code INFO hadoop hadoop-yarn amazon-emr

apache-spark - 您如何在 hdfs 中查看文件的行组

我遇到了这个page在jira中，我想知道如何获得相同的行组View。像这样:hdfs中是否有可以向我显示此内容的命令？最佳答案我报告了JIRA。我用过parquet-toolsmeta/path/to/file.parquet|grep"rowgroup"然后手动编辑输出以对齐数字。或者，您可以附加|column-t用于一些基本对齐。尽管在这种情况下数字将左对齐而不是右对齐，但至少它们会一个接一个地排列。parquet-tools本身是一个未记录的帮助程序脚本included在Parquet先生。您可以调用hadoopjar/

何在 apache-spark parquet parquet-tools code hadoop hdfs

apache-spark - 压缩ORC或parquet有什么好处

ORC和Parquet文件本身(没有其他压缩选项，如snappy)具有压缩效果(相同的数据加载到parquet文件中会比文本文件小很多)，所以我会问是否需要指定压缩选项像snappy进一步压缩ORC和parquet文件，因为这些文件存储为二进制文件，也许压缩效果对二进制数据没有那么大。更新:我尝试了一个306M的文本文件，然后文字:306MParquet:323MParquet+snappy:50M从测试结果来看，parquet本身是没有压缩的，比text还要大(不知道什么原因)，parquet+snappy的压缩效果很高。最佳答案

apache-spark parquet section hadoop

scala - 如何优化 spark 函数以将 double 值舍入为 2 位小数？

下面是我的Spark函数，它很简单defdoubleToRound(df:DataFrame,roundColsList:Array[String]):DataFrame={vary:DataFrame=dffor(colDF这按预期工作，通过使给定DF的多个列的值将小数值四舍五入到2个位置。但是我循环遍历DataFramey直到Array[Sting].length()列。有更好的方法来完成上述操作吗？谢谢大家最佳答案您可以简单地使用select和map，如下例所示:importorg.apache.spark.sql.fun

double scala code DataFrame roundCols apache-spark hadoop apache-spark-sql

scala - 使用 Spark scala 中的列创建格式化 csv 文件

我有一个csv文件，如下所示它有6行，顶行作为标题，而标题读作“StudentsMarks”dataframe将它们视为一列，现在我想将两列与数据分开。“student”和“marks”用空格隔开。df.show()_______________##StudentMarks##---------------A10;20;10;20A20;20;30;10B10;10;10;10B20;20;20;10B30;30;30;20现在我想将这个csv表转换成两列，包含学生和分数，同时为每个学生加上加起来的分数，如下所示Student|MarksA|30;40;40;30B|60;60;60;

scala Spark 34 code section apache-spark hadoop apache-spark-sql

【Spark源码分析】Spark的RPC通信一-初稿

Spark的RPC通信一-初稿文章目录Spark的RPC通信一-初稿Spark的RPC顶层设计核心类`NettyRpcEnv`核心类`RpcEndpoint`核心类`RpcEndpointRef`SparkRPC消息的发送与接收实现核心类`Inbox`核心类`Dispatcher`核心类`Outbox`Spark的RPC顶层设计在RpcEnv中定义了RPC通信框架的启动、停止和关闭等抽象方法，表示RPC的顶层环境。唯一的子类NettyRpcEnv。RpcEndpoints需要向RpcEnv注册自己的名称，以便接收信息。然后，RpcEnv将处理从RpcEndpointRef或远程节点发送的信息，

Spark 初稿 class span foreignobject rpc

scala - spark sbt编译报错libraryDependencies

1.2.0-bin-hadoop2.4我的Scala版本是2.11.7。我收到一个错误，所以我不能使用sbt。~/sparksample$sbt启动sbt:使用-help调用其他选项[info]将当前项目设置为SparkSample(在构建文件中:/home/beyhan/sparksample/)>sbtcompile[info]正在更新{file:/home/beyhan/sparksample/}default-f390c8...[info]解析org.scala-lang#scala-library;2.11.7...[info]正在解决org.apache.spark#spa

libraryDependencies scala spark code spark-core hadoop apache-spark sbt-assembly