apache-spark-2.3

apache-spark - 您如何在 hdfs 中查看文件的行组

我遇到了这个page在jira中，我想知道如何获得相同的行组View。像这样:hdfs中是否有可以向我显示此内容的命令？最佳答案我报告了JIRA。我用过parquet-toolsmeta/path/to/file.parquet|grep"rowgroup"然后手动编辑输出以对齐数字。或者，您可以附加|column-t用于一些基本对齐。尽管在这种情况下数字将左对齐而不是右对齐，但至少它们会一个接一个地排列。parquet-tools本身是一个未记录的帮助程序脚本included在Parquet先生。您可以调用hadoopjar/

何在 apache-spark parquet parquet-tools code hadoop hdfs

apache-spark - 压缩ORC或parquet有什么好处

ORC和Parquet文件本身(没有其他压缩选项，如snappy)具有压缩效果(相同的数据加载到parquet文件中会比文本文件小很多)，所以我会问是否需要指定压缩选项像snappy进一步压缩ORC和parquet文件，因为这些文件存储为二进制文件，也许压缩效果对二进制数据没有那么大。更新:我尝试了一个306M的文本文件，然后文字:306MParquet:323MParquet+snappy:50M从测试结果来看，parquet本身是没有压缩的，比text还要大(不知道什么原因)，parquet+snappy的压缩效果很高。最佳答案

apache-spark parquet section hadoop

scala - 如何优化 spark 函数以将 double 值舍入为 2 位小数？

下面是我的Spark函数，它很简单defdoubleToRound(df:DataFrame,roundColsList:Array[String]):DataFrame={vary:DataFrame=dffor(colDF这按预期工作，通过使给定DF的多个列的值将小数值四舍五入到2个位置。但是我循环遍历DataFramey直到Array[Sting].length()列。有更好的方法来完成上述操作吗？谢谢大家最佳答案您可以简单地使用select和map，如下例所示:importorg.apache.spark.sql.fun

double scala code DataFrame roundCols apache-spark hadoop apache-spark-sql

scala - 使用 Spark scala 中的列创建格式化 csv 文件

我有一个csv文件，如下所示它有6行，顶行作为标题，而标题读作“StudentsMarks”dataframe将它们视为一列，现在我想将两列与数据分开。“student”和“marks”用空格隔开。df.show()_______________##StudentMarks##---------------A10;20;10;20A20;20;30;10B10;10;10;10B20;20;20;10B30;30;30;20现在我想将这个csv表转换成两列，包含学生和分数，同时为每个学生加上加起来的分数，如下所示Student|MarksA|30;40;40;30B|60;60;60;

scala Spark 34 code section apache-spark hadoop apache-spark-sql

hadoop - Apache Pig 没有完全解析元组

我有一个名为data的文件，它看起来像这样:(注意“personA”之后有制表符)personA(1,2,3)personB(2,1,34)我有一个像这样的Apachepig脚本:A=LOAD'data'AS(name:chararray,nodes:tuple(a:int,b:int,c:int));C=foreachAgeneratenodes.$0;dumpC;其输出有意义:(1)(2)但是，如果我将脚本的架构更改为如下所示:A=LOAD'data'AS(name:chararray,nodes:tuple());C=foreachAgeneratenodes.$0;dumpC;

hadoop Apache code section 制表符 mapreduce apache-pig

【Spark源码分析】Spark的RPC通信一-初稿

Spark的RPC通信一-初稿文章目录Spark的RPC通信一-初稿Spark的RPC顶层设计核心类`NettyRpcEnv`核心类`RpcEndpoint`核心类`RpcEndpointRef`SparkRPC消息的发送与接收实现核心类`Inbox`核心类`Dispatcher`核心类`Outbox`Spark的RPC顶层设计在RpcEnv中定义了RPC通信框架的启动、停止和关闭等抽象方法，表示RPC的顶层环境。唯一的子类NettyRpcEnv。RpcEndpoints需要向RpcEnv注册自己的名称，以便接收信息。然后，RpcEnv将处理从RpcEndpointRef或远程节点发送的信息，

Spark 初稿 class span foreignobject rpc

hadoop - Apache Hama 和Hadoop Mapreduce 一样有监控网页吗？

Hadoopmapreduce的jobtracker在其端口50030上有一个监控网页，但是当我尝试在其服务端口(我设置为40000)上使用我的HamaBSPMaster节点打开浏览器时，Hama似乎没有这样的监控页。Hama的网站似乎没有提到这种类型的监控工具。请问哈马的BSPMaster有没有这样的监控页面？谢谢，最佳答案 Web控制台在40013运行，提到here. 关于hadoop-ApacheHama和HadoopMapreduce一样有监控网页吗？，我们在StackOver

Mapreduce hadoop section Hama stackoverflow monitoring

java - Apache Hadoop 2.2 中的 org.apache.hadoop.mapreduce 导入问题

我最近安装了新的Hadoop2.2。我以前写过一个简单的WordCountMapReduce程序，它曾经在CDH4上轻松工作。但是现在，我对所有org.apache.hadoop.mapreduce导入都有问题。有人能告诉我到底要导出哪个jar来修复这些导入吗？代码如下，以防万一有人需要指出我需要做的更改以确保它在Hadoop2.2中运行。importjava.io.IOException;importjava.lang.InterruptedException;importjava.util.regex.Matcher;importjava.util.regex.Pattern;im

mapreduce Apache hadoop IntWritable import java

hadoop - Apache PIG - 分组依据

我希望在Pig中实现以下功能。我有一组这样的示例记录。请注意，EffectiveDate列有时为空，并且对于同一CustomerID也不同。现在，作为输出，我希望每个CustomerID有一个记录，其中EffectiveDate是最大值。因此，对于上面的示例，我希望记录突出显示如下所示。我目前使用PIG的方式是这样的:customerdata=LOAD'customerdata'AS(CustomerID:chararray,CustomerName:chararray,Age:int,Gender:chararray,EffectiveDate:chararray);--Groupc

hadoop Apache customer data customerdata apache-pig grouping

scala - spark sbt编译报错libraryDependencies

1.2.0-bin-hadoop2.4我的Scala版本是2.11.7。我收到一个错误，所以我不能使用sbt。~/sparksample$sbt启动sbt:使用-help调用其他选项[info]将当前项目设置为SparkSample(在构建文件中:/home/beyhan/sparksample/)>sbtcompile[info]正在更新{file:/home/beyhan/sparksample/}default-f390c8...[info]解析org.scala-lang#scala-library;2.11.7...[info]正在解决org.apache.spark#spa

libraryDependencies scala spark code spark-core hadoop apache-spark sbt-assembly