草庐IT

docker-spark

全部标签

java - Apache Spark 中的持久化选项

您好,我是ApacheSpark的新手,我正在使用Java中的Apachesparksql查询配置单元表。这是我的代码SparkConfsparkConf=newSparkConf().setAppName("Hive").setMaster("local");JavaSparkContextctx=newJavaSparkContext(sparkConf);HiveContextsqlContext=neworg.apache.spark.sql.hive.HiveContext(ctx.sc());org.apache.spark.sql.Row[]results=sqlCont

scala - Spark : how to zip an RDD with each partition of the other RDD

假设我有一个RDD[U],它总是只包含1个分区。我的任务是用位于n个分区上的另一个RDD[T]的内容填充这个RDD。最终输出应该是RDD[U]的n个分区。我最初尝试做的是:valnewRDD=firstRDD.zip(secondRDD).map{case(a,b)=>a.insert(b)}但是我得到一个错误:Can'tzipRDDswithunequalnumbersofpartitions我可以在RDDapi中看到documentation有一个名为zipPartitions()的方法。是否有可能,如果可以,如何使用此方法将RDD[T]中的每个分区压缩为RDD[U]的单个分区并执

scala - 在我的用例中通过高效使用 Spark 或 pig 组?

我有一千万条记录,是customerID和cityIDpair。有几千万唯一的客户ID,只有几百个唯一的城市ID。我想进行合并以获取针对特定客户ID聚合的所有城市ID,并拉回所有记录。我想在Hadoop上使用Pig按客户ID分组来执行此操作,并想知道这是否是最有效的方法。还想知道在Hadoop中排序是否有开销(我不关心customer1是否在customer2之前,只要为customer1和customer2正确聚合了所有城市)?您认为Spark更好吗?这里是一个输入的例子,CustomerID1City1CustomerID2City2CustomerID3City1Customer

在内网部署docker工程总结

前言本次部署的内容主要包括:mysql,redis,nacos,java项目,前端项目,python项目。一安装docker环境首先在拥有网络环境的电脑上下载docker安装包,下载地址可以参考如下:https://download.docker.com/linux/static/stable/x86_64/下载完成之后,将安装包通过sftp等方式上传到要部署的机器上:tarzxfdocker-20.10.9.tgzsudocpdocker/*/usr/bin/然后注册dockerservices服务,进入/etc/systemd/system/目录,并创建docker.service文件,输

Hadoop 2.7、Spark、Hive、JasperReports、Sqoop - 架构

首先,这不是一个寻求帮助以逐步部署以下组件的问题。我要问的是关于应该如何设计架构的建议。我打算做的是使用现有数据开发一个报告平台。以下是我通过研究收集的数据。我有一个包含大量记录的现有RDBMS。所以我正在使用Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。我所知道的是部署了一个Hadoop2集群,如下所示192.168.X.A-名称节点192.168.X.B-第二个名称节点192.168.X.C-从站1192.168.X.D-从站2192.

Jtti:怎么查看docker文件存放目录

Docker默认将镜像、容器数据和相关文件存储在特定的目录中。具体的存储路径可能会因Docker安装方式和操作系统而异。以下是一些常见情况下查看Docker存储目录的方法:方法1:使用Docker命令使用以下命令可以查看Docker存储目录的位置:dockerinfo|grep-i'dockerrootdir'该命令会显示Docker根目录的路径,其中包括容器和镜像的数据。方法2:查看Docker配置文件Docker的配置文件通常存储在/etc/docker/daemon.json或/etc/default/docker,具体位置取决于您的操作系统。查看配置文件,找到关于存储路径的配置信息:c

scala - 从终端在 Spark scala 中添加外部库

我正在尝试为spark添加外部库,因为我已尝试将这些库放在/usr/lib/spark/lib中。当我成功添加库后运行我的代码时出现错误:未找到。我不知道还有什么地方可以放置jar文件,我使用的是CDH5.7.0 最佳答案 我在深入挖掘后找到了解决方案,我通过在从终端打开sparkshell的同时添加jar解决了这个问题。我使用了下面的代码:spark-shell--jars"dddd-xxx-2.2.jar,xxx-examples-2.2.jar" 关于scala-从终端在Spark

scala - Spark - 另一个转换中的 Rdd 转换

我试图在另一个转换中转换RDD。因为,RDD转换和操作只能由驱动程序调用,我收集了第二个RDD并尝试在其他转换中对其应用转换,如下所示valname_match=first_names.map(y=>(y,first_names_collection.value.filter(z=>soundex.difference(z,y)==4)))上面的代码抛出了下面的异常org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.yarn.exceptions.ApplicationAttemptNotFoundException):App

hadoop - 在 spark 中使用 hadoop 配置连接到 Hbase

我正在尝试在spark的MapPartitionFunction中创建hbase连接。Causedby:java.io.NotSerializableException:org.apache.hadoop.conf.Configuration我试过下面的代码SparkConfconf=newSparkConf().setAppName("EnterPriseRiskScore").setMaster("local");conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer");conf.set("s

amazon-web-services - 中等 Hadoop/Spark 集群管理

如果这个问题更适合不同的channel,请告诉我,但我想知道推荐的工具是什么,可以在大量远程服务器上安装、配置和部署hadoop/spark。我已经熟悉如何设置所有软件,但我正在尝试确定我应该开始使用什么,这将使我能够轻松地跨大量服务器进行部署。我已经开始研究配置管理工具(即chef、puppet、ansible),但想知道最好的和最用户友好的选项是什么。我也不想使用spark-ec2。我应该创建自己开发的脚本来遍历包含IP的主机文件吗?我应该使用pssh吗?PSCP?等。我希望能够根据需要与尽可能多的服务器进行ssh连接并安装所有软件。 最佳答案