草庐IT

spark_libs

全部标签

hadoop - Spark集群按顺序向文件中的每一行添加数字

我有一个文件,每行都包含名称,我想按顺序向每一行添加数字。例如,如果一个文件是这样的abcd我要它实现这个a,1b,2c,3d,4我写了这段代码来实现这个vallines=sc.textFile("data.txt")valpair=lines.zipWithIndex().map{case(i,line)=>i.toString+","+line}pair.collect()但是如您所知,Spark将其任务分布在不同的集群中。所以我不确定这是否有效。所以任何人都可以告诉我如何实现这一目标吗?提前致谢。 最佳答案 如果您将运行此代码

hadoop - 如何设置 Spark 作业暂存位置

我的spark作业失败了,因为用户无权访问spark尝试写入暂存或临时数据集的目录。2017-03-1010:25:47,0928ERRORJniCommonfs/client/fileclient/cc/jni_MapRClient.cc:2072Thread:26413mkdirsfailedfor/user/cxpdiprod/.sparkStaging/application_1488190062017_14041,error13Exceptioninthread"main"org.apache.hadoop.security.AccessControlException:Us

java - 在 Spark 中将纯文本文件转换为 Hadoop 序列文件

我现有的项目正在使用Hadoopmap-reduce生成一个具有自定义键和值的XML格式的序列文件。通过一次从输入源读取一行生成XML值,并实现RecordReader以从纯文本返回XML格式的下一个值。例如输入源文件有3行(第一行是标题,其余行是实际数据)id|name|value1|Vijay|10002|Gaurav|20003|Ashok|3000贴图方法序列文件有如下数据:FeedInstanceKey{feedInstanceId=1000,entity=bars}1Vijay1000FeedInstanceKey{feedInstanceId=1000,entity=ba

scala - 如何使用配置单元上下文有效地查询 spark 中的配置单元表?

我有一个包含时间序列数据的1.6THive表。我正在使用Hive1.2.1和scala中的Spark1.6.1。以下是我在代码中的查询。但我总是遇到Java内存不足错误。valsid_data_df=hiveContext.sql(s"SELECTtime,total_field,sid,year,dateFROMtablenameWHEREsid='$stationId'ORDERBYtimeLIMIT4320000")通过一次从配置单元表中迭代选择几条记录,我试图在结果dataframe上做一个滑动窗口我有一个由4个节点组成的集群,具有122GB内存和44个vCore。我正在使用4

scala - 使用 spark 在 hive 中流式传输数据存储

我正在创建一个应用程序,在其中获取流式数据,这些数据进入kafka,然后在spark上。使用数据,应用一些登录,然后将处理后的数据保存到配置单元中。数据速度非常快。我在1分钟内获得50K条记录。Spark流中有1分钟的窗口,它处理数据并将数据保存在配置单元中。我的问题是生产前瞻性架构可以吗?如果是,我如何将流数据保存到配置单元中。我正在做的是,创建1分钟窗口数据的数据框,并使用将其保存在配置单元中results.write.mode(org.apache.spark.sql.SaveMode.Append).insertInto("stocks")我还没有创建管道。可以吗,还是我必须修

scala - 在 Apache Spark 中按列分区到 S3

有我们想要从具有JSON的S3读取文件的用例。然后,基于特定的JSON节点值,我们希望对数据进行分组并将其写入S3。我能够读取数据,但找不到关于如何根据JSONkey对数据进行分区然后上传到S3的好例子。任何人都可以提供任何示例或指向可以帮助我处理此用例的教程吗?创建数据框后我得到了我的数据模式:root|--customer:struct(nullable=true)||--customerId:string(nullable=true)|--experiment:string(nullable=true)|--expiryTime:long(nullable=true)|--par

python - spark 作业中不存在配置单元表

我在EMR中使用HiveMetastore。我可以通过HiveSQL或SparkSQL手动查询表。但是当我在SparkJob中使用同一个表时,它显示找不到表或ViewFile"/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py",line69,indecopyspark.sql.utils.AnalysisException:u"Tableorviewnotfound:`logan_test`.`salary_csv`;line1pos21;'Aggregate[unresolvedalias(count(1),None

hadoop - Spark中HIVE表的显示

这个问题在这里已经有了答案:fetchmorethan20rowsanddisplayfullvalueofcolumninspark-shell(2个答案)关闭4年前。我正在尝试读取Spark1.6.1中的HIVE表。一切都按要求工作,只有Spark中的表显示是有线的。HIVE表由1亿条奇数记录组成。importosfrompysparkimportSparkContextsc=SparkContext("local","SimpleApp")frompyspark.sqlimportHiveContexthive_context=HiveContext(sc)db=hive_con

Spark大数据分析与实战笔记(第二章 Spark基础-04)

文章目录每日一句正能量引言章节概要2.4体验第一个Spark程序2.4.1运行Spark官方示例SparkPi总结每日一句正能量“春风十里,不如你。”这句来自现代作家安妮宝贝的经典句子,它表达了对他人的赞美与崇拜。每个人都有着不同的闪光点和特长,在这个世界上,不必去羡慕别人的光芒,自己所拥有的价值是独一无二的。每个人都有无限的潜力和能力,只要勇敢展现自己,就能在人生舞台上绽放光彩。每天鼓励自己,相信自己,发挥自己的优点和才能,你就能成为那道独特的风景,给世界带来不一样的美好。引言Spark是一个用于大规模数据处理的高性能分布式计算框架。它提供了一个简单易用的编程模型和丰富的API,可以帮助我们

apache-spark - YARN 如何决定启动哪种类型的 Application master?

我提到了this链接并获得对YARN工作原理的公平理解。YARN能够运行Multi-Tenancy应用程序,例如MR、Spark等。关键点是特定于应用程序的ApplicationMaster(AM)。当客户端向ResourceManager提交Job时,ResourceManager如何知道它是哪种应用程序(MR、Spark)并因此启动适当的ApplicationMaster?谁能帮助RM如何知道提交给它的作业类型?编辑:这个问题是:RM怎么知道提交了什么样的Job,而不知道YARN和MR或者Spark之间有什么关系。RM收到一个Job,因此它必须启动第一个运行特定应用程序Applic