草庐IT

面试Spark

全部标签

java - Java 中的 Spark 作业 : how to access files from 'resources' when run on a cluster

我用Java编写了一个Spark作业。该作业被打包为一个阴影jar并执行:spark-submitmy-jar.jar在代码中,有一些文件(Freemarker模板)驻留在src/main/resources/templates中。在本地运行时,我可以访问文件:File[]files=newFile("src/main/resources/templates/").listFiles();作业在集群上运行时,上一行执行时返回空指针异常。如果我运行jartfmy-jar.jar我可以看到文件打包在templates/文件夹中:[...]templates/templates/my_tem

java - 如何将 Spark Row 的数据集转换成字符串?

我已经编写了使用SparkSQL访问Hive表的代码。这是代码:SparkSessionspark=SparkSession.builder().appName("JavaSparkHiveExample").master("local[*]").config("hive.metastore.uris","thrift://localhost:9083").enableHiveSupport().getOrCreate();Datasetdf=spark.sql("selectsurvey_response_valuefromhealth").toDF();df.show();我想知道

java - Spark2.2.1 不兼容 Jackson 版本 2.8.8

我的配置是:Scala2.11(插件ScalaIDE)EclipseNeon.3版本(4.6.3)Windows764位我想运行这个简单的scala代码(Esempio.scala):packageit.scala//importopackagesdiSparkimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkConfobjectWordcount{defmain(args:Array[String]){valinputs:Array[String]=newArray[String](2)inputs(0)="

大数据开发(Hadoop面试真题-卷七)

大数据开发(Hadoop面试真题)1、Map的分片有多大?2、MapReduce的map进程和reducer进程的ivm垃圾回收器怎么选择可以提高吞吐量?3、MapReduce作业执行的过程中,中间的数据会存在什么地方?不会存在内存中吗?4、Mapper端进行combiner之后,除了速度会提升,那从Mapper端到Reduce端的数据量会怎么变?5、MapReducemap输出的数据超出它的文件内存之后,是落地到磁盘还是落地到HDFS中?6、MapReduceMap到Reduce默认的分区机制是什么?7、MapReduceMapJoin为什么能解决数据倾斜?、8、MapReduce运行过程中

Spark 基础

1.Hadoop生态圈1.Hadoop概念Hadoop是一个分布式系统基础架构,主要是为了解决海量数据的存储和海量数据的分析计算问题。2.Hadoop特性三点: 高扩展性  高效性  高容错性2.认识Spark1.Spark故事Spark支持多种运行方式,包括在Hadoop和Mesos上,也支持Standalone的独立运行模式,同时也可以运行在云Kubernets(Spark2.3开始支持)上对于数据源而言,Spark支持从HDFS、HBase、Cassandra及Kafka等多种途径获取和数据2.Spark生态圈 ##(具有可靠、高效、可伸缩的特点)3.Spark概述  Spark在201

spark基础

文章目录spark框架概述什么是spark起源sparkVShadoop(mapreduce)spark特点spark框架模块spark运行模式spark架构角色yarn角色saprk角色小结:解决问题模块特点运行模式运行角色spark环境搭建-local实验服务器环境基本原理本质角色分布搭建安装anaconda安装spark、hadoop、spark配置环境变量启动sparklocal模式小结运行原理bin/pyspark是什么程序spark的4040端口spark环境搭建-standalonestandalone架构主要3类进程standalone部署测试pysparkspark-subm

15:00面试,15:06就出来了,问的问题有点变态。。。

从小厂出来,没想到在另一家公司又寄了。到这家公司开始上班,加班是每天必不可少的,看在钱给的比较多的份上,就不太计较了。没想到9月一纸通知,所有人不准加班,加班费不仅没有了,薪资还要降40%,这下搞的饭都吃不起了。还在有个朋友内推我去了一家互联网公司,兴冲冲见面试官,没想到一道题把我给问死了:如果模块请求http改为了https,测试方案应该如何制定,修改?感觉好简单的题,硬是没有答出来,早知道好好看看一大佬软件测试面试宝典了。通过大数据总结发现,其实软件测试岗的面试都是差不多的。常问的有下面这几块知识点:第一部分,测试理论(测试基础+需求分析+测试模型+测试计划+测试策略+测试案例等等)第二部

首个AI软件工程师上线!已通过公司面试抢程序员饭碗,华人创始团队手握10块IOI金牌

前段时间,英伟达CEO黄院士发出惊人言论:「都别学编程了,以后交给AI就行了,以后人人都是软件工程师。」当时还有很多人反对,说「AI永远不会取代程序员。」没想到,首个人工智能软件工程师Devin一发布,程序员的饭碗可能真要被AI端走了。在SWE-Bench基础测试中,无需人类协助,Devin就可以解决13.86%的问题。而目前的SOTA模型,在没有人类帮忙的情况下,只能完成1.96%的任务。仅从评测结果看,Devin解决真实世界软件问题的能力要远好于当前的GPT-4和Claude等模型。官方发的推特说,Devin不仅通过了一家业内领先的人工智能公司的面试,在自由职业平台Upwork上也能成功接

面试官问:ThreadLocal中的键为什么是弱引用?

ThreadLocal是一个线程安全的,以线程为单位的数据传递工具。广泛应用于多层级数据传递。一、应用场景ThreadLocal主要功能是跨层传递参数,比如,Controller层的数据需要在业务逻辑层使用时,除了利用方法的参数传递之外还可以使用ThreadLocal传递。有时候我们需要从上层传递一个参数到下层的方法,但是下层的方法新增一个参数的话,会违背开闭原则,如果依赖此方法的上层比较多,那修改此方法必然会牵扯很多其他的代码也要改动(代码中难免会遇到这种不合理的代码)因此我们可以通过ThreadLocal来传递这个参数另外,ThreadLocal在源码中经常被应用,例如,SpringMVC

我面试最喜欢问的开放题:如何严谨二次封装 localStorage?

在很多公司中,内部都会封装一些适用于公司内部业务的方法库来提高整个团队的开发效率,比如:防抖节流懒加载、虚拟滚动dom增删改查、移动、拖拽管理状态而在Vue3项目中,这种方法库表现为:hooks库,市面上有很多优秀的库,比如:vueuse。最近我在面试中,喜欢问一道有关于hooks的开放问题:二次封装一个loaclStorage的hooks时,需要考虑哪些问题呢?其实这是一道很简单的题,只不过想考考面试者在做业务的时候,会不会考虑更多的边界情况~接下来说说我对这个问题的小小的理解(可能也不是很全面)。注意命名,防止污染比如我现在一个域名下有两个子项目:A项目B项目且这两个项目都需要存储user