草庐IT

apache-spark-2.3

全部标签

python - 在 Zeppelin 上增加 Spark Executors

我正在使用Hortnworks(HDP2.4)设置集群。我有一个4节点集群,每个节点都有(16Gb-RAM,8-CPU)。为了使用python(pyspark),我还在ZeppelinNotebook上安装了Spark。我的问题是:我从3个节点的配置开始,后来我添加了另一个新节点(如前所述总共4个),无论如何Spark上的执行者数量仍然是“3”。我在网上看到执行者的数量可以在SPARK_EXECUTOR_INSTANCES中设置,但是这个参数只存在于Spark的配置页面的spark-envtemplate中安巴里用户界面。似乎它需要YARN来决定执行者,但在YARN中我还没有找到任何关

java - SPARK 分区和 Worker Core 之间有什么区别?

我使用StandaloneSparkCluster来处理多个文件。当我执行驱动程序时,数据在使用它的核心的每个工作人员上进行处理。现在,我已经阅读了有关Partitions的内容,但我不知道它是否与WorkerCores不同。设置核心数和分区数有区别吗? 最佳答案 简单View:分区与内核数当您调用RDD的操作时,为其创建了一个“工作”。因此,Job是提交给spark的工作。作业根据洗牌边界分为“STAGE”!!!每个阶段根据RDD上的分区数进一步划分为任务。所以Task是spark的最小工作单元。现在,这些任务中有多少可以同时执行

scala - 将 RDD[String] 转换为 RDD[Row] 到 Dataframe Spark Scala

我正在读取一个有很多空格的文件,需要过滤掉空格。之后我们需要将其转换为数据框。下面的示例输入。2017123¦¦10¦running¦00000¦111¦-EXAMPLE我的解决方案是使用以下函数来解析所有空格并修剪文件。deftruncateRDD(fileName:String):RDD[String]={valexample=sc.textFile(fileName)example.map(lines=>lines.replaceAll("""[\t\p{Zs}]+""",""))}但是,我不确定如何将它放入数据框中。sc.textFile返回一个RDD[String]。我尝试了

scala - Spark BigQuery 连接器 : Writing ARRAY type causes exception: ""Invalid value for: ARRAY is not a valid value""

在GoogleCloudDataproc中运行Spark作业。使用BigQueryConnector将作业输出的json数据加载到BigQuery表中。BigQueryStandard-SQLdatatypesdocumentation表示支持ARRAY类型。我的Scala代码是:valoutputDatasetId="mydataset"valtableSchema="["+"{'name':'_id','type':'STRING'},"+"{'name':'array1','type':'ARRAY'},"+"{'name':'array2','type':'ARRAY'},"+

服务器解析漏洞有哪些?IIS\APACHE\NGINX解析漏洞利用

解析漏洞是指在Web服务器处理用户请求时,对输入数据(如文件名、参数等)进行解析时产生的漏洞。这种漏洞可能导致服务器对用户提供的数据进行错误解析,使攻击者能够执行未经授权的操作。解析漏洞通常涉及到对用户输入的信任不足,攻击者可以通过构造恶意输入来绕过服务器的安全机制。解析漏洞分类文件包含漏洞:允许用户输入文件路径或文件名的地方未经充分验证,导致攻击者能够包含恶意文件。代码注入漏洞:允许用户输入的地方未经充分验证,使攻击者能够注入恶意代码,执行不受控制的操作。路径遍历漏洞:允许用户输入路径的地方未经充分验证,攻击者通过构造特殊的路径来访问或修改受限资源。URL解码漏洞:在URL解码时,服务器未正

scala - 序列化和自定义 Spark RDD 类

我正在用Scala编写自定义SparkRDD实现,并且正在使用Sparkshell调试我的实现。我现在的目标是:customRDD.count毫无异常(exception)地成功。现在这就是我得到的:15/03/0623:02:32INFOTaskSchedulerImpl:Addingtaskset0.0with1tasks15/03/0623:02:32ERRORTaskSetManager:Failedtoserializetask0,notattemptingtoretryit.java.lang.reflect.InvocationTargetExceptionatsun.r

scala - 对 Spark 中的 Double/Int 值进行空检查

我是Spark的新手,如何检查Double中的Null值和scala或Spark中的Int值。像String我们可以这样做:valvalue=(FirstString.isEmpty())match{casetrue=>SecondStringcase_=>FirstString}我搜索了很多,但只找到了字符串值。您能否也建议我使用其他数据类型。提前致谢。 最佳答案 null仅适用于Scala中的AnyRef(即非原始类型)类型。AnyVal类型不能设置为null。例如://thebelowareAnyVal(s)andwontco

hadoop - Apache Yarn 公平调度程序一次只允许一个应用程序

我们有一个hadoop集群,配置了ClouderaCDH5.4.2发行版和Yarn公平调度程序,用于调度和管理资源。我们有18个工作节点,总计963GB主内存和288个vcores。现在的问题是我一次只能运行一个应用程序,无论该应用程序的资源需求有多小。例如这里是动态资源池状态:状态YARN使用288个vcores和942GiB内存。资源池使用此表和右侧的图表仅包含来自YARN的指标。资源池名称已分配内存已分配VCores已分配容器待处理容器根0B000用户10B001默认0B000用户222GiB11111对于用户2,即使在288个vcores和942GiB内存中只分配了22GB和1

Hadoop:在 Apache Mahout 中实现贝叶斯算法时出错

我在Mahout中执行贝叶斯算法时遇到问题。我用Maven构建它,作业文件在目标目录中。使用Hadoop从终端运行时,出现ClassNotFoundException错误。应该怎么办?$HADOOP_HOME/bin/hadoopjarmahout-core-0.3-SNAPSHOT.joborg.apache.mahout.classifier.bayes.mapreduce.bayes.bayesdriver-itest-ooutputExceptioninthread"main"java.lang.ClassNotFoundException:org.apache.mahout.

hadoop - 为什么我得到 "security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cacheTimeout=300000"?

$hdfsdfs-rmrcrawl11/04/1608:49:33INFOsecurity.Groups:Groupmappingimpl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping;cacheTimeout=300000我正在使用hadoop-0.21.0和defaultSingleNodeSetupconfiguration. 最佳答案 这不是警告,只是标准消息。但是,它不应该在INFO级别输出,因为它确实会随每条消息一起打印。在主干中,它已移至DEBUG,因此您