草庐IT

apache-spark-2.3

全部标签

Apache ActiveMQ 远程代码执行漏洞分析

漏洞简介ApacheActiveMQ官方发布新版本,修复了一个远程代码执行漏洞(CNVD-2023-69477 CVE-2023-46604),攻击者可构造恶意请求通过ApacheActiveMQ的61616端口发送恶意数据导致远程代码执行,从而完全控制ApacheActiveMQ服务器。影响版本ApacheActiveMQ5.18.0before5.18.3ApacheActiveMQ5.17.0before5.17.6ApacheActiveMQ5.16.0before5.16.7ApacheActiveMQbefore5.15.16ApacheActiveMQLegacyOpenWire

scala - Spark - 另一个转换中的 Rdd 转换

我试图在另一个转换中转换RDD。因为,RDD转换和操作只能由驱动程序调用,我收集了第二个RDD并尝试在其他转换中对其应用转换,如下所示valname_match=first_names.map(y=>(y,first_names_collection.value.filter(z=>soundex.difference(z,y)==4)))上面的代码抛出了下面的异常org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.yarn.exceptions.ApplicationAttemptNotFoundException):App

hadoop - 在 spark 中使用 hadoop 配置连接到 Hbase

我正在尝试在spark的MapPartitionFunction中创建hbase连接。Causedby:java.io.NotSerializableException:org.apache.hadoop.conf.Configuration我试过下面的代码SparkConfconf=newSparkConf().setAppName("EnterPriseRiskScore").setMaster("local");conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer");conf.set("s

amazon-web-services - 中等 Hadoop/Spark 集群管理

如果这个问题更适合不同的channel,请告诉我,但我想知道推荐的工具是什么,可以在大量远程服务器上安装、配置和部署hadoop/spark。我已经熟悉如何设置所有软件,但我正在尝试确定我应该开始使用什么,这将使我能够轻松地跨大量服务器进行部署。我已经开始研究配置管理工具(即chef、puppet、ansible),但想知道最好的和最用户友好的选项是什么。我也不想使用spark-ec2。我应该创建自己开发的脚本来遍历包含IP的主机文件吗?我应该使用pssh吗?PSCP?等。我希望能够根据需要与尽可能多的服务器进行ssh连接并安装所有软件。 最佳答案

hadoop - 如何使用 Spark 编写 avro 文件?

我有一个Array[Byte]代表一个avro模式。我正在尝试将它作为带有spark的avro文件写入Hdfs。这是代码:valvalues=messages.map(row=>(null,AvroUtils.decode(row._2,topic))).saveAsHadoopFile(outputPath,classOf[org.apache.hadoop.io.NullWritable],classOf[CrashPacket],classOf[AvroOutputFormat[SpecificRecordBase]])row._2是Array[Byte]我收到此错误:org.a

Apache Kylin - 空值度量变为零?

我正在尝试构建一个KylinCube,它将为我获取SmallInt可为null的列Col1的平均值。我希望任何空值都不会计入此平均值。当我在Hive中处理我的表时,这正是我在应用AVG函数时得到的结果。然而,当我在Kylin中在此表之上构建立方体时,我的测量列中的所有空值都变为零,然后计入AVG的计算。有没有办法强制Kylin将null视为null? 最佳答案 您遇到了ApacheKylin的缺陷。我根据你的问题创建了一个JIRA。https://issues.apache.org/jira/browse/KYLIN-2049作为解

scala - spark-submit 无法访问本地文件系统

第一个count()方法调用中的非常简单的Scala代码文件。defmain(args:Array[String]){//createSparkcontextwithSparkconfigurationvalsc=newSparkContext(newSparkConf().setAppName("SparkFileCount"))valfileList=recursiveListFiles(newFile("C:/data")).filter(_.isFile).map(file=>file.getName())valfilesRDD=sc.parallelize(fileList)

hadoop - 配置单元:dfs copyToLocal 给出 "org.apache.hive.service.cli.HiveSQLException: Error while processing statement: null"

我正在尝试从.hql文件执行“copyToLocal”,如下所示:dfs-copyToLocalhdfs://nameservice1/HDFS_FOLDER1/HDFS_FOLDER2/file_name.dat/LOCAL_FOLDER1/LOCAL_FOLDER2/;但是我得到了下面提到的异常:Error:Errorwhileprocessingstatement:null(state=,code=1)org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:nullatorg.apach

hadoop - 无法全局访问 Kafka Spark Streaming 中的数据

我正在尝试将数据从Kafka流式传输到SparkJavaPairInputDStreamdirectKafkaStream=KafkaUtils.createDirectStream(ssc,String.class,String.class,StringDecoder.class,StringDecoder.class,kafkaParams,topics);我在这里迭代JavaPairInputDStream来处理RDD。directKafkaStream.foreachRDD(rdd->{rdd.foreachPartition(items->{while(items.hasNe

scala - 通过 Scala IDE 使用 spark sql

我想试试sparksql,我一开始用的是bin/spark-shell插入此代码valsqlcontext=neworg.apache.spark.sql.SQLContext(sc)valdata=sc.textFile("hdfs://localhost:9000/cars.csv")valmapr=data.map(p=>p.split(','))valMyMatchRDD=mapr.map(p=>MyMatch(p(0).toString(),p(1).toString(),p(2).toString(),p(3).toString(),p(4).toString(),p(5)