草庐IT

sparking

全部标签

apache-spark - 如何使用 APPLICATION ID 提交 YARN 作业

我想知道YARNCLI是否提供了使用上一次执行生成的APPLICATION_ID重新提交YARN应用程序的可能性。例子:/opt/mapr/spark/spark-2.1.0/bin/spark-submit--num-executors5--executor-memory2G--executor-cores2--masteryarn--deploy-modecluster--files/opt/mapr/hive/hive-2.1/conf/hive-site.xml--classcom.cisco.sdp.cdx.processing.DenormSchedulerJSONDeno

apache-spark - Hadoop - Elasticsearch - Spark 版本兼容性

之前,我有5.3.0版的Kibana/Elasticsearch。在我的java项目中,依赖项是:hbase-客户端/服务器…1.2.1hadoop-hdfs/common...2.5.1Elasticsearch-hadoop5.3.0星火(spark-core_2.11)1.3.0整体功能正常。我想在6.3.1版本中更新Kibana/ES。兼容哪些版本的Hadoop/spark?我找不到兼容性矩阵...hbase-客户端/服务器…?hadoop-hdfs/common…?elasticsearch-hadoop6.3.1?Spark(spark-core_2.11)1.6.1?谢谢

scala - org.apache.spark.sql.AnalysisException : Reference 'dattim' is ambiguous, 可能是 : dattim#6, event_dattim#55.;

我有一个连接的数据帧,其中包含一个where子句,表明dataStampe在一个范围内:valstartTime=newTimestamp(NewDate.atStartOfDay.toEpochSecond(ZoneOffset.UTC)*1000)valendTime=newTimestamp(NewDate.plusDays(1).atStartOfDay.toEpochSecond(ZoneOffset.UTC)*1000)valjoinedTable=table1.join(table2,table1("date")===table1("key")&&....).where(

python - Spark 读取文件不包含模式

df=sc.textFile("hdfs://n21-01-03/algo/ml_platform/downsample_data/nl/20180828/*/part-*.gz")我用这段代码读取路径中的所有gz文件hdfs://n21-01-03/algo/ml_platform/downsample_data/nl/20180828/这个路径下有24个文件,从00-23。但是如何读取文件排除23文件?drwxr-xr-x-algoalgo02018-08-2923:07hdfs://n21-01-03/algo/ml_platform/downsample_data/nl/201

apache-spark - 无法使用 Spark 合并小型 ORC 文件

我有一个包含大量小文件的外部ORC表,这些小文件每天都来自源。我需要将这些文件合并成更大的文件。我尝试将ORC文件加载到spark并使用覆盖方法保存valfileName="/user/db/table_data/"//Thistablecontainsmultiplepartitionondatecolumnwithsmalldatafiles.valdf=hiveContext.read.format("orc").load(fileName)df.repartition(1).write.mode(SaveMode.Overwrite).partitionBy("date").o

apache-spark - 在 spark 2.2.0 中查询 Hive 表

我有一个包含1900列的avro文件格式的配置单元表(比如表1)。当我在配置单元中查询表时-我能够获取数据但是当我在sparksql中查询同一个表时,我得到Metastore客户端丢失连接。正在尝试重新连接我还查询了另一个具有130列的avro文件格式的hive表(比如table2),它正在hive和spark中获取数据。我观察到的是我可以在table2的hdfs位置看到数据,但在table1hdfs位置看不到任何数据(但当我仅在hive中查询时它正在提取数据) 最佳答案 Split告诉您MR作业中映射器的数量。它不会向您显示采集数

apache-spark - Pyspark 在 yarn 集群模式下将文件写入本地

我正在尝试运行我的pyspark代码。我的目标目录是本地目录。我提交spark-submit命令的用户是super用户,拥有从hdfs读取文件并将文件写入本地的所有权限。作业正在运行,没有任何错误,但没有创建输出目录或文件。我在我的spark代码中将HADOOP_USER_NAME设置为super用户以避免权限问题。谁能帮忙 最佳答案 如果您在YARN集群模式下运行,那么YARNApplicationMaster实际上是在一个节点上运行,因此将在节点本地写出。如果你找到它是哪个节点,那么你应该在那里找到你的输出目录和文件。

scala - 从 Spark 中的多个 S3 存储桶中读取

我有一个在Yarn集群上运行的spark应用程序,它需要从S3兼容对象存储上的多个存储桶中读取文件,每个存储桶都有自己的一组凭据。根据hadoopdocumentation应该可以通过设置spark.hadoop.fs.s3a.bucket..access.key=形式的配置来为多个存储桶指定凭证在事件SparkSession但这在实践中对我不起作用。根据文档,我认为应该可行的示例:importorg.apache.spark.sql.{SaveMode,SparkSession}caseclassBucketCredential(bucketName:String,accessKey

hadoop - 使用 Spark 通过 Cloudera Hadoop 从 Cassandra 读取数据

范围是从HDFS读取,在Spark中过滤并将结果写入Cassandra。我正在使用SBT打包和运行。问题来了:从HDFS读取到Spark需要在我的sbt构建文件中添加以下行。libraryDependencies+="org.apache.hadoop"%"hadoop-client"%"2.0.0-cdh4.5.0"但是,通过读写CassandravalcasRdd=sc.newAPIHadoopRDD(job.getConfiguration(),classOf[ColumnFamilyInputFormat],classOf[ByteBuffer],classOf[SortedM

java - 远程运行 spark 作业

正在尝试运行启动Spark作业。Spark作为包裹安装在ClouderaHadoop中。如何使用JavaAPI远程启动Spark作业? 最佳答案 要通过代码以编程方式提交Spark应用程序,而不是使用提交脚本,您需要创建一个SparkContext。这是JavaAPISparkContext要进一步配置上下文,您需要为其提供一个SparkConf,其值与配置页面上的条目相匹配:Configuration您的集群需要一份您要在其类路径中提交给它的代码的副本。有多种方法可以做到这一点,您可以在集群上手动管理它,或者使用setJars方法