草庐IT

sparking

全部标签

hadoop - Spark 从 Standalone 切换到 Yarn-Client 需要改变什么?

目前我们有一个程序是一个web服务,接收SQL查询并使用SQLContext来响应。该程序现在处于独立模式,我们将spark.master设置为特定的URL。结构如下:objectSomeAppextendsApp{valconf=newSparkConf().setMaster("spark://10.21.173.181:7077")valsc=newSparkContext(conf)valsqlContext=newSQLContext(sc)while(true){valquery=Listen_to_query()valresponse=sqlContext.sql(que

hadoop - Spark-Sql 不修复 hive 表返回 0 条记录

我正在做以下事情:使用ALTERTABLE...DROPIFEXISTSPARTITION(col='val1')删除配置单元分区hdfsdfs-rm-rpath_to_remove运行创建此分区(col='val1')并在HDFS文件夹下创建avro文件的摄取程序`sqlContext.sql("selectcount(0)fromtable1wherecol='val1'").show返回0直到MSCKREPAIRTABLE。在spark-sql中再次看到数据是否必须执行修复步骤?请指教。 最佳答案 如果是外部表,是的,需要修表

java - HBase Spark 连接选项 [Java]

我正在尝试从运行在YARN上的JavaSpark应用程序访问HBase,但我需要一些关于如何执行此操作的线索。我已经在网上搜索过,但找不到明确的答案。他们在这里:最基本的:如何从Spark与HBase交互?我是否需要在每个worker上设置一个HBase连接(可能通过mapPartition来保存一些连接),或者我可以在创建后从驱动程序中共享它?HBase表对象能否由驱动程序实例化并传送给工作人员,以便对其执行Put和Get操作?(与上一个相关)使用单个Put/Get操作在Spark中与HBase交互是一种好的做法吗?还有其他选择吗?谢谢你的回答 最佳答案

python - 使用 Spark-DataFrame 将 HDFS 保存到 MongoDB

我正在尝试使用PyMongo连接器保存Spark-DataFrame。以下是我的代码,但每次运行代码时都会出现错误:java.io.IOException:NoFileSystemforscheme:mongodb以下是我的代码:importpymongoimportpymongo_sparkpymongo_spark.activate()frompysparkimportSparkContext,SparkConffrompyspark.sqlimportSQLContextconf=SparkConf()sc=SparkContext(conf=conf)sqlContext=SQ

scala - Spark JDBC 与 HIVE - Scala

我在HIVE中有一个示例表(stuends1),我想使用JDBC从Spark连接它(因为Hive在AWS中,而不是在同一个集群中)。我只是尝试使用以下代码defmain(args:Array[String]):Unit={//Class.forName("org.apache.hive.jdbc.HiveDriver").newInstance()valconf=newSparkConf().setAppName("SOMEAPPNAME").setMaster("local[*]")valsc=newSparkContext(conf)valspark=SparkSession.bu

apache-spark - 将 ORC 文件从 spark 写入 hadoop 时出错

我正在一个提供的小型集群上为学校做一个项目(4个节点,1个是namenode和sparkmaster)。我正在进行计算,然后将sparkDataFrame作为ORC文件写入hadoop。然后我得到以下错误:Causedby:org.apache.hadoop.ipc.RemoteException(java.io.IOException):File/user/myfile.orc/_temporary/0/_temporary/attempt_20180521123532_0005_m_000010_3/part-00010-1dd484de-2d33-4a51-8029-737aa9

apache-spark - Hive 查询以查找中间几周的计数

我有如下表格idweekcountA1002010082A1002010099A10020101016A10020101123A10020101230A10020101336A10020101543A10020101750A10020101857A10020101963A10020102370A10020102482A10020102588A10020102695A100201027102在这里,我们可以看到缺少了以下几周:第一个201014丢失了第二个201016不见了第三周缺失201020、201021、201022我的要求是,每当我们有缺失值时,我们都需要显示前一周的计数。在这种

hadoop - 哪个更快?带有 Where 子句的 Spark SQL 或在 Spark SQL 之后在 Dataframe 中使用过滤器

哪个更快?SparkSQL与Where子句或在SparkSQL之后在Dataframe中使用过滤器?喜欢从选项卡1中选择col1、col2,其中col1=val;或者dataframedf=sqlContext.sql(从tab1中选择col1,col2);df.filter("Col1=Val"); 最佳答案 使用explain方法查看物理计划是确定性能的好方法。例如,Zeppelin教程笔记本。sqlContext.sql("selectage,jobfrombank").filter("age=30").explain和sql

hadoop - 如何在 Apache Spark 中使用 Hadoop InputFormats?

我在Hadoop中有一个ImageInputFormat类,它从HDFS读取图像。如何在Spark中使用我的InputFormat?这是我的ImageInputFormat:publicclassImageInputFormatextendsFileInputFormat{@OverridepublicImageRecordReadercreateRecordReader(InputSplitsplit,TaskAttemptContextcontext)throwsIOException,InterruptedException{returnnewImageRecordReader(

hadoop - 使用 pyspark/spark 对大型分布式数据集进行采样

我在hdfs中有一个文件,它分布在集群中的节点上。我正在尝试从此文件中随机抽取10行样本。在pysparkshell中,我使用以下方法将文件读入RDD:>>>textFile=sc.textFile("/user/data/myfiles/*")然后我想简单地做一个示例...Spark最酷的一点是有像takeSample这样的命令,不幸的是我认为我做错了什么,因为下面的命令真的长时间:>>>textFile.takeSample(False,10,12345)所以我尝试在每个节点上创建一个分区,然后指示每个节点使用以下命令对该分区进行采样:>>>textFile.partitionBy