sparking

hadoop - Spark 从 Standalone 切换到 Yarn-Client 需要改变什么？

目前我们有一个程序是一个web服务，接收SQL查询并使用SQLContext来响应。该程序现在处于独立模式，我们将spark.master设置为特定的URL。结构如下:objectSomeAppextendsApp{valconf=newSparkConf().setMaster("spark://10.21.173.181:7077")valsc=newSparkContext(conf)valsqlContext=newSQLContext(sc)while(true){valquery=Listen_to_query()valresponse=sqlContext.sql(que

hadoop - Spark-Sql 不修复 hive 表返回 0 条记录

我正在做以下事情:使用ALTERTABLE...DROPIFEXISTSPARTITION(col='val1')删除配置单元分区hdfsdfs-rm-rpath_to_remove运行创建此分区(col='val1')并在HDFS文件夹下创建avro文件的摄取程序`sqlContext.sql("selectcount(0)fromtable1wherecol='val1'").show返回0直到MSCKREPAIRTABLE。在spark-sql中再次看到数据是否必须执行修复步骤？请指教。最佳答案如果是外部表，是的，需要修表

不修 Spark-Sql code section li hadoop apache-spark hive

java - HBase Spark 连接选项 [Java]

我正在尝试从运行在YARN上的JavaSpark应用程序访问HBase，但我需要一些关于如何执行此操作的线索。我已经在网上搜索过，但找不到明确的答案。他们在这里:最基本的:如何从Spark与HBase交互？我是否需要在每个worker上设置一个HBase连接(可能通过mapPartition来保存一些连接)，或者我可以在创建后从驱动程序中共享它？HBase表对象能否由驱动程序实例化并传送给工作人员，以便对其执行Put和Get操作？(与上一个相关)使用单个Put/Get操作在Spark中与HBase交互是一种好的做法吗？还有其他选择吗？谢谢你的回答最佳答案

HBase Spark 34 col section java hadoop apache-spark database-connection

python - 使用 Spark-DataFrame 将 HDFS 保存到 MongoDB

我正在尝试使用PyMongo连接器保存Spark-DataFrame。以下是我的代码，但每次运行代码时都会出现错误:java.io.IOException:NoFileSystemforscheme:mongodb以下是我的代码:importpymongoimportpymongo_sparkpymongo_spark.activate()frompysparkimportSparkContext,SparkConffrompyspark.sqlimportSQLContextconf=SparkConf()sc=SparkContext(conf=conf)sqlContext=SQ

Spark-DataFrame DataFrame noreferrer mongodb noopener python csv hadoop apache-spark

scala - Spark JDBC 与 HIVE - Scala

我在HIVE中有一个示例表(stuends1)，我想使用JDBC从Spark连接它(因为Hive在AWS中，而不是在同一个集群中)。我只是尝试使用以下代码defmain(args:Array[String]):Unit={//Class.forName("org.apache.hive.jdbc.HiveDriver").newInstance()valconf=newSparkConf().setAppName("SOMEAPPNAME").setMaster("local[*]")valsc=newSparkContext(conf)valspark=SparkSession.bu

scala Spark 34 option hadoop apache-spark hive

apache-spark - 将 ORC 文件从 spark 写入 hadoop 时出错

我正在一个提供的小型集群上为学校做一个项目(4个节点，1个是namenode和sparkmaster)。我正在进行计算，然后将sparkDataFrame作为ORC文件写入hadoop。然后我得到以下错误:Causedby:org.apache.hadoop.ipc.RemoteException(java.io.IOException):File/user/myfile.orc/_temporary/0/_temporary/attempt_20180521123532_0005_m_000010_3/part-00010-1dd484de-2d33-4a51-8029-737aa9

时出 spark section code Remaining apache-spark hadoop orc

apache-spark - Hive 查询以查找中间几周的计数

我有如下表格idweekcountA1002010082A1002010099A10020101016A10020101123A10020101230A10020101336A10020101543A10020101750A10020101857A10020101963A10020102370A10020102482A10020102588A10020102695A100201027102在这里，我们可以看到缺少了以下几周:第一个201014丢失了第二个201016不见了第三周缺失201020、201021、201022我的要求是，每当我们有缺失值时，我们都需要显示前一周的计数。在这种

apache-spark apache 100 A100 code hadoop hive pyspark apache-spark-sql

hadoop - 哪个更快？带有 Where 子句的 Spark SQL 或在 Spark SQL 之后在 Dataframe 中使用过滤器

哪个更快？SparkSQL与Where子句或在SparkSQL之后在Dataframe中使用过滤器？喜欢从选项卡1中选择col1、col2，其中col1=val；或者dataframedf=sqlContext.sql(从tab1中选择col1,col2);df.filter("Col1=Val"); 最佳答案使用explain方法查看物理计划是确定性能的好方法。例如，Zeppelin教程笔记本。sqlContext.sql("selectage,jobfrombank").filter("age=30").explain和sql

Spark SQL section code age hadoop apache-spark

hadoop - 如何在 Apache Spark 中使用 Hadoop InputFormats？

我在Hadoop中有一个ImageInputFormat类，它从HDFS读取图像。如何在Spark中使用我的InputFormat？这是我的ImageInputFormat:publicclassImageInputFormatextendsFileInputFormat{@OverridepublicImageRecordReadercreateRecordReader(InputSplitsplit,TaskAttemptContextcontext)throwsIOException,InterruptedException{returnnewImageRecordReader(

何在 InputFormats section code ImageInputFormat hadoop hdfs apache-spark

hadoop - 使用 pyspark/spark 对大型分布式数据集进行采样

我在hdfs中有一个文件，它分布在集群中的节点上。我正在尝试从此文件中随机抽取10行样本。在pysparkshell中，我使用以下方法将文件读入RDD:>>>textFile=sc.textFile("/user/data/myfiles/*")然后我想简单地做一个示例...Spark最酷的一点是有像takeSample这样的命令，不幸的是我认为我做错了什么，因为下面的命令真的长时间:>>>textFile.takeSample(False,10,12345)所以我尝试在每个节点上创建一个分区，然后指示每个节点使用以下命令对该分区进行采样:>>>textFile.partitionBy

pyspark 大型 code section spark hadoop apache-spark

164 165 166167168 169 170