草庐IT

SQLContext

全部标签

java - Apache Spark 中的持久化选项

您好,我是ApacheSpark的新手,我正在使用Java中的Apachesparksql查询配置单元表。这是我的代码SparkConfsparkConf=newSparkConf().setAppName("Hive").setMaster("local");JavaSparkContextctx=newJavaSparkContext(sparkConf);HiveContextsqlContext=neworg.apache.spark.sql.hive.HiveContext(ctx.sc());org.apache.spark.sql.Row[]results=sqlCont

scala - 使用 SqlContext 连接 Hive 表

我的问题对你们大多数人来说可能听起来很愚蠢,但我需要使用spark-scala在我的配置单元表中执行一些操作,为此我想知道我是否可以使用SqlContext来读取hive表。我知道HiveContext但我想使用SqlContext。 最佳答案 正如评论中提到的@BinaryNerd:HiveContextextendsSQLContext所以当你使用类型安全的语言(Java)时,你可以这样声明你的SQLContext:SQLContextsqlContext=newHiveContext(sc)

scala - 使用 Spark 和 Scala 将数据插入 Hive 表时出现问题

我是Spark的新手。这是我想做的事情。我创建了两个数据流;第一个从文本文件中读取数据并使用hivecontext将其注册为temptable。另一个不断从Kafka获取RDD,对于每个RDD,它创建数据流并将内容注册为temptable。最后,我将这两个临时表连接到一个键上以获得最终结果集。我想将该结果集插入配置单元表中。但我没有想法。试图遵循一些示例,但只在配置单元中创建一个包含一列的表,而且该表也不可读。你能告诉我如何在特定的数据库和配置单元表中插入结果吗?请注意,我可以使用show函数看到连接的结果,因此真正的挑战在于插入配置单元表。下面是我使用的代码。imports.....

sql - 斯卡拉 : Spark sqlContext query

我的文件中只有3个事件(第3列)01、02、03。模式是unixTimestamp|id|eventType|date1|date2|date3639393604950|1001|01|2015-05-1210:00:18|||639393604950|1002|01|2015-05-1210:04:18|||639393604950|1003|01|2015-05-1210:05:18|||639393604950|1001|02||2015-05-1210:40:18||639393604950|1001|03|||2015-05-1219:30:18|639393604950|1

hadoop - 将kafka的Spark批量流式传输到单个文件中

我正在使用批处理流(maxRatePerPartition10.000)从Kafka流式传输数据。因此,在每批处理中,我处理10.000条kafka消息。在这个批处理运行中,我通过从rdd中创建一个数据帧来处理每条消息。处理后,我使用以下方法将每个处理过的记录保存到同一个文件:dataFrame.write.mode(SaveMode.append)。因此它将所有消息附加到同一个文件。只要它在一个批处理运行中运行就可以。但是在执行下一个批处理运行(处理下10.000条消息)后,它会为下一个10.000条消息创建一个新文件。现在的问题是:每个文件(block)保留文件系统的50mb,但只

python - 分析异常 : u"cannot resolve 'name' given input columns: [ list] in sqlContext in spark

我尝试了一个简单的例子:data=sqlContext.read.format("csv").option("header","true").option("inferSchema","true").load("/databricks-datasets/samples/population-vs-price/data_geo.csv")data.cache()#Cachedataforfasterreusedata=data.dropna()#droprowswithmissingvaluesdata=data.select("2014Populationestimate","2015

mysql - 相同的应用程序,不同的数据库 : Entity framework 6. X + MySQL + SQL Server

昨天我做了Web应用程序的迁移(EF5.0=>EF6.0),该应用程序使用EntityFramework访问MySql和SQLServer数据库(特别是DbContext到特定数据库,而不是任何DbContext到任何类型的数据库)。编译时一切顺利,运行时出现异常:ThedefaultDbConfigurationinstancewasusedbytheEntityFrameworkbeforethe'MySqlEFConfiguration'typewasdiscovered.上下文中的[DbConfigurationType(typeof(MySqlEFConfiguration)

mysql - 相同的应用程序,不同的数据库 : Entity framework 6. X + MySQL + SQL Server

昨天我做了Web应用程序的迁移(EF5.0=>EF6.0),该应用程序使用EntityFramework访问MySql和SQLServer数据库(特别是DbContext到特定数据库,而不是任何DbContext到任何类型的数据库)。编译时一切顺利,运行时出现异常:ThedefaultDbConfigurationinstancewasusedbytheEntityFrameworkbeforethe'MySqlEFConfiguration'typewasdiscovered.上下文中的[DbConfigurationType(typeof(MySqlEFConfiguration)

python - Spark 可以从 pyspark 访问 Hive 表,但不能从 spark-submit

所以,当从pyspark运行时,我会输入(不指定任何上下文):df_openings_latest=sqlContext.sql('select*fromexperian_int_openings_latest_orc')..它工作正常。但是,当我从spark-submit运行我的脚本时,就像spark-submitscript.py我将以下内容放入frompyspark.sqlimportSQLContextfrompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName('inc_dd_openings')sc=S

python - Spark 可以从 pyspark 访问 Hive 表,但不能从 spark-submit

所以,当从pyspark运行时,我会输入(不指定任何上下文):df_openings_latest=sqlContext.sql('select*fromexperian_int_openings_latest_orc')..它工作正常。但是,当我从spark-submit运行我的脚本时,就像spark-submitscript.py我将以下内容放入frompyspark.sqlimportSQLContextfrompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName('inc_dd_openings')sc=S
12