SQLContext_草庐IT

java - Apache Spark 中的持久化选项

您好，我是ApacheSpark的新手，我正在使用Java中的Apachesparksql查询配置单元表。这是我的代码SparkConfsparkConf=newSparkConf().setAppName("Hive").setMaster("local");JavaSparkContextctx=newJavaSparkContext(sparkConf);HiveContextsqlContext=neworg.apache.spark.sql.hive.HiveContext(ctx.sc());org.apache.spark.sql.Row[]results=sqlCont

持久 Apache section sqlContext Tablename java hadoop apache-spark-sql

scala - 使用 SqlContext 连接 Hive 表

我的问题对你们大多数人来说可能听起来很愚蠢，但我需要使用spark-scala在我的配置单元表中执行一些操作，为此我想知道我是否可以使用SqlContext来读取hive表。我知道HiveContext但我想使用SqlContext。最佳答案正如评论中提到的@BinaryNerd:HiveContextextendsSQLContext所以当你使用类型安全的语言(Java)时，你可以这样声明你的SQLContext:SQLContextsqlContext=newHiveContext(sc)

SqlContext scala code section HiveContext hadoop apache-spark hive

scala - 使用 Spark 和 Scala 将数据插入 Hive 表时出现问题

我是Spark的新手。这是我想做的事情。我创建了两个数据流；第一个从文本文件中读取数据并使用hivecontext将其注册为temptable。另一个不断从Kafka获取RDD，对于每个RDD，它创建数据流并将内容注册为temptable。最后，我将这两个临时表连接到一个键上以获得最终结果集。我想将该结果集插入配置单元表中。但我没有想法。试图遵循一些示例，但只在配置单元中创建一个包含一列的表，而且该表也不可读。你能告诉我如何在特定的数据库和配置单元表中插入结果吗？请注意，我可以使用show函数看到连接的结果，因此真正的挑战在于插入配置单元表。下面是我使用的代码。imports.....

时出 scala 34 sqlContext section hadoop apache-spark hivecontext

sql - 斯卡拉 : Spark sqlContext query

我的文件中只有3个事件(第3列)01、02、03。模式是unixTimestamp|id|eventType|date1|date2|date3639393604950|1001|01|2015-05-1210:00:18|||639393604950|1002|01|2015-05-1210:04:18|||639393604950|1003|01|2015-05-1210:05:18|||639393604950|1001|02||2015-05-1210:40:18||639393604950|1001|03|||2015-05-1219:30:18|639393604950|1

斯卡拉斯卡 639393604950 date section sql hadoop apache-spark apache-spark-sql parquet

hadoop - 将kafka的Spark批量流式传输到单个文件中

我正在使用批处理流(maxRatePerPartition10.000)从Kafka流式传输数据。因此，在每批处理中，我处理10.000条kafka消息。在这个批处理运行中，我通过从rdd中创建一个数据帧来处理每条消息。处理后，我使用以下方法将每个处理过的记录保存到同一个文件:dataFrame.write.mode(SaveMode.append)。因此它将所有消息附加到同一个文件。只要它在一个批处理运行中运行就可以。但是在执行下一个批处理运行(处理下10.000条消息)后，它会为下一个10.000条消息创建一个新文件。现在的问题是:每个文件(block)保留文件系统的50mb，但只

流式 hadoop section import SQLContext apache-spark apache-kafka spark-streaming

python - 分析异常 : u"cannot resolve 'name' given input columns: [ list] in sqlContext in spark

我尝试了一个简单的例子:data=sqlContext.read.format("csv").option("header","true").option("inferSchema","true").load("/databricks-datasets/samples/population-vs-price/data_geo.csv")data.cache()#Cachedataforfasterreusedata=data.dropna()#droprowswithmissingvaluesdata=data.select("2014Populationestimate","2015

amp sqlContext 34 data section python apache-spark linear-regression

mysql - 相同的应用程序，不同的数据库 : Entity framework 6. X + MySQL + SQL Server

昨天我做了Web应用程序的迁移(EF5.0=>EF6.0)，该应用程序使用EntityFramework访问MySql和SQLServer数据库(特别是DbContext到特定数据库，而不是任何DbContext到任何类型的数据库)。编译时一切顺利，运行时出现异常:ThedefaultDbConfigurationinstancewasusedbytheEntityFrameworkbeforethe'MySqlEFConfiguration'typewasdiscovered.上下文中的[DbConfigurationType(typeof(MySqlEFConfiguration)

framework amp SqlContext Ms_SqlContext 34 mysql sql-server entity-framework-6

mysql - 相同的应用程序，不同的数据库 : Entity framework 6. X + MySQL + SQL Server

昨天我做了Web应用程序的迁移(EF5.0=>EF6.0)，该应用程序使用EntityFramework访问MySql和SQLServer数据库(特别是DbContext到特定数据库，而不是任何DbContext到任何类型的数据库)。编译时一切顺利，运行时出现异常:ThedefaultDbConfigurationinstancewasusedbytheEntityFrameworkbeforethe'MySqlEFConfiguration'typewasdiscovered.上下文中的[DbConfigurationType(typeof(MySqlEFConfiguration)

framework amp SqlContext Ms_SqlContext 34 mysql sql-server entity-framework-6

python - Spark 可以从 pyspark 访问 Hive 表，但不能从 spark-submit

所以，当从pyspark运行时，我会输入(不指定任何上下文):df_openings_latest=sqlContext.sql('select*fromexperian_int_openings_latest_orc')..它工作正常。但是，当我从spark-submit运行我的脚本时，就像spark-submitscript.py我将以下内容放入frompyspark.sqlimportSQLContextfrompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName('inc_dd_openings')sc=S

spark-submit pyspark code section SQLContext python hadoop apache-spark

python - Spark 可以从 pyspark 访问 Hive 表，但不能从 spark-submit

所以，当从pyspark运行时，我会输入(不指定任何上下文):df_openings_latest=sqlContext.sql('select*fromexperian_int_openings_latest_orc')..它工作正常。但是，当我从spark-submit运行我的脚本时，就像spark-submitscript.py我将以下内容放入frompyspark.sqlimportSQLContextfrompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName('inc_dd_openings')sc=S

spark-submit pyspark code section SQLContext python hadoop apache-spark