SQL：DML、DQL、DCL

sql-server - 我们可以使用 PostgreSQL 和 PolyBase 来连接 Hadoop 吗？

微软终于进军大数据领域，推出了PolyBase接口(interface)来连接Hadoop，让现有的MSSQLServer用户可以利用Hadoop生态系统存储大量数据。这里我有1个问题，我们可以使用postgreSQL而不是MSSQLServer来使用最近随MSSQLServer2016发布的PolyBase接口(interface)连接Hadoop。我知道还有很多其他方法可以做到这一点，但想特别了解如何使用PolyBase(PDW)。实际上，我的公司总是欢迎微软作为基于其平台的大部分应用程序参与的解决方案。我知道使用PolyBase并行数据仓库是可能的，但需要一些提示才能做到这一点。

hive sql，年月日时分秒格式的数据，以15分钟为时间段，找出每一条数据所在时间段的上下界限时间值（15分钟分区）

获取当前的年月日时分秒selectdate_format(current_timestamp(),'yyyy-MM-ddHH:mm:ss')date_format(时间字段,‘yyyy-MM-ddHH:mm:ss’)将时间字段转为2023-10-1818:14:16这种格式在指定时间上增加15分钟selectfrom_unixtime(unix_timestamp(current_timestamp(),'yyyy-MM-ddHH:mm:ss')+(15*60),'yyyy-MM-ddHH:mm:ss')unix_timestamp：获取当前时间的UNIX时间戳（从1970-01-0100:0

时间段时间 span class token hive sql

scala - 尝试从 UDF 执行 spark sql 查询

我正在尝试使用scala在spark框架中编写一个内联函数，它将接受一个字符串输入，执行一个sql语句并返回一个字符串值valtestfunc:(String=>String)=(arg1:String)=>{valk=sqlContext.sql("""selectc_codefromr_c_tblwherex_nm="something"""")k.head().getString(0)}我正在将此Scala函数注册为UDFvaltestFunc_test=udf(testFunc)我在配置单元表上有一个数据框valdf=sqlContext.table("some_table")

scala spark code section pre apache-spark dataframe hadoop apache-spark-sql

sql - 如何检查 HIVE 中 having 子句的顺序？

我希望能够编写一个查询，告诉我哪些数据组没有序列中的每个数字。例如，我的table是这样的:Columns:sequencegroup10ADM1ADM0GDM2GDM3GDM0WJK而且，我想知道group1中的哪些唯一值包含从0开始并计数的所有数字。因此，在这种情况下，ADM和WJK将被返回，但GDM不会。GDM不会，因为它从0、2、3开始并跳过1。我如何在HIVE中编写查询来告诉我列group1中的哪些唯一值依次包含所有整数？最佳答案 SELECTgroup1FROMTableNameGROUPBYgroup1HAVINGC

having HIVE code section group1 sql hadoop

scala - 将转换从 hive sql 查询移动到 Spark

valtemp=sqlContext.sql(s"SELECTA,B,C,(CASEWHEN(D)in(1,2,3)THEN((E)+0.000)/60ELSE0END)ASZfromTEST.TEST_TABLE")valtemp1=temp.map({temp=>((temp.getShort(0),temp.getString(1)),(USAGE_TEMP.getDouble(2),USAGE_TEMP.getDouble(3)))}).reduceByKey((x,y)=>((x._1+y._1),(x._2+y._2)))我希望在scala中完成转换，而不是上面在配置单

scala Spark temp section getDouble hadoop apache-spark hive

azure - 从 Azure SQL 数据仓库查询 Hadoop ORC 表

我在从AzureSQL数据仓库读取在AzureHDInsight中创建的ORC表时遇到问题。请参阅下面的顺序来设置HDInsight实例以及AzureSQL数据仓库。我创建了一个文本文件(Sales.txt)，内容如下20150614|1|10.5020150618|1|100.7520150924|1|89.7520160214|2|10456.9020150922|3|34.7020151021|3|43.7020151225|3|65.9020151231|3|87.5020160101|4|1349.4020160512|4|3982.4020150608|5|398.9020

Hadoop azure code li Sales orc azure-sqldw

sql - 对分组列 Hive 的操作

在Hive表中，我有它们的实际销售额和预测。所以数据看起来像:itemdatesalesDolsalesUnitpredictionU11/1/20165.9910.911/1/20165.4910.912/1/20165.9910.8413/1/20166.0410.92为了计算平均价格，我这样做:createtabledata1asselectitem,date,predictionUfromdataJOIN(selectsum(salesDol)astotDol,sum(salesUnit)astotUnitfromdata);所以在每一行中我都有totDol和totUnit。现

Hive sql code section totDol hadoop

sql - 获取Hive中每个单词的唯一字数

我有如下表格，从表名中选择*；IDsentence1Thisisasentence2Thismightbeatest3America4Thisthis我想编写一个查询，将句子拆分成单词，并按降序获取单词数。我想要一个类似的输出，wordcountUnique(ids)This43a22might11...其中count是单词在列中出现的次数，Unique(ids)是使用该单词的用户数。我在想我们可以用什么方式编写查询来做到这一点？有人可以帮我在hive中做这件事吗？谢谢最佳答案侧面Viewhttps://cwiki.apache

单词 Hive section code sql hadoop

sql - 如何删除配置单元中特殊字符后的值

我有一个列状态为的配置单元表**state**taxes,TXWashington,WANewYork,NYNewJersey,NJ现在我想把状态列分开，我想把它写在新的列中**state****code**taxesTXWashingtonWANewYorkNYNewJerseyNJ 最佳答案 selectsplit(state,',')[0]asstate,ltrim(split(state,',')[1])ascodefrommytable+------------+------+|state|code|+----------

配置单 sql section code state hadoop hive hiveql

r - 如何在SQL Server上为hadoop远程执行正常的R功能？

如何在不使用Microsoftrx函数的情况下在SQLServer上执行常规R代码？我认为ComputeContext“RxInSqlServer”不正确吗？但是我找不到关于其他ComputeContext-options的良好信息。此声明有可能吗？rxSetComputeContext(ComputeContext)还是只能使用它来执行rx功能？另一个选择是在RStudio或VisualStudio中设置服务器连接吗？我的问题是:我想通过SQLServer上的ODBC-Connection分析hadoop的数据，所以我想使用远程SQLServer的性能，而不是SQLServer中的数

何在 Server br 自定 r hadoop rhadoop microsoft-r

267 268 269270271 272 273