test_hive

jdbc - 汇集 Hive JDBC 连接的最佳实践是什么

我正在使用HiveJDBC驱动程序对我的HDFS数据存储执行类似sql的查询。我一直在尝试使用c3p0来处理连接池。我不太确定这是正确的方法，因为Hive查询有时会花费很长时间，这意味着连接将保持很长时间而不被释放回池中，我正在努力为最大数量想一个正确的设置数字c3p0配置中的连接也是如此。是否有池化配置单元jdbc连接的最佳实践？c3p0？DBCP？MAX_POOL_SIZE怎么样？它应该大于RDB的正常设置吗？最佳答案太好了，所以你提到的线程中的问题实际上是我很久以前问过的:)看看如何在您的用例中使用它会很有趣。但让我告诉您

汇集 jdbc section 长时的 hadoop connection-pooling hive hdfs

hadoop - 使用 hive/sql 和 spark 读取 json 键值

我正在尝试将此json文件读入配置单元表，顶级键即1,2..，此处不一致。{"1":"{\"time\":1421169633384,\"reading1\":130.875969,\"reading2\":227.138275}","2":"{\"time\":1421169646476,\"reading1\":131.240628,\"reading2\":226.810211}","position":0}我的hive表中只需要时间和读数1,2，因为列会忽略位置。我还可以结合使用配置单元查询和sparkmap-reduce代码。感谢您的帮助。更新，这是我正在尝试的valhqlC

hadoop spark reading 34 scala hive apache-spark apache-spark-sql

java - 无法通过 JAVA 连接到 HIVE2

引用Hive2创建了一个简单的java程序来连接到HIVE2服务器(非本地)，并在eclipse的类路径中的上述链接中添加了所有提到的jar，但是当我运行代码时，它会抛出一个错误:09:42:35,580INFOUtils:285-Suppliedauthorities:hdstg-c01-edge-03:2000009:42:35,583INFOUtils:372-Resolvedauthority:hdstg-c01-edge-03:2000009:42:35,656INFOHiveConnection:189-WilltrytoopenclienttransportwithJDB

HIVE2 java org testng hadoop jdbc hive hiveql

python - Hive 和 Spark 窗口函数的数据洗牌

对已经在同一节点上的数据使用Hive窗口函数时，是否会发生数据混洗？具体在下面的例子中，在使用窗口函数之前，数据已经被'City'用Sparkrepartition()函数重新分区，这应该确保城市“A”的所有数据在同一节点上共同本地化(假设一个城市的数据可以适合一个节点)。df=sqlContext.createDataFrame([('A','1',2009,"data1"),('A','1',2015,"data2"),('A','22',2015,"data3"),('A','22',2016,"data4"),('BB','333',2014,"data5"),('BB','3

洗牌 python data 34 Spark hadoop apache-spark hive pyspark

apache-spark - 通过 Spark 加载的表在 Hive 中无法访问

无法从Hive访问通过Spark(pyspark)创建的Hive表。df.write.format("orc").mode("overwrite").saveAsTable("db.table")从Hive访问时出错:Error:java.io.IOException:java.lang.IllegalArgumentException:bucketIdoutofrange:-1(state=,code=0)在Hive中成功创建表，并能够在spark中读回该表。表元数据可访问(在Hive中)，表中的数据文件(在hdfs中)目录。Hive表的TBLPROPERTIES是:'bucketi

apache-spark apache Hive section hadoop pyspark hortonworks-data-platform

hadoop - 免费数据仓库——Infobright、Hadoop/Hive 或什么？

我需要存储大量的小型数据对象(每月数百万行)。一旦他们被保存，他们就不会改变。我需要:安全地存储它们使用它们进行分析(主要是面向时间的)偶尔检索一些原始数据如果能和JasperReports或者BIRT一起使用就好了我的第一个镜头是InfobrightCommunity-只是一个面向列的MySQL只读存储机制另一方面，人们说NoSQL方法可能会更好。Hadoop+Hive看起来很有前途，但是文档看起来很差，版本号还不到1.0。我听说过Hypertable、Pentaho、MongoDB....您有什么建议吗？(是的，我在这里找到了一些主题，但那是一两年前的事了)编辑:其他解决方案:Mo

mdash Infobright section li InfiniDB hadoop data-warehouse

hadoop - 如何在将数据加载到 Hive 时指定输入文件格式

我正在尝试将数据从Gzip存档加载到Hive表中，但我的gzip文件具有扩展名，例如:apache_log.gz_localhost当我指定这些文件所在的HDFS目录位置时，Hive无法识别GZip压缩文件，因为它正在搜索扩展名为.gz的文件。是否可以在将数据加载到Hive时定义文件类型？类似(伪)的东西:setinput.format=gzip;LOADDATAINPATH/tmp/logs/INTOTABLEapache_logs;这是我创建表的SQL:CREATEEXTERNALTABLEaccess_logs(`ip`STRING,`time_local`STRING,`met

何在 hadoop code STRING section hive

java - 如何使用MRUnit Test做Mapper测试？

我是Hadoop新手。我想使用MRUnitTest单独测试我的映射器部分。我已经尝试了很多。但我不知道如何解决以下错误-“MapDriver类型中的方法setMapper(Mapper)不适用于参数(Recommand.IdIndexMapper)”。我正在使用Hadoop-1.2.1、EclipseJuno、mrunit-1.0.0-hadoop1.jar、junit-4.11、mockito-all-1.9.5.jar。下面是我的代码，我的映射器类:类名:推荐，publicstaticclassIdIndexMapperextendsMapReduceBaseimplementsM

MRUnit Mapper apache hadoop MapDriver java eclipse hadoop-streaming

hadoop - Hive collect_list() 不收集 NULL 值

我正在尝试收集包含NULL的列以及该列中的一些值...但是collect_list忽略了NULL并仅收集其中具有值(value)的那些。有没有一种方法可以检索NULL以及其他值？SELECTcol1,col2,collect_list(col3)ascol3FROM(SELECT*FROMtable_1ORDERBYcol1,col2,col3)GROUPBYcol1,col2;实际的col3值0.9NULLNULL0.70.6结果col3值[0.9,0.7,0.6]我希望在应用collect_list之后有一个看起来像这样的配置单元解决方案[0.9,NULL,NULL,0.7,0.6

collect_list collect code col NULL hadoop hive hive-udf

hadoop - 在 Hive 中使用保留字

我正在将数据迁移到Hive1.2，我意识到，默认情况下，我不再允许使用保留字作为列名。如果要使用保留字，则需要明确设置以下设置:hive.support.sql11.reserved.keywords=false我的问题是，更改此默认值是否会导致任何意外问题？在更改之前我应该注意什么问题？顺便说一句，这个更改记录在这张票中:https://issues.apache.org/jira/browse/HIVE-6617 最佳答案此配置属性hive.support.sql11.reserved.keywords是在Hive1.2.

hadoop Hive section noreferrer https hiveql hadoop2 hive-configuration

136 137 138139140 141 142