$hive

shell - 如何将一个目录中的多个CSV表递归加载到Hive中

我已经创建了一个具有指定模式但没有数据的外部Hive表，比如表A。现在假设我在HDFS目录中有CSV文件，按以下方式组织:20150718/dir1/dir2/file1.csv20150718/dir1/dir2/file2.csv...................20150718/dir1/dir2/..../dirN/file10000.csv换句话说，这些文件可能在目录20150718中的多个不同级别的目录中。如何在一个Hive/shell命令中加载这些CSV文件？另一个注意事项是我计划随着时间的推移根据日期创建分区，那么我应该如何进行？仍然是新的Hive用户，非常感谢您的

hadoop - Hive - Hbase 集成事务更新与时间戳

我是hadoop和大数据的新手，这几天只是想弄清楚将我的数据存储移动到hbase的可能性，我遇到了一个问题，你们中的一些人可能会帮助我。所以它就像，我有一个hbase表"hbase_testTable"，其列族为:"ColFam1"。我已将"ColFam1"的版本设置为10，因为我必须维护此列系列的最多10次更新的历史记录。哪个工作正常。当我尝试通过具有显式时间戳值的hbaseshell添加新行时，它工作正常。基本上我想使用时间戳作为我的版本控制。所以我指定时间戳为put'hbase_testTable''1001','ColFam1:q1','1000$',3'3'是我的版本。一切正

hadoop Hbase strong section hiveql

sql - Hive 查询执行问题

执行hive查询时，这里是输出，想知道“Map1”和“Reducer2”，1和2是什么意思？Map1:21/27Reducer2:0/1Map1:22/27Reducer2:0/1Map1:23/27Reducer2:0/1Map1:24/27Reducer2:0/1Map1:26/27Reducer2:0/1Map1:27/27Reducer2:0/1Map1:27/27Reducer2:1/1提前致谢，林最佳答案 Hive查询被MapReduce框架解释为Map-Reduce任务。该任务根据输入获得分配的映射器和缩减器。当任务

Hive sql section Reducer Map hadoop

hadoop - 如何按字符解析Hive中的数据&

数据是这样的:fsid=4778&awid=5&url=http%3a%2f%2fwww.abcd.com%2f2-03&pfhid=-356847895&event=Login&Incorrect=Falsefsid=3478&awid=5&url=http%3a%2f%2fwww.abcd.com%2f2-03&pfhid=-356847895&event=Login&userid=10598&Incorrect=False我想看看我一共有多少fsid，一共有多少userid，很多记录都没有userid。我正在使用Hive，也许这不是最好的方法，如果这是一个平面文本文件，我知道如何

amp hadoop section userid amazon-web-services mapreduce hive

hadoop - Hive - 移动 HDFS 上的现有仓库位置

我有一个我们已经使用了一段时间的HDP集群和Hive中充满数据的现有数据库和表我们决定将hive的数据仓库在HDFS上的位置从/apps/hive/warehouse更改为自定义目录我在hive-site.xml中更改了hive.metastore.warehouse.dir并且在我们创建新的dbs/tables时考虑了更改然而，现有内容仍在/apps/hive/warehouse中。有没有办法在不破坏Hive或重新导入所有内容的情况下移动它？最佳答案过去做过这样的事情。您需要进行hack操作并直接更新HIVE元存储中的值:使用

hadoop Hive section code hdfs data-warehouse hortonworks-data-platform

hadoop - 预期 org.apache.hadoop.hive.ql.io.orc.OrcStruct，收到 org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow

当我读取orcfile并将数据写入orcfile时，出现以下错误:expectedorg.apache.hadoop.hive.ql.io.orc.OrcStruct,receivedorg.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow是不是MapoutputValue.class不对？thisismyprogram:packagecom.baifendian.basicPlatform.hive.ql.io.orc;importjava.io.IOException;importjava.util.List;importjava.

hadoop apache import mapreduce hive orc

hadoop - Hive "ANALYZE TABLE"如何从java执行

我需要计算配置单元表中的行数，为此我正在使用查询:ANALYZETABLEp_7COMPUTESTATISTICSnoscan我想通过java获取结果，我正在尝试下面的代码，没有运气。我得到的错误是:Exceptioninthread"main"java.sql.SQLException:Thequerydidnotgeneratearesultset!atorg.apache.hive.jdbc.HiveStatement.executeQuery(HiveStatement.java:393)atHiveJdbcClient.main(HiveJdbcClient.java:22)

amp ANALYZE code section 34 hadoop jdbc hive

sql - HIVE SQL 创建语句

CREATETABLEIFNOTEXISTSuser.name_visits(date1TIMESTAMP,MVString,visits_by_MVint)COMMENT‘visits_at_MV’ROWFORMATDELIMITEDFIELDSTERMINATEDBY‘\t’LINESTERMINATEDBY‘\n’;BY附近报错最佳答案下面的查询对我有用..如果不存在则创建表user.name_visits(日期1时间戳，MV字符串，visits_by_MVINT)评论'visits_at_MV'行格式分隔由'\t'终止的

HIVE sql section visits br hadoop

Hadoop 2.7、Spark、Hive、JasperReports、Sqoop - 架构

首先，这不是一个寻求帮助以逐步部署以下组件的问题。我要问的是关于应该如何设计架构的建议。我打算做的是使用现有数据开发一个报告平台。以下是我通过研究收集的数据。我有一个包含大量记录的现有RDBMS。所以我正在使用Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。我所知道的是部署了一个Hadoop2集群，如下所示192.168.X.A-名称节点192.168.X.B-第二个名称节点192.168.X.C-从站1192.168.X.D-从站2192.

JasperReports Hadoop Spark Hive li apache-spark jasper-reports hadoop2

hadoop - Pig 或 Hive 用于文件操作

我有一个文件组成如下:&009:6534KKll90JJKK87LLOO%(..)?.I$£.....&013:3536KKll90TTYY87LLPP%%(.9)?'&025:6655KKll88ZZYY87MMQQ%&(.9)?%%??-_'我想获取一个文件:&009:6534KKll90JJKK87LLOO%(..)?.I$£.....&013:3536KKll90TTYY87LLPP%%(.9)?'.......&025:6655KKll88ZZYY87MMQQ%&(.9)?%%??-_'.......我使用hortonworks，我想知道使用Hive还是PIG更好，我如何使用

hadoop Hive section code amp apache-pig bigdata hortonworks-data-platform

21 22 232425 26 27