HIVE

mysql - hadoop会比mySQL快吗

我正面临一个大数据问题。我有一个大型MySQL(Percona)表，它每天连接一次并产生大约250亿行。我试图将所有行组合在一起并聚合以产生结果。查询是一个简单的连接:--Thisqueryproducesabout25billionrowsSELECTt1.colAas'varchar(45)_1',t2.colBas'varchar(45)_2',count(*)FROMtablet1JOINtablet2ont1.date=t2.dateGROUPBYt1.colA,t2.colB问题是这个过程需要一个多星期才能完成。我开始阅读有关hadoop的文章，想知道mapreduce功能

hadoop - Presto 是否支持 HDP2 高可用性配置？

我已经在2个名称节点上设置了5个数据节点集群，这些名称节点配置为在我的Hadoop2.6.0集群中实现高可用性。我的Presto配置基于1个协调器节点和3个工作节点。当我的集群是单个名称节点集群时，我一直在使用hivemetastore从presto进行查询。但是现在在为HA配置之后，我在使用presto访问我的hdfs时遇到了问题，如下所示:Query20150320_120620_00004_vgragfailed:java.net.UnknownHostException:mycluster其中mycluster是两个名称节点(事件和备用)的组合。谁能帮我解决这个错误。或者至少有

hadoop Presto section code hive high-availability

hadoop - 为 HCatalog 配置 HP Vertica 时找不到 hcatUtil

我正在尝试为HCatalog配置HPVertica:ConfiguringHPVerticaforHCatalog但是我在我的Vertica集群上找不到hcatUtil。我在哪里可以获得这个实用程序？最佳答案作为thisanswer说，它在/opt/vertica/packages/hcat/tools中，从版本7.1.1开始。但您可能需要一些进一步的信息:您需要在您的Hadoop集群中的一个节点上运行hcatUtil；该实用程序收集了Vertica也需要访问的Hadoop库，因此您需要让这些库可用。假设您没有将Vertica节

HCatalog hcatUtil section Vertica noreferrer hadoop hive

java - Hadoop的Hive/Pig、HDFS和MapReduce的关系

我对ApacheHive的理解是它是一个类似SQL的工具层，用于查询Hadoop集群。我的理解ApachePig是它是一种用于查询Hadoop集群的过程语言。因此，如果我的理解是正确的，Hive和Pig似乎是解决同一问题的两种不同方法。但是，我的问题是，我不理解他们首先要解决的问题!假设我们有一个DB(关系型、NoSQL，无关紧要)将数据馈送到HDFS，以便可以针对该输入数据运行特定的MapReduce作业:我对Hive/Pig正在查询的系统感到困惑!他们在查询数据库吗？他们是否查询存储在HDFS上DataNode中的原始输入数据？他们是否正在运行一些临时的、即时的MR作业并报告他们的

MapReduce Hadoop section Hive HDFS java apache-pig

java - Hive 添加文件/jar 说不存在

所以我想尝试使用HiveMAP和REDUCE自定义mapperreducer查询。我已经编写自定义映射器和缩减器并将其导出到jar文件，并尝试从HiveCLI添加它。无论我在哪里复制jar，我都会收到“不存在”错误。我尝试了以下方法。我将文件复制到/usr/local/hive/lib/、/usr/local/hive/conf/和/tmp/然后在hdfs中我也将它复制到/、/user/hive/和/user/hive/仓库/我尝试提供完整路径然后我得到URL语法异常hive>addjar'hdfs://srimanthpc:9000/SpaceTravel.jar';Illegalc

java Hive code SpaceTravel jar hadoop hiveql

scala - 为什么创建 HiveContext 失败并返回 "java.lang.OutOfMemoryError: PermGen space"？

我正在使用SparkSQL解析JSON，它工作得非常好，它找到了模式，我正在用它进行查询。现在我需要“扁平化”JSON，并且我在论坛上读到最好的方法是使用Hive(横向View)爆炸，所以我尝试对它做同样的事情。但我什至无法创建上下文...Spark给我一个错误，我找不到如何修复它。正如我所说，此时我只是想创建上下文:println("CreateSparkContext:")valsc=newSparkContext("local","Simple","$SPARK_HOME")println("CreateHivecontext:")valhiveContext=newHiveCo

OutOfMemoryError HiveContext apache 34 scala hadoop apache-spark hive

java - 在配置单元中创建表异常？

我已经安装了Hive，但是当我编写命令来创建表时“CREATETABLEfoo(idint,msgSTRING);”。我抛出异常“清理操作已完成FAILED:Errorinmetadata:javax.jdo.JDOFatalDataStoreException:Failedtocreatedatabase'metastore_db',seethenextexceptionfordetails.NestedThrowables:java.sql.SQLException:Failedtocreatedatabase'metastore_db',seethenextexceptionfo

中创配置单 metastore hive section java apache hadoop apache-zookeeper

hadoop - Mahout Hive 集成

我想将基于Hadoop的Mahout推荐系统与ApacheHive相结合。这样我生成的推荐将直接存储到我的Hive表中。有人知道这方面的类似教程吗？最佳答案基于Hadoop的Mahout推荐器可以将结果直接存储在HDFS中。Hive还允许您使用CREATEEXTERNALTABLErecommend_table在任何数据之上创建表模式它还指定了数据的位置(LOCATION'/home/admin/userdata';)。这样您就可以确保在将新数据写入该位置时-/home/admin/userdata那么它已经对Hive可用并且可

hadoop Mahout section code Hive

hadoop - Hive:创建表和分区依据

我有一个加载数据的表，如下所示:createtablexyzlogTable(dateCstring,hoursstring,minutesstring,secondsstring,TimeTakenstring,Methodstring,UriQuerystring,ProtocolStatusstring)rowformatserde'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'withserdeproperties("input.regex"="(\\S+)\\t(\\d+):(\\d+):(\\d+)\\t(\\S+)\\t

hadoop Hive string section code

hadoop - 在配置单元中动态删除分区

我在配置单元中有两个表，都由表示时间戳的字符串分区(我使用字符串而不是时间戳，因为我使用的是ClouderaImpala中的表，它不支持按时间戳分区的表).表用于存储特定时间片内的大量数据。第一个表包含更高时间粒度的最新数据，假设1分钟时间片，第二个表包含较低粒度的较旧数据，假设这里为1小时时间片。所以我有一个查询，它汇总了1分钟时间片的特定时间之前的数据，这样我就有了1小时时间片的数据，并将它插入到我的表中，时间为1小时切片。创建1小时时间片后，我想删除新的1小时时间片中包含的所有1分钟时间片。而且由于该表是按代表时间的字符串进行分区的，所以我可以删除相应的分区。并了解我的实际问题:

配置单 hadoop section 的 hive hiveql

113 114 115116117 118 119