HIVE

hadoop - 无法确定 Hadoop 版本信息

我已经在ubuntu上安装了hadoop，它运行良好。ubuntu:/home/hduser/hive-0.10.0-cdh4.3.1$jps2702DataNode3101ResourceManager4879Jps2948SecondaryNameNode3306NodeManagerhadoop_version=Hadoop2.0.0-cdh4.3.0然后我从apachetarballs安装了hive(hivversion-hive-0.10.0)并尝试运行bin/hive。但是我遇到以下错误:无法确定Hadoop版本信息。hadoop版本返回:/home/hduser/hado

hadoop - Hive 表导出优化

我希望优化或减少以下工作流程中的步骤数。我有一个名为sayLogs的Hive表。我应用一些自定义udf来获取转换后的日志。我将转换后的日志创建为一个表格，类似CREATETABLEtransform_logsROWFORMATDELIMITEDFIELDSTERMINATEDBY','LINESTERMINATEDBY'\n'ASSELECTnonsafehash(visitorid),nonsafehash(url),actionFROMlogs然后我做./bin/hadoopdfs-cat/user/hive/warehouse/transform_logs/\*>transfor

hadoop Hive code section transform_logs

hadoop - 热点使用hive插入Cassandra

使用EC2datastaxami评估DSE3.1.3Cassandra.测试设置5xm1.xlarge在一次测试中:4vcpus，15G，4x420G实例店铺。另一个5xhi1.4xlarge:16vcpus，60G，2x1TBSSD实例存储。数据5000多个apache日志文件，约60GB，60MM行。工作流程通过dsehadoopfs-put加载到CFS使用RegexSerDe从CFS加载到Hive。通过键空间日志中的CQL在Cassandra中创建事件表。通过INSERTINTOlogs.event从hive插入Cassandra。总体而言，前两个步骤的性能以及基本查询与其他ha

Cassandra hadoop section li insert hive datastax-enterprise

hadoop - Hive 中分区表的用途是什么？

我知道分区表用于水平分配负载，但它们的具体用途是什么？谁能用一个简单的例子向我解释一下？最佳答案分区允许Hive访问您的数据子集，而无需读取所有数据。这是为什么这可能有用的具体示例。为了使这一点易于理解，我的解释非常精简，如果您想要的不仅仅是我试图提供的表面层面的理解，我建议您阅读其他地方的Hive分区。您正在以每天~1TB的速率接收带时间戳的数据。您有100天前的数据，总数据负载为~100TB。很多时候，您希望汇总过去10天的一些数据。如果不进行分区，您将不得不读入所有100TB数据，尽管其中大部分数据无论如何都会被Hive忽

用途 hadoop code 的 section hive

hadoop - hadoop集群的系统测试自动化框架

我正在寻找hadoop集群的系统测试框架。受支持的用例应包括HDFS的系统测试、mapreduce作业和hive查询。我从apache中找到了一个名为herriot的,但我不确定它是否仍在维护中。你们知道任何现有框架吗？最佳答案看看1和2用于对集群进行基准测试。它有测试的代码和数据。将它们自动化应该不是什么难事。关于hadoop-hadoop集群的系统测试自动化框架，我们在StackOverflow上找到一个类似的问题： https://stackove

hadoop 集群 section noreferrer noopener frameworks mapreduce hive hdfs

使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常（字段错位）

Spark MySQL span class token hive 大数据数据库

sql - 在 Hive 中加入查询

我想创建一个表C，其中包含表A(customer_id)和表B(customer_id)的列，表B(customer_id)包含表A中不在表B中的所有customer_id。我编写了以下查询，但没有得到填充的任何数据。createtableCASselect*from(selectcustomer_idfromAaljoinBblonal.customer_id=bl.customer_idwherebl.customer_idisnull)x;此查询显示0个结果。最佳答案 SELECTa1.customer_idFROMAa1L

中加 Hive customer_id customer section sql hadoop

java - Hive Driver Connection 线上的 Hadoop 中的 ClassNotFoundException 引起的 NoClassDefFoundError？

通常我从谷歌搜索开始寻找解决方案，但这个错误似乎以前没有发生过。Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/util/Shellatorg.apache.hadoop.hive.conf.HiveConf$ConfVars.findHadoopBinary(HiveConf.java:906)atorg.apache.hadoop.hive.conf.HiveConf$ConfVars.(HiveConf.java:237)atorg.apache.hive.jdbc.HiveConne

ClassNotFoundException NoClassDefFoundError java hadoop apache jdbc hive

java - MapReduce 与 Hive 的结合

我们能否使用Hive和MapReduce的组合说:我有一个csv文件。我需要找到一列的mean并将空数据替换为平均值(replacenullwithmean)。所以我们是否可以在驱动程序中编写一个hive查询(以找到均值)，然后编写一个mapreduceblock以用均值替换null。哪种方式更好只编写mapreduce代码或结合使用Hive和MapReduce。最佳答案这是可以使用(仅配置单元)解决的另一个答案假设您的csv输入是这样的:firstname,secondname,score,group维杰，库马尔，123，cs

MapReduce java code section 库马 hadoop hive

hadoop - 执行以下 Hive 查询 : SELECT COUNT(*) FROM TABLE; for a table with 8bn rows/40 columns/400Gb? 的大概数字是多少

执行以下Hive查询的大概数字是多少:SELECTCOUNT(*)FROMTABLE；对于下表:行数:~80亿列数:40，各种大小的int、double和stringHDFS上的大小:~400Gb我想将任何大概数字与真实数字进行比较，以查看系统配置是否正确。如果我错过了一些重要的事情，我深表歉意，我是Hive和Hadoop的新手。此外，如果机器数量也按比例增加，执行时间是否会与行数成线性比例？最佳答案提供大概数字是不可能的。但是我们可以列出影响因素:集群中配置的MapTask数量block大小(决定将使用的映射器的数量)执行时间

columns hadoop 射器 section li hive hdfs

42 43 444546 47 48