元中都

hadoop - 如何将多个 xls 文件中的 xls 数据加载到配置单元中？

我正在学习使用Hadoop执行大数据相关操作。我需要对拆分为8个xls文件的数据集集合执行一些查询。每个xls文件都有多个工作表，查询只涉及其中一个工作表。数据集可以在这里下载:http://www.census.gov/hhes/www/hlthins/data/utilization/tables.html我没有为我的任务使用任何商业发行版的hadoop，只是在VmWare中设置了一个主虚拟机和一个从虚拟机，其中包含Hadoop、Hive和Pig。我是Hadoop和大数据的新手，所以如果有人能指导我如何进一步进行，我将不胜感激。如果您需要有关查询的信息或其他任何信息，请告诉我。谢谢

java - 生成唯一的客户 ID/在配置单元中插入唯一的行

我需要根据客户名称和地址将唯一行插入到配置单元表中。我们是否可以使用客户名称和地址生成独特的值(value)？我希望生成如下所示的unique_value列并选择具有不同unique_value的行。例如像下面我想生成unique_value列{customer_name}{address}{unique_value}奥马尔街1111瑞安斯特里222奥马尔街1111或任何其他方法也很受欢迎! 最佳答案您可以尝试两件事。您可以尝试使用UUID，但这会为每一行生成一个唯一的ID。像这样的事情会做:selectreflect("java

配置单 java section 奥马尔 unique_value mysql sql hadoop hive

hadoop - 如何在配置单元中添加一个jar文件

我正在尝试使用ADDJARhive-contrib-0.10.0.jar命令在配置单元中添加hive-contrib-0.10.0.jar，但它总是显示hive-contrib-0.10。0.jar不存在。我现在使用的是HDP2.1版本。我还使用hue将这个jar文件添加到/user/root文件夹中并运行命令ADDJARhdfs:///hive-contrib-0.10.0.jar但它给了我同样的错误jar文件不存在。有什么办法可以解决这个问题。我应该将这个jar文件保存在哪里，以便它能够成功运行，要使用的命令是什么？最佳答案

配置单何在 section code jar hadoop hive hql

hadoop - 替换配置单元中的管道 (|) 符号

配置单 hadoop section blockquote 竖线 hive regexp-replace

hadoop - 并置连接 (a-la-netezza) 理论上在配置单元中是否可行？

当您连接分布在同一键上的表并在连接条件中使用这些键列时，netezza中的每个SPU(机器)都100%独立工作(参见nz-interview)。在hive中，有bucketedmapjoin，但是代表表的文件分发到datanode是HDFS的职责，不是按照hiveCLUSTEREDBYkey做的!所以假设我有2个表，按相同的键聚集，并且我通过该键加入-hive能否从HDFS获得匹配的桶将位于同一节点上的保证？或者它是否总是必须将小表的匹配桶移动到包含大表桶的数据节点？谢谢你(注意:这是对我之前问题的更好措辞:Howdoeshive/hadoopassuresthateachmapper

并置配置单 section noreferrer questions hadoop hive netezza

hadoop - 如何在配置单元中管理日期间隔

我是Hive-Hadoop的新手。我在日期间隔管理方面遇到了一些问题。在Postgresql中，我可以获得给定日期之前的“6天”:selectmax(datejour)+INTERVAL'-6day'asmaxdatefromtable例如:如果max(datejour)=2015-08-22==>我的查询返回2015-08-15有人可以帮助我了解如何在Hive中做到这一点吗？谢谢。最佳答案您可以使用HiveINTERVAL来实现这一点。从表中选择(max(datejour)-INTERVAL'6'DAY)作为maxdate以上

配置单何在 section strong Hive hadoop

csv - 将包含带引号的值的表导出到配置单元中的本地 csv

我正在尝试将表导出到配置单元中的本地csv文件。INSERTOVERWRITELOCALDIRECTORY'/home/sofia/temp.csv'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','ESCAPEDBY'\\'LINESTERMINATEDBY'\n'select*frommytable;问题是一些值包含换行符“\n”，结果文件变得非常困惑。在Hive中导出时，是否有任何方法可以将值括在引号中，以便csv文件可以包含特殊字符(尤其是换行符)？最佳答案一种可能的解决方案是使用HiveCS

配置单引号 strong code 换行符 csv hadoop hive export-to-csv

hadoop - 从 Apache Spark 查询外部配置单元中存在的表

这个问题在这里已经有了答案:HowtoconnectSparkSQLtoremoteHivemetastore(viathriftprotocol)withnohive-site.xml?(11个答案)关闭2年前。我对hadoop生态系统比较陌生。我的目标是使用ApacheSpark读取配置单元表并对其进行处理。Hive在EC2实例中运行。而Spark在我的本地机器上运行。为了制作原型(prototype)，我按照here上的步骤安装了ApacheHadoop。.我也添加了所需的环境变量。我已经使用$HADOOP_HOME/sbin/start-dfs.sh启动了dfs我已经按照her

配置单 hadoop section code gt apache-spark amazon-ec2 hive apache-spark-sql

hadoop - 将为配置单元中的分区表创建多少映射器和缩减器

我总是对为hive中的特定任务创建多少映射器和缩减器感到困惑。例如，如果block大小=128mb，并且有365个文件，每个文件映射到一年中的某个日期(每个文件大小=1mb)。有基于日期列的分区。在这种情况下，在加载数据期间将运行多少映射器和缩减器？最佳答案映射器:映射器的数量取决于各种因素，例如数据在节点之间的分布方式、输入格式、执行引擎和配置参数。另见此处:https://cwiki.apache.org/confluence/display/TEZ/How+initial+task+parallelism+worksMR使

射器配置单 code reducer hadoop hive mapreduce reduce mapper

hadoop - 在配置单元中动态删除分区

我在配置单元中有两个表，都由表示时间戳的字符串分区(我使用字符串而不是时间戳，因为我使用的是ClouderaImpala中的表，它不支持按时间戳分区的表).表用于存储特定时间片内的大量数据。第一个表包含更高时间粒度的最新数据，假设1分钟时间片，第二个表包含较低粒度的较旧数据，假设这里为1小时时间片。所以我有一个查询，它汇总了1分钟时间片的特定时间之前的数据，这样我就有了1小时时间片的数据，并将它插入到我的表中，时间为1小时切片。创建1小时时间片后，我想删除新的1小时时间片中包含的所有1分钟时间片。而且由于该表是按代表时间的字符串进行分区的，所以我可以删除相应的分区。并了解我的实际问题:

配置单 hadoop section 的 hive hiveql

3 4 567 8 9