草庐IT

元中都

全部标签

hadoop - 如何将多个 xls 文件中的 xls 数据加载到配置单元中?

我正在学习使用Hadoop执行大数据相关操作。我需要对拆分为8个xls文件的数据集集合执行一些查询。每个xls文件都有多个工作表,查询只涉及其中一个工作表。数据集可以在这里下载:http://www.census.gov/hhes/www/hlthins/data/utilization/tables.html我没有为我的任务使用任何商业发行版的hadoop,只是在VmWare中设置了一个主虚拟机和一个从虚拟机,其中包含Hadoop、Hive和Pig。我是Hadoop和大数据的新手,所以如果有人能指导我如何进一步进行,我将不胜感激。如果您需要有关查询的信息或其他任何信息,请告诉我。谢谢

java - 生成唯一的客户 ID/在配置单元中插入唯一的行

我需要根据客户名称和地址将唯一行插入到配置单元表中。我们是否可以使用客户名称和地址生成独特的值(value)?我希望生成如下所示的unique_value列并选择具有不同unique_value的行。例如像下面我想生成unique_value列{customer_name}{address}{unique_value}奥马尔街1111瑞安斯特里222奥马尔街1111或任何其他方法也很受欢迎! 最佳答案 您可以尝试两件事。您可以尝试使用UUID,但这会为每一行生成一个唯一的ID。像这样的事情会做:selectreflect("java

hadoop - 如何在配置单元中添加一个jar文件

我正在尝试使用ADDJARhive-contrib-0.10.0.jar命令在配置单元中添加hive-contrib-0.10.0.jar,但它总是显示hive-contrib-0.10。0.jar不存在。我现在使用的是HDP2.1版本。我还使用hue将这个jar文件添加到/user/root文件夹中并运行命令ADDJARhdfs:///hive-contrib-0.10.0.jar但它给了我同样的错误jar文件不存在。有什么办法可以解决这个问题。我应该将这个jar文件保存在哪里,以便它能够成功运行,要使用的命令是什么? 最佳答案

hadoop - 替换配置单元中的管道 (|) 符号

您好,我有一个包含竖线(|)符号的文本,我想用空格替换它。这是列描述中的文字|TrueCricketLover|M€$$!|PTI|Capricorn|NoDM|#TeamIK|@shaneRWatson33❤BoomBoom❤Strivingtobeabetterhuman!我试过这样的regexp_replace函数regexp_replace(description,'|','')这个命令返回这个值|TrueCricketLover|M€$$!|PTI|Capricorn|NoDM|#TeamIK|@shaneRWatson33❤BoomBoom❤Strivingtobeabet

hadoop - 并置连接 (a-la-netezza) 理论上在配置单元中是否可行?

当您连接分布在同一键上的表并在连接条件中使用这些键列时,netezza中的每个SPU(机器)都100%独立工作(参见nz-interview)。在hive中,有bucketedmapjoin,但是代表表的文件分发到datanode是HDFS的职责,不是按照hiveCLUSTEREDBYkey做的!所以假设我有2个表,按相同的键聚集,并且我通过该键加入-hive能否从HDFS获得匹配的桶将位于同一节点上的保证?或者它是否总是必须将小表的匹配桶移动到包含大表桶的数据节点?谢谢你(注意:这是对我之前问题的更好措辞:Howdoeshive/hadoopassuresthateachmapper

hadoop - 如何在配置单元中管理日期间隔

我是Hive-Hadoop的新手。我在日期间隔管理方面遇到了一些问题。在Postgresql中,我可以获得给定日期之前的“6天”:selectmax(datejour)+INTERVAL'-6day'asmaxdatefromtable例如:如果max(datejour)=2015-08-22==>我的查询返回2015-08-15有人可以帮助我了解如何在Hive中做到这一点吗?谢谢。 最佳答案 您可以使用HiveINTERVAL来实现这一点。从表中选择(max(datejour)-INTERVAL'6'DAY)作为maxdate以上

csv - 将包含带引号的值的表导出到配置单元中的本地 csv

我正在尝试将表导出到配置单元中的本地csv文件。INSERTOVERWRITELOCALDIRECTORY'/home/sofia/temp.csv'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','ESCAPEDBY'\\'LINESTERMINATEDBY'\n'select*frommytable;问题是一些值包含换行符“\n”,结果文件变得非常困惑。在Hive中导出时,是否有任何方法可以将值括在引号中,以便csv文件可以包含特殊字符(尤其是换行符)? 最佳答案 一种可能的解决方案是使用HiveCS

hadoop - 从 Apache Spark 查询外部配置单元中存在的表

这个问题在这里已经有了答案:HowtoconnectSparkSQLtoremoteHivemetastore(viathriftprotocol)withnohive-site.xml?(11个答案)关闭2年前。我对hadoop生态系统比较陌生。我的目标是使用ApacheSpark读取配置单元表并对其进行处理。Hive在EC2实例中运行。而Spark在我的本地机器上运行。为了制作原型(prototype),我按照here上的步骤安装了ApacheHadoop。.我也添加了所需的环境变量。我已经使用$HADOOP_HOME/sbin/start-dfs.sh启动了dfs我已经按照her

hadoop - 将为配置单元中的分区表创建多少映射器和缩减器

我总是对为hive中的特定任务创建多少映射器和缩减器感到困惑。例如,如果block大小=128mb,并且有365个文件,每个文件映射到一年中的某个日期(每个文件大小=1mb)。有基于日期列的分区。在这种情况下,在加载数据期间将运行多少映射器和缩减器? 最佳答案 映射器:映射器的数量取决于各种因素,例如数据在节点之间的分布方式、输入格式、执行引擎和配置参数。另见此处:https://cwiki.apache.org/confluence/display/TEZ/How+initial+task+parallelism+worksMR使

hadoop - 在配置单元中动态删除分区

我在配置单元中有两个表,都由表示时间戳的字符串分区(我使用字符串而不是时间戳,因为我使用的是ClouderaImpala中的表,它不支持按时间戳分区的表).表用于存储特定时间片内的大量数据。第一个表包含更高时间粒度的最新数据,假设1分钟时间片,第二个表包含较低粒度的较旧数据,假设这里为1小时时间片。所以我有一个查询,它汇总了1分钟时间片的特定时间之前的数据,这样我就有了1小时时间片的数据,并将它插入到我的表中,时间为1小时切片。创建1小时时间片后,我想删除新的1小时时间片中包含的所有1分钟时间片。而且由于该表是按代表时间的字符串进行分区的,所以我可以删除相应的分区。并了解我的实际问题: