草庐IT

test_hive

全部标签

hadoop - hive有数据字典吗?

hive有数据字典吗?我正在尝试获取配置单元中表的列名。除了describe命令外,类似于oracle查询:SELECTCOLUMN_NAME,DATA_TYPEFROMUSER_TAB_COLUMNSWHERETABLE_NAME=?ORDERBYCOLUMN_ID; 最佳答案 Hive使用外部关系数据库作为其metastore.您可以使用MetastoreAPI(例如MySQL)直接查询配置的Metastore。更高级别的组件是HCatalog,它提供了一个API来访问和操作Metastore。

mysql - Sqoop:从 MySQL 导入 Hive 时替换字符?

当从MySQL导入数据到Hive时,我需要在电话号码中删除两个字符+7。以下请求返回SQL错误。我应该使用什么正确的replace命令?sqoopimport--connectjdbc:mysql://server/db--usernamexxxx--passwordyyyy--query'selectname,last_name,email,second_name,Replace(personal_phone,'+7',''),Replace(mobile,'+7',''),Replace(phone,'+7','')来自$CONDITIONS'--target-dir/data/t

hadoop - 安装 Spark Cluster,Hive 的问题

我正在尝试启动Spark/Shark集群,但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作并按照说明处理Hive。我认为SharkDriver正在使用另一个版本的Hadoopjar,但不确定原因。这是详细信息,任何帮助都会很棒。星火/鲨鱼0.9.0ApacheHadoop2.3.0Amplabshive0.11斯卡拉2.10.3Java7我已经安装了所有东西,但我收到了一些弃用警告,然后是一个异常:14/03/1411:24:47信息Configuration.d

hadoop - 如何使用 Hive、Pig 或 MapReduce 处理 "insert into values"?

我是hadoop和大数据概念的新手。我正在使用Hortonworks沙箱并尝试操作csv文件的值。所以我使用文件浏览器导入文件并在配置单元中创建一个表来做一些查询。实际上我想要一个“插入值”查询来选择一些行,更改列的值(例如将字符串更改为二进制0或1)并将其插入到新表中。SQLLIKE查询可能是这样的:Insertintotable1(id,name,'01')selectid,name,graduatedfromtable2whereuniversity='aaa'不幸的是,hive无法插入(常量)值(不从文件导入),我不知道如何使用hive、pig甚至mapreduce脚本来解决这

sql - HIVE-QL 中的 LEAD 函数语法

有什么方法可以将以下LEAD函数转换为HIVEQL格式??NVL(LEAD(START_DT)OVER(PARTITIONBYEV_ID,AR_EV_RLTNSHP_TYPE_CDORDERBYSTART_DT)-1,'2099-12-31')ASDERIVED_END_DTPFB错误:FAILED:ParseExceptionline1:1599missing)at'OVER'near'('insubquerysourceline1:1603missingFROMat'('near'('insubquerysourceline1:1604cannotrecognizeinputnea

testing - 如何测试Hadoop mapreduce

如何在hadoopmapreduce应用程序准备好投入生产之前对其进行测试。我现在能想到的测试视角是:单元测试这是为了确保映射器和还原器中的方法正常工作。看来我们已经有了mrunit,但我想看看我们是否还有其他选择。数据准确性这对我来说是最重要的,因为产生准确和正确的输出是mapreduce应用程序的主要职责。这里的问题是如何生成测试数据集和如何验证输出数据,以及正确的测试数据量是多少?性能我们应该如何对mapreduce应用程序的性能进行基准测试?我们能利用什么工具?我们还需要考虑其他的测试吗? 最佳答案 jumbune是您的工具

hadoop - 在hive(hadoop)中添加文件后,在仓库中不可见?

我可以像这样在配置单元中添加一个文件:hive>addfile/home/vis/Documents/def.txt;hive>listfiles;/home/vis/Documents/def.txt现在的问题是,上面的文件在我的仓库里是看不到的。是否可以在hive仓库(/user/hive/warehouse)中看到。如果没有,那么我如何在配置单元中看到该文件? 最佳答案 Hiveaddcommandputsthefileindistributedcache.这是mapred.local.dir。分布式缓存旨在分发需要存在于所有

r - R 如何使用 RJDBC 连接到 Hive?

我使用的是hadoop-2.2.0和hive-0.12。我按照以下步骤尝试连接到Rstudio中的Hive:library("DBI")library("rJava")library("RJDBC")for(linlist.files('/PATH/TO/hive/lib/')){.jaddClassPath(paste("/PATH/TO/hive/lib/",l,sep=""))}for(linlist.files('/PATH/TO/hadoop/')){.jaddClassPath(paste("/PATH/TO/hadoop/",l,sep=""))}options(java

hadoop - 将数据从 S3 加载到位于 EMR 中 S3 的外部 Hive 表时出现 "Path is not legal"错误

我有一个运行Hive的EMR集群。我在S3上有一个这样定义的外部表:+-----------------------------------------------------------------+|CREATEEXTERNALTABLE`blah`(||`blah1`string,||`blah2`string)||PARTITIONEDBY(||`blah3`string,||`blah4`string,||ROWFORMATDELIMITED||FIELDSTERMINATEDBY'\t'||STOREDASINPUTFORMAT||'org.apache.hadoop.ma

java - 自定义 InputFormat.getSplits() 从未在 Hive 中调用

我正在编写自定义InputFormat(具体来说,org.apache.hadoop.mapred.FileInputFormat的子类)、OutputFormat和SerDe,用于通过ApacheHive读取的二进制文件。并非二进制文件中的所有记录都具有相同的大小。我发现Hive的默认InputFormatCombineHiveInputFormat没有将getSplits委托(delegate)给我的自定义InputFormat的实现,这会导致所有输入文件按常规128MB边界拆分。这样做的问题是这个拆分可能在记录的中间,所以除了第一个之外的所有拆分很可能看起来有损坏的数据。我已经找