草庐IT

test_hive

全部标签

json - Hive Metastore 列宽限制

使用AWSEMRonthe5.2.1version作为数据处理环境,当处理一个巨大的JSON文件,这个文件具有复杂的schema和许多嵌套字段时,Hive无法处理它并且错误如下它达到了4000个字符列长度的当前限制。Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.InvalidObjectException(message:Invalidcolumntypenameistoolong:[...]查看文档,已经有很多关于这个问

hadoop - Hive 可以处理二进制数据吗?

Hive能否处理非结构化数据。如果我们在oracle数据库中有图像文件,我们必须运行sqoopout将该图像从oracle加载到另一个源数据库并导出到hive表中。你能帮我解决如何在配置单元中处理该图像文件吗????? 最佳答案 您的Oracle数据可能存储为BLOB。在Hive中,它应该存储为BINARY.这是一篇Hortonworks文章,演示了sqoop将oracleblob导入到hive中https://community.hortonworks.com/content/supportkb/49145/how-to-sqoo

hadoop - Sqoop Import to Hive 在某个点无限期挂起

我正在尝试使用SqoopImport将mysql表导入Hive,但是在执行命令后,CLI保持平静,没有任何反应,并且无限期挂起。下面是命令和问题的详细信息..[cloudera@quickstartbin]$sqoopcreate-hive-table--connectjdbc:mysql://10.X.X.XX:XXXX/rkdb--usernameroot-P--tableemployee--hive-tableempsWarning:/usr/lib/sqoop/../accumulodoesnotexist!Accumuloimportswillfail.Pleaseset$A

postgresql - hive 流式传输不起作用

我尝试按照https://cwiki.apache.org/confluence/display/Hive/Streaming+Data+Ingest#StreamingDataIngest-StreamingRequirements启用配置单元流式传输我已经更改了所有配置属性以启用配置单元流,但配置单元元存储服务运行时出现以下错误,18/02/0912:22:51错误compactor.Initiator:在compactor启动器的主循环中捕获异常,退出MetaException(消息:无法连接到事务数据库org.postgresql.util.PSQLException:错误:关

r - 理解 R-Hive、Elastic MapReduce、RHIPE 和使用 R 的分布式文本挖掘

在我最近在Google实习期间学习了MapReduce来解决计算机视觉问题之后,我觉得自己像一个开明的人。我已经在使用R进行文本挖掘了。我想将R用于大规模文本处理和主题建模实验。我开始阅读教程并研究其中的一些。我现在将我对每个工具的理解写下来:1)R文本挖掘工具箱:用于本地(客户端)文本处理,它使用XML库2)Hive:Hadoopinterative,提供调用map/reduce的框架,也提供DFS接口(interface),用于在DFS上存储文件。3)RHIPE:RHadoop集成环境4)ElasticMapReducewithR:一个为那些没有自己的集群的人准备的MapReduc

hadoop - 使用 Hive 自定义输入格式

更新:好的,事实证明下面的方法不起作用是因为我使用的是较新版本的InputFormatAPI(importorg.apache.hadoop.mapred是旧的,importorg.apache.hadoop.mapreduce是新的)。我遇到的问题是将现有代码移植到新代码。有没有人有使用旧API编写多行InputFormat的经验?尝试使用Hadoop/Hive处理Omniture的数据日志文件。文件格式是制表符分隔的,虽然在大多数情况下非常简单,但它们确实允许您在一个字段中有多个换行符和制表符,这些换行符和制表符由反斜杠转义(\\n和\\t).因此,我选择创建自己的InputFor

hadoop - hive 是否为每条记录实例化一个新的 UDF 对象?

假设我正在构建一个名为StaticLookupUDF的UDF类,它必须在构建期间从本地文件加载一些静态数据。在这种情况下,我想确保我不会重复我需要的工作,因为我不想在每次调用evaluate()方法时重新加载静态数据。显然每个映射器都使用它自己的UDF实例,但是是否为每个处理的记录生成一个新实例?例如,映射器将处理3行。它是创建单个StaticLookupUDF并调用evaluate()3次,还是为每个记录创建一个新的StaticLookupUDF,并且每个实例仅调用一次evaluate()?如果第二个例子是真的,我应该用什么替代方式来构造它?在文档中的任何地方都找不到这个,我打算查看

hadoop - 如何混淆 Hive View 中的列?

我已经为表创建了一个View:CREATEVIEWanonymous_tableASSELECTid,valueFROMsensitive_table并希望以某种方式混淆敏感表的id字段,例如MD5哈希或类似的东西,以便查询View的人看不到实际的id。在Hive中执行此操作的好方法是什么? 最佳答案 一些选项:根本不要在您的View中包含ID:CREATEVIEWsomethingASSELECT"HIDDENID",valuefromsensitive_table;如果您仍然需要为每条记录提供一个不同的键,您可以编写一个UDF来

jdbc - Hive JDBC getConnection 不返回

我正在学习配置单元JDBC教程。我无法让它工作。当它试图获得连接时,它只是挂起。它也不报告任何错误。我确定Hive服务器正在运行。有帮助吗?publicclassHiveJdbcClient{privatestaticStringdriverName="org.apache.hadoop.hive.jdbc.HiveDriver";publicstaticvoidmain(String[]args){try{Class.forName(driverName);}catch(ClassNotFoundExceptione){e.printStackTrace();System.exit(

hadoop - Hive gzip文件解压

我已经将一堆.gz文件加载到HDFS中,当我在它们之上创建一个原始表时,我在计算行数时看到了奇怪的行为。将gz表中的count(*)结果与未压缩表中的结果进行比较,结果相差约85%。压缩文件gz的表记录较少。有人见过这个吗?CREATEEXTERNALTABLEIFNOTEXISTStest_gz(col1string,col2string,col3string)ROWFORMATDELIMITEDLINESTERMINATEDBY'\n'LOCATION'/data/raw/test_gz';selectcount(*)fromtest_gz;result1,123,456selec