草庐IT

hadoop - Spark 将数据写入分区的 Hive 表非常慢

我想以普通可读文本格式将Spark数据帧存储到Hive表中。为此,我首先做了sqlContext.sql("SETspark.sql.hive.convertMetastoreParquet=false")我的DataFrame是这样的:final_data1_df=sqlContext.sql("selecta,bfromfinal_data")我正在尝试通过以下方式编写它:final_data1_df.write.partitionBy("b").mode("overwrite").saveAsTable("eefe_lstr3.final_data1")但这很慢,甚至比HIVE写

hadoop - 优化 Hadoop Hive 中的几 GB 数据

我现在已经广泛使用Hive,我想知道是否有一种方法可以改进以下工作流程。每天晚上,来self们Oracle集群的制表符分隔的未压缩文本文件转储被写入HDFS,由Hive处理。我这样加载表格:CREATEEXTERNALTABLEACCOUNTINGTABLE(tsSTRING,duidSTRING,ownerSTRING,hiddenSTRING,lgroupSTRING,nbfilesINT,lengthBIGINT,replicasINT,provenanceSTRING,stateSTRING,campaignSTRING,rlengthBIGINT,rnbfilesINT,ro

jdbc - 为 hive jdbc 连接添加超时

如何为配置单元jdbc连接添加超时。当配置单元挂起时,我的应用程序等待来自配置单元的响应。我需要的是,在某个指定时间(可能是几分钟)之后,我的应用程序需要停止从配置单元连接中监听,完成其余的工作。 最佳答案 在您的配置单元配置文件中使用此属性。hive.stats.jdbc.timeout30Timeoutvalue(numberofseconds)usedbyJDBCconnectionandstatements.这将用于登录超时和查询超时。如果您的查询时间超过30秒或配置的秒数,它将返回。

Hadoop hive : How to allow regular user continuously write data and create tables in warehouse directory?

我在单个节点上运行Hadoop2.2.0.2.0.6.0-101。我正在尝试运行JavaMRD程序,该程序在普通用户下从Eclipse将数据写入现有的Hive表。我得到异常:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=dev,access=WRITE,inode="/apps/hive/warehouse/testids":hdfs:hdfs:drwxr-xr-x发生这种情况是因为普通用户对仓库目录没有写权限,只有hdfs用户有:drwxr-xr-x-hdfshdfs02014-03-0

hadoop - Spark : Unable to instantiate org. apache.hadoop.hive.metastore.HiveMetaStoreClient

我正在运行Hadoop2.7.0、hive1.1.0和spark1.3.1。我在mysql数据库中有我的Metastore数据库。我可以从HiveShell创建和查看数据。hive(dwhdb)>select*fromdwhdb.test_sample;OKtest_sample.emp_id test_sample.emp_name test_sample.emp_dept test_sample.emp_salEid1 EName1 EDept1 100.0Eid2 EName2 EDept1 102.0Eid3 EName3 EDept1 101.0Eid4 EName4 EDe

java - 尝试使用自定义 SerDe 创建 Hive 表时出错

我有一个包含需要上传到Hive表的数据的文件。我编写了一个自定义SerDe(基本上是对Hive中已有的RegexSerde的修改)来帮助我上传数据。这是我写的SerDepackagemy.hive.customserde;publicclassFIASC2extendsAbstractSerDe{publicstaticfinalLogLOG=LogFactory.getLog(FIASC2.class.getName());intcolwidths[]={1,10,6,12,8,14,16,6,6,2,10,10,19,2,2,6,8,1};Stringoutputformat="%

json - Hive Metastore 列宽限制

使用AWSEMRonthe5.2.1version作为数据处理环境,当处理一个巨大的JSON文件,这个文件具有复杂的schema和许多嵌套字段时,Hive无法处理它并且错误如下它达到了4000个字符列长度的当前限制。Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.InvalidObjectException(message:Invalidcolumntypenameistoolong:[...]查看文档,已经有很多关于这个问

hadoop - Hive 可以处理二进制数据吗?

Hive能否处理非结构化数据。如果我们在oracle数据库中有图像文件,我们必须运行sqoopout将该图像从oracle加载到另一个源数据库并导出到hive表中。你能帮我解决如何在配置单元中处理该图像文件吗????? 最佳答案 您的Oracle数据可能存储为BLOB。在Hive中,它应该存储为BINARY.这是一篇Hortonworks文章,演示了sqoop将oracleblob导入到hive中https://community.hortonworks.com/content/supportkb/49145/how-to-sqoo

hadoop - Sqoop Import to Hive 在某个点无限期挂起

我正在尝试使用SqoopImport将mysql表导入Hive,但是在执行命令后,CLI保持平静,没有任何反应,并且无限期挂起。下面是命令和问题的详细信息..[cloudera@quickstartbin]$sqoopcreate-hive-table--connectjdbc:mysql://10.X.X.XX:XXXX/rkdb--usernameroot-P--tableemployee--hive-tableempsWarning:/usr/lib/sqoop/../accumulodoesnotexist!Accumuloimportswillfail.Pleaseset$A

postgresql - hive 流式传输不起作用

我尝试按照https://cwiki.apache.org/confluence/display/Hive/Streaming+Data+Ingest#StreamingDataIngest-StreamingRequirements启用配置单元流式传输我已经更改了所有配置属性以启用配置单元流,但配置单元元存储服务运行时出现以下错误,18/02/0912:22:51错误compactor.Initiator:在compactor启动器的主循环中捕获异常,退出MetaException(消息:无法连接到事务数据库org.postgresql.util.PSQLException:错误:关