草庐IT

不插入

全部标签

hadoop - 在配置单元中执行插入覆盖查询时出错

我使用的是hadoop1.2、hbase0.94.8和hive0.14。我正在尝试使用配置单元将数据插入到hbase表中。我已经创建了表:CREATETABLEhbase_table_emp(idint,namestring,rolestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,cf1:name,cf1:role")TBLPROPERTIES("hbase.table.name"="emp");并将数据加

json - 使用 Hive 向 Hbase 中插入数据(JSON 文件)

我已经使用hive在hbase中创建了一个表:hive>CREATETABLEhbase_table_emp(idint,namestring,rolestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,cf1:name,cf1:role")TBLPROPERTIES("hbase.table.name"="emp");并创建了另一个表来加载数据:hive>createtabletestemp(idint,na

mysql - Hive-1.1.0 在将数据插入创建的表时显示错误(使用 hadoop-2.5.1)

我成功地创建了表:CREATETABLEmovie_example(titleSTRING,idBIGINT,directorSTRING,yearBIGINT,genresARRAY)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','COLLECTIONITEMSTERMINATEDBY'$'MAPKEYSTERMINATEDBY'#'LINESTERMINATEDBY'\n'STOREDASTEXTFILE;当我尝试使用以下方法向该表中插入数据时:LOADDATALOCALINPATH'//hiveExample.txt'OVERWRITEINTOTAB

hadoop - 为什么 Impala 为一个插入语句生成多个文件

假定应该为单个“插入...选择”语句生成一个文件,而在我的例子中生成了20个文件。如何将结果缩减为一个文件? 最佳答案 如果文件很小,您可以使用SETNUM_NODES=1强制所有数据通过单个节点,如documentation中所述. 关于hadoop-为什么Impala为一个插入语句生成多个文件,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/30367636/

hadoop - Sqoop 导出插入重复条目

我想了解sqoop导出的工作原理。我在mysql中有一个表站点,其中包含两列id和url,并且包含两行1,www.yahoo.com2,www.gmail.com表没有主键当我通过执行以下命令将条目从HDFS导出到mysql站点表时,它会插入重复的条目我在HDFS中有以下条目1,www.one.com2,www.2.com3,www.3.com4,www.4.comsqoopexport--tablesite--connectjdbc:mysql://localhost/loudacre--用户名训练--密码训练--export-dir/site/--update-modeallowi

MySQL如何使用外键更新子表值,而基于父表插入数据

我有2个桌子,一张父桌和子桌。子表有父母表的外键。我已经成功创建了外键。但是,当我只插入“id_parent”时,如何根据父表自动更新字段'nama'?我只尝试:INSERTINTOchild(id_parent)values(1)但是字段“名称”值仍然为null我的桌子:CREATETABLE`child`(`id`int(6)NOTNULLAUTO_INCREMENT,`id_parent`int(6)DEFAULTNULL,`nama`varchar(20)DEFAULTNULL,PRIMARYKEY(`id`),KEY`aa`(`nama`,`id_parent`),CONSTRAIN

linux - 如何通过 hive 表向 hbase 中插入数据?

我可以用这个查询创建一个Hive表CREATETABLEhbtable(keyint,valuestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,cf1:val")TBLPROPERTIES("hbase.table.name"="xyz");我使用此查询将数据插入表中,但它不起作用,insertoverwritetablehbtableselect*fromhbtableswheres:hivefiels=

mysql - 如何不因一个数据库插入失败而使 Hadoop MapReduce 作业失败?

我正在编写一个MapReduce作业来挖掘网络服务器日志。输入来自文本文件,输出进入MySQL数据库。问题是,如果一条记录无法插入,无论出于何种原因,例如数据超出列大小,整个作业都会失败,并且不会向数据库写入任何内容。有没有什么办法可以让好的记录一直保留下来呢?我想一种方法是验证数据,但这对我的口味来说将客户端与数据库模式结合得太多了。我没有发布代码,因为这不是一个特别的代码问题。编辑:reducer:protectedvoidreduce(SkippableLogRecordrec,Iterablevalues,Contextcontext){Stringpath=rec.getPa

mysql - 在 MySQL 中快速插入和搜索大号的最佳解决方案。行数?

我们计划在我们的Web应用程序中实现一项功能,该功能将使用户能够进行搜索并将所有匹配记录的ID保存在数据库(MySQL-INNODB)中作为“列表”。结果可以是数百万。我们希望用户能够保存多达100万个ID。它必须是实时的(最多5-10秒的延迟是可以接受的)。此列表稍后可以用作与现有过滤器结合的另一个过滤器。我们不需要从客户端传递这些ID,因为可以在服务器端进行相同的搜索来检索这些ID。但是,稍后无法重复使用相同的搜索来获取这些ID,因为搜索结果可能会发生变化。我们有几千名活跃用户,预计不会有很多人创建这么大的列表,但随着时间的推移,总数不会。这些列表中保存的ID数量可以增长到数亿。服

hadoop - 插入 Hive 表时如何从 HDFS 中选择动态文件名

我有一个Hive表。现在我需要编写一个工作流程,每天工作都会在某个位置搜索文件-/data/data_YYYY-mm-dd.csvlike/data/data_2015-07-07.csv/data/data_2015-07-08.csv...因此每天工作流都会自动选择文件名并将数据加载到Hive表(MyTable)中。我正在编写如下加载脚本-在路径中加载数据“/data/${filepath}”覆盖到表MyTable。现在,在运行与普通配置单元作业相同的同时,我可以将文件路径设置为data_2015-07-07.csv,但如何在Oozie协调器中执行此操作,以便它自动选择名称为日期的