草庐IT

sql - 来自另一个表的动态正则表达式搜索字符串

我有两个表:项目CREATETABLEitems(IDint,TXTstring,CODEstring);INSERTINTOitemsVALUES(1,'AABBCC','ZZ-100');INSERTINTOitemsVALUES(2,'BBCCDD','ZZ-200');INSERTINTOitemsVALUES(3,'AACCEE','ZZ-300');INSERTINTOitemsVALUES(4,'EEFFGG','ZZ-400');INSERTINTOitemsVALUES(5,'CCHHII','ZZ-500');+----+----------+--------+|i

hadoop - 将 TSV 文件导入 hbase 表

我将hortonworks2.1与hbase和hive一起使用。我想从tsv文件创建一个hbase表。文件在这里:idc1c2row1122row2e142row3g1f2row4f1c2row5d1c2row6c142row7e1c2row8c1c2row9c1c2row10c122我使用的命令是:bin/hbaseorg.apache.hadoop.hbase.mapreduce.ImportTsv-Dimporttsv.columns=HBASE_ROW_KEY,d:c1,d:c2hbaseTable/tmp/testTSV.tsv但是我得到了这个错误:SyntaxError:(

hadoop - 失败 : ParseException: cannot recognize input near 'exchange' 'string' ',' in column specification

我正在使用最新的AWSHive版本0.13.0.FAILED:ParseException:cannotrecognizeinputnear'exchange''string'','incolumnspecification当我运行以下(创建表)查询时出现上述错误。CREATEEXTERNALTABLEtest(foostring,exchangestring,barstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LINESTERMINATEDBY'\n'STOREDASTEXTFILELOCATION'/home/hadoop/test/

java - Hive 事务正在崩溃

好吧,我已经处理这个问题几天了,这让我发疯了。我需要使用带有事务的Hive数据库来执行“更新”和“删除”操作。我已经以伪分布式模式在我的机器上安装了Hadoop和Hive。我已关注此tutorial用于安装。我使用的是Java1.8.0_31、Hadoop2.6.0、Hive1.0.0,我还更改了一些细节,但这些应该无关紧要。现在,要启动我的环境(例如,重新启动后),我运行以下命令:start-dfs.shstart-yarn.shjava-jar/usr/local/derby/lib/derbyrun.jarserverstart&hive一切似乎都运行良好。尽管本教程没有提到启动

hadoop - 使用架构文件创建一个 Parquet 支持的 Hive 表

Clouderadocumentation,展示了一种简单的方法来“使用Avro模式文件创建Avro支持的Hive表。”这很好用。我想对Parquet支持的Hive表做同样的事情,但是相关的documentation在这种情况下,列出了每个列类型,而不是从模式中读取。是否有可能以与Avro数据相同的方式从模式中读取Parquet列? 最佳答案 目前,答案似乎是否。Hive有一个Unresolved问题。https://issues.apache.org/jira/browse/PARQUET-76这个问题最近很活跃,所以希望Hive

hadoop - 摄取一组 JSON 对象并转换为表格数据

我有一个这样的JSON对象数组。[和]封装的每个数组都在一行上。[{"事件":0,"属性":{"颜色":"红色","连接类型":2}}{"事件":30,"属性":{"颜色":“蓝色”,“连接类型”:4}},{“事件”:45,“属性”:{“颜色”:“绿色”,“连接类型”:3}}][{“事件”:0,“属性”:{“颜色”:“红色”,“连接类型”:5}},{"event":1,"properties":{"color",:"blue","connectionType":6}}]此处采用更易于阅读的格式。[{"event":0,"properties":{"color":"red","conne

hadoop - Hive 为 HDFS 中的每个插入创建多个小文件

下面已经实现了KafkaProducer使用SparkStreaming从Twitter中提取数据。KafkaConsumer将数据提取到Hive外部表(在HDFS上)。虽然到目前为止一切正常。我只面临一个问题,当我的应用程序将数据插入Hive表时,它创建了一个小文件,每个文件的每一行数据。下面是代码//Definewhichtopicstoreadfromvaltopic="topic_twitter"valgroupId="group-1"valconsumer=KafkaConsumer(topic,groupId,"localhost:2181")//CreateSparkCo

r - 无法在 dplyr.spark.hive 包中创建由 SparkSQL 支持的 dplyr src

最近我发现了很棒的dplyr.spark.hive启用dplyr的软件包前端操作spark或hive后端。在包的README中有关于如何安装此包的信息:options(repos=c("http://r.piccolboni.info",unlist(options("repos"))))install.packages("dplyr.spark.hive")还有很多关于如何使用dplyr.spark.hive的例子当一个已经连接到hiveServer-checkthis.但我无法连接到hiveServer,所以我无法从这个包的强大功能中受益...我试过这样的命令,但没有成功。有没有人

csv - HIVE 因不工作而逃脱 '\\'

我在S3中有一个数据集123,"一些随机的文本","","",236我在此数据集上构建了一个外部表:CREATEEXTERNALTABLEdb1.myData(field1bigint,field2string,field3string,field4string,field5bigint,ROWFORMATDELIMITEDFIELDSTERMINATEDBY','ESCAPEDBY'\\'LOCATION's3n://thisMyData/';问题/议题:当我做从db1.myData中选择*field2显示为somerandom我需要的字段是somerandom,text陷阱:1.我

java - 使用 java 使用语句类的单个 execute() 方法执行多个配置单元查询

我正在使用JavaAPI访问HiveServer2,我需要在单次调用语句类的execute()方法时执行多个配置单元查询。是否可以在对execute()方法的一次调用中提交多个配置单元查询。我有配置单元属性设置为:SEThive.exec.max.created.files=200000;SEThive.exec.compress.output=true;SETmapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;SEThive.exec.dynamic.partition=true;SETh