草庐IT

mongo_rows_struct

全部标签

json - 配置单元是否允许列名为 "rows"?

我知道每个hive版本都有一些保留关键字,不能用作列名。但问题是我的数据来自json,而我的列名是根据json值。当然我不能修改数据。还有其他选择吗??这里是一行示例数据和表格。{"id":"eew7-9yf2","name":"StudentLoanComplaints","averageRating":0,"createdAt":1434385453,"description":"Eachweekwesendthousandsofconsumers'complaintsaboutfinancialproductsandservicestocompaniesforresponse.C

mongodb - 是否可以通过 Mongo 连接器将多个 mongo 集合导入 Hadoop

我们正在使用MongoDB和AmazonEMR进行概念验证。我们已经能够得到一个简单的端到端解决方案,它可以从mongo中的一个集合读取数据,执行映射/归约函数,然后将输出写入Mongo中的另一个集合。我的问题是-是否可以从Mongo中读取用于查找目的的其他集合。即,collection1中的所有数据都将对其执行map/reduce函数,但map/reduce函数将使用collection2和collection3中的数据进行查找。如果这不可能-那么将查找数据放入hadoop以便将其用于查找目的的最佳方法是什么? 最佳答案 可以在M

hadoop - teragen "rows"不是应该以换行符 (\r\n) 结尾吗?

我试图在SO处解决一个(已删除的)问题,关于如何在teragen生成的数据上定义一个Hive外部表。根据teragen代码的注释,每100个字节的数据(=行)应该以\r\n结尾,但是,它似乎以4个十六进制值为ccdd的字符结尾嗯嗯完整的演示在下面。有什么想法吗?谢谢/***Generatetheofficialterasortinputdataset.*Theuserspecifiesthenumberofrowsandtheoutputdirectoryandthis*classrunsamap/reduceprogramtogeneratethedata.*Theformatoft

java - 无法使用 mongo-hadoop 连接器将 Hive 与 MongoDB 连接

我第一次尝试使用mongo-hadoop-core2.0.2安装和配置hive。我已经安装了hadoop2.8.0、Hive2.1.1和MongoDB3.4.6。单独运行时一切正常。我的问题是,我无法将MongoDB与Hive连接起来。如此处所述,我正在使用mongo-Hadoop连接器https://github.com/mongodb/mongo-hadoop/wiki/Hive-Usage所需的jar已添加到Hadoop和Hive库中。即使我从配置单元控制台将它们添加到hive.sh或运行时。执行创建表查询时出现错误我的查询是CREATEEXTERNALTABLEtestHive

regex - Hadoop Hive SerDe Row Format for String Quoted Space delimited file

我正在尝试为具有以下格式的日志文件创建一个Hive表。日志文件:#Software:1#Version:1#Start-Date:xx#Date:xx#Fields:datetimetime-takenc-ipcs-usernamecs-auth-groupx-exception-idsc-filter-resultcs-categoriescs(Referer)sc-statuss-actioncs-methodrs(Content-Type)cs-uri-schemecs-hostcs-uri-portcs-uri-pathcs-uri-querycs-uri-extensionc

hadoop - pig 错误 0 : Scalar has more than one row in the output

我有两个文件,我试图在模式匹配的基础上加入这两个文件。File1:weather.bbc.co.uk,112ads.facebook.com,113ads.amazon.co.uk,114www.sky.com,115news.bbc.co.uk,116pics.facebook.com,117File2:facebook.com,facebookbbc.co.uk,bbcnetflix.com,netflixflipkart.com,flipkartoutput:weather.bbc.co.uk,112,bbc.co.uk,bbcads.facebook.com,113,faceb

sql - hadoop 配置单元使用 row_number()

我有一个包含许多重复ID的数据集。我只想做一个row_number()并取第一个。如果我让table1离开与table2的连接并且只使用table2.rownumber=1,它就可以工作。但是,如果我在没有表连接的情况下进行独立操作,则不会。我有以下代码:选择ID,姓名,身份证,ROW_NUMBER()OVER(PARTITIONBYIDORDERBYID)作为RNK从表1其中RNK=1;错误消息显示RNK不是有效的表列或别名等。如有任何帮助,我们将不胜感激。谢谢。 最佳答案 您必须使用子查询或CTE来引用用于过滤的列别名:SELE

hadoop - Nutch 非法参数异常 : Row length 41221 is > 32767

我已经添加了一组种子以使用此命令进行抓取./bin/crawl/largeSeeds1http://localhost:8983/solr/ddcd4对于第一次迭代,所有命令(注入(inject)、生成、提取、解析、更新表、索引器和删除重复项。)都已成功执行。对于第二次迭代,“CrawlDBupdate”命令失败(请参阅错误日志以供引用),由于此命令失败,整个过程被终止。软件栈为nutch-branch-2.3.1、gora-hbase0.6.1Hadoop2.5.2、hbase-0.98.8-hadoop216/01/2002:45:19INFOparse.ParserJob:Par

hadoop - hive : Replace string/pattern in row if it exists else do nothing

我有一张表A,其中包含ID、姓名、年龄。>idnameage>{20}Joan12>3James12>12Jill12>{54}Adam12>{10}Bill12我需要移除{}周围的“id”字段。我试过这个:translate(regexp_extract(id,'([^{])([^}])',2),'{','')它有效,但对于没有{}的值返回null。id312有没有办法让我得到输出为???id203125410 最佳答案 您可以使用regexp_replaceudf来删除“{}”,例如:selectregexp_replace(i

mongodb - Mongo Hadoop 连接器支持聚合吗?

我正在尝试使用spark的mongohadoop(https://github.com/mongodb/mongo-hadoop)库对mongo集合执行一些聚合操作。我使用作为输入发送到newApiHadoopRDD的mongo.input.query配置输入我的查询。ConfigurationmongodbConfig=newConfiguration();mongodbConfig.set("mongo.job.input.format","com.mongodb.hadoop.MongoInputFormat";mongodbConfig.set("mongo.input.uri