草庐IT

ones_like

全部标签

hadoop - 类似于 Mapper setup() 的 Hive setup()-like 功能?

我想用Hive替换Hadoop作业。我的挑战是在Hadoop中,我正在使用setup()通过从分布式缓存中读取引用数据(兴趣点)来构建kdtree。然后我在map()中使用kdtree来评估目标数据与kdtree的距离。在Hive中,我想使用带有evaluate()方法的udf来确定距离,但我不知道如何使用引用数据设置kdtree。这可能吗? 最佳答案 我可能没有完整的答案,所以我只是提出一些可能有帮助的想法。您可以使用ADDFILE...将文件添加到hive中的分布式缓存Hive11+(我认为)应该允许您访问GenericUDF.

hadoop - pig 错误 0 : Scalar has more than one row in the output

我有两个文件,我试图在模式匹配的基础上加入这两个文件。File1:weather.bbc.co.uk,112ads.facebook.com,113ads.amazon.co.uk,114www.sky.com,115news.bbc.co.uk,116pics.facebook.com,117File2:facebook.com,facebookbbc.co.uk,bbcnetflix.com,netflixflipkart.com,flipkartoutput:weather.bbc.co.uk,112,bbc.co.uk,bbcads.facebook.com,113,faceb

scala - Spark 流 : Write Data to HDFS by reading from one HDFSdir to another

我正在尝试使用SparkStreaming将数据从一个HDFS位置读取到另一个位置下面是我在spark-shell上的代码片段但我看不到在HDFS输出目录上创建的文件能否指出如何在HDFS上加载文件scala>sc.stop()scala>importorg.apache.spark.SparkConfscala>importorg.apache.spark.streamingscala>importorg.apache.spark.streaming.{StreamingContext,Seconds}scala>valconf=newSparkConf().setMaster("l

scala - Spark : Would a dataframe repartitioned to one node experience a shuffle when a groupBy is called on it?

假设我有一些数据都在同一个分区上(我之前在数据帧上执行了.coalesce(1))。我现在想对数据进行分组并对其进行聚合。如果我在数据框上使用.groupBy,这些组会被放置到不同的节点上吗?如果这是真的,我想避免这种情况,因为我想对这些组执行这些计算而不需要过多改组。 最佳答案 首先,coalesce(1)并不能保证你的所有数据都在一个节点中,要确保你必须使用repartition(1),这将迫使您将所有数据统一在一个节点中。coalesce仅对同一节点中的分区进行分组,因此如果您的数据分布在5个节点中(每个节点中有多个分区),它

regex - 当 regexp_like 和 regexp_extract 工作正常时,Impala regexp_like 查询返回 null

我需要使用regex_extract从列中的字符串中提取数字。我在外部表上使用Impala。我已经检查了正则表达式,为了测试它,我还使用了regexp_like和regexp_replace。他们两个都工作得很完美。这里是查询:selectsucursal,regexp_like(sucursal,'^[0-9]{1,3}')asmatch,regexp_extract(sucursal,'^[0-9]{1,3}',1)asCodSucusal,regexp_replace(sucursal,'^[0-9]{1,3}','lala')asRepCodSucusalfromjdv.stg

regex - CASE WHEN - LIKE - Hadoop Hive 中的 REGEXP

我想使用CASEWHEN、LIKE和正则表达式在配置单元表中编写查询。我使用了regexp和rlike,但我没有得到想要的结果。到目前为止,我的尝试如下selectdistinctendingfrom(selectdate,ending,name,count(distinctid)from(selectCONCAT_WS("/",year,month,day,hour)asdate,id,name,casewhentype='TRAN'then'tran'wheneventsregexp'%[:]no_reply[:]%[^o][^n][:]incomplete[:]%'andtype

java - Hadoop : Multiple Emits from one Map function

我正在用java编写一个小的hadoop程序,我的要求是从一个Map方法执行两个Emits,并在一个Reduce方法中处理这两个Emits。这可能吗?如果可能,我如何区分这两个Emits以便我可以在我的Reduce方法中以不同方式处理它们?我对此进行了很多搜索,但无法获得任何具体信息。我不允许使用任何外部库。 最佳答案 map/reduce任务将键/值作为输入。值不必是像WordCount这样的大多数示例中的字符串,它也可以是复杂的结构。你可以有一个结构,其中有两个字段对应于两个发射器,并且该键/值对将自动发送到一个缩减器。

azure - 即使使用 hive.merge,Tez : one file per insert, 上的 Hive 0.14。 active

我需要每隔15分钟将数据插入到存储为ORC的不同表中并聚合值。那些INSERT使用动态分区。每个INSERT都会在分区中创建一个新文件,这会减慢我的聚合查询速度。我在网上搜索,发现了一些关于这个案例的主题,比如thisone.所以我在hive-site.xml中添加了这些设置:hive.merge.mapfiles=true;hive.merge.mapredfiles=true;hive.merge.tezfiles=truehive.merge.smallfiles.avgsize=256000000;但即使使用这些设置,每次插入都会在每个分区上创建一个新文件,并且文件不会合并。有

python - hbase 动物园管理员 : Which one come first on AWS environement?

我在我的AWS免费套餐上设置了一个Hadoop环境。它是运行hadoop2.7.1-Ubuntu14.04(不是EMR)的1master-3slaves。现在我想进入下一步,看起来HBase是一个很好的起点。进一步阅读后,我注意到Zookeeper正在出现......问题:设置好hadoop后,是先安装配置HBase多节点还是Zookeeper再安装HBase(sqoop、flume、pig...应该按照这一步完成)?奖励:我的目的是像可视化软件一样连接R、Tableau并运行一些python程序来与AWS一起玩,所以欢迎提出建议 最佳答案

hadoop - 在 Hive 中使用 LIKE 或 RLIKE 连接表

我正在尝试(INNER)使用RLIKE连接Hive中的两个表。selecta.col_x,b.col_y,count(*)asnfromtableAajointableBbONa.col_xRLIKEconcat('^',b.col_z)groupbya.col_x,b.col_y(表A约100M条记录,表B约1k条记录)此查询将不起作用,因为Hive仅支持相等连接。我将不等式移至where子句(引用:ErrorinHiveQuerywhilejoiningtables)。selecta.col_x,b.col_y,count(*)asnfromtableAa,tableBbWHERE