我们有一个包含三个不同 ID 的 Hive 表,所有 ID 都是可选的。在每一行中,必须至少提供三个 ID 中的一个。如果提供了多个 ID,这将在多个 ID 之间建立等价关系。
我们需要根据在任何行中建立的等价关系,为每一行分配一个唯一的主 ID。例如:
Line id1 id2 id3 masterID
--------------------------------------
(1) A1 M1
(2) A2 M1
(3) A3 M1
(4) A1 A2 M1
(5) A2 A3 M1
(6) B1 A2 M1
(7) C1 C3 M2
因为在第 4 行,A1 和 A2 都存在,我们知道这些 ID 是等价的。
同样,在第 5 行,A2 和 A3 都存在,我们知道这些 ID 也是等价的。
同样在第 6 行,我们同时拥有 B1 和 A2,所以它们也是等价的。
在第 7 行,我们在 C1 和 C3 之间等价。
鉴于以上信息,A1、A2、A3、B1都是等价的。因此,包含任何这些 ID 的所有行都必须分配相同的主 ID,因此我们为它们提供了相同的主 ID(“M1”)。第 7 行收到一个完全属于自己的唯一 ID(“M2”),因为它的 ID 都不匹配任何其他 ID。
我们如何编写一个 Hive 查询来以这种方式分配 master ID?如果 Hive 不是完成此任务的最佳工具,您能否建议一种使用 Hadoop 生态系统中的其他工具来为这些行分配主 ID 的方法?
最佳答案
您可以通过将您的 ID 表示为顶点并找到连接的组件来解决此问题。更多关于这个想法 here , 第 3.5 节。让 init_table 是你的表。一、建立链接表
create table links as
select distinct id1 as v1, id2 as v2
from init_table
where id1 is not null and id2 is not null
union all
select distinct id1 as v1, id3 as v2
from init_table
where id1 is not null and id3 is not null
union all
select distinct id2 as v1, id3 as v2
from init_table
where id2 is not null and id3 is not null
;
接下来为每个链接生成一些数字,例如行号并执行传播:
create table links1 as
with temp_table as (
select v1, v2, row_number() over () as score
from links
)
, tbl1 as (
select v1, v2, score
, max(score) over (partition by v1) as max_1
, max(score) over (partition by v2) as max_2
from temp_table
)
select v1, v2, greatest(max_1, max_2) as unique_id
from tbl1
;
然后只需将您的 ID 加入匹配表即可:
create table matching_table as
with temp_table as (
select v1 as id, unique_id
from link1
union all
select v2 as id, unique_id
from link1
)
select distinct id, unique_id
from temp_table
如果一些 ID 没有耦合,那么不难找出哪些 ID。 希望这会有所帮助。
关于hadoop - Hive 查询以根据多个可选键分配分组键,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52104199/
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题
在控制台中反复尝试之后,我想到了这种方法,可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法,但它确实有效。有没有人有更好的建议,或者这是一个很好的方法?#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev
我正在用Ruby编写一个简单的程序来检查域列表是否被占用。基本上它循环遍历列表,并使用以下函数进行检查。require'rubygems'require'whois'defcheck_domain(domain)c=Whois::Client.newc.query("google.com").available?end程序不断出错(即使我在google.com中进行硬编码),并打印以下消息。鉴于该程序非常简单,我已经没有什么想法了-有什么建议吗?/Library/Ruby/Gems/1.8/gems/whois-2.0.2/lib/whois/server/adapters/base.
我有多个ActiveRecord子类Item的实例数组,我需要根据最早的事件循环打印。在这种情况下,我需要打印付款和维护日期,如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询,用于查找maintenance和payment项目(非排他性查询),并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代
我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何
通过rubykoans.com,我在about_array_assignment.rb中遇到了这两段代码你怎么知道第一个是非并行赋值,第二个是一个变量的并行赋值?在我看来,除了命名差异之外,代码几乎完全相同。4deftest_non_parallel_assignment5names=["John","Smith"]6assert_equal["John","Smith"],names7end45deftest_parallel_assignment_with_one_variable46first_name,=["John","Smith"]47assert_equal'John
我有一个具有一些属性的模型:attr1、attr2和attr3。我需要在不执行回调和验证的情况下更新此属性。我找到了update_column方法,但我想同时更新三个属性。我需要这样的东西:update_columns({attr1:val1,attr2:val2,attr3:val3})代替update_column(attr1,val1)update_column(attr2,val2)update_column(attr3,val3) 最佳答案 您可以使用update_columns(attr1:val1,attr2:val2
我正在尝试修改当前依赖于定义为activeresource的gem:s.add_dependency"activeresource","~>3.0"为了让gem与Rails4一起工作,我需要扩展依赖关系以与activeresource的版本3或4一起工作。我不想简单地添加以下内容,因为它可能会在以后引起问题:s.add_dependency"activeresource",">=3.0"有没有办法指定可接受版本的列表?~>3.0还是~>4.0? 最佳答案 根据thedocumentation,如果你想要3到4之间的所有版本,你可以这
我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征,我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现,但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden
我知道我可以指定某些字段来使用pluck查询数据库。ids=Item.where('due_at但是我想知道,是否有一种方法可以指定我想避免从数据库查询的某些字段。某种反拔?posts=Post.where(published:true).do_not_lookup(:enormous_field) 最佳答案 Model#attribute_names应该返回列/属性数组。您可以排除其中一些并传递给pluck或select方法。像这样:posts=Post.where(published:true).select(Post.attr