hadoop - Sqoop 导出插入重复条目

coder 2024-01-09 原文

我想了解 sqoop 导出的工作原理。我在 mysql 中有一个表站点，其中包含两列 id 和 url，并且包含两行

1,www.yahoo.com
2,www.gmail.com

表没有主键

当我通过执行以下命令将条目从 HDFS 导出到 mysql 站点表时，它会插入重复的条目

我在 HDFS 中有以下条目

1,www.one.com
2,www.2.com
3,www.3.com
4,www.4.com

sqoop export --table site --connect jdbc:mysql://localhost/loudacre --用户名训练 --密码训练 --export-dir/site/--update-mode allowinsert --update- key ID

因此，与其更新已经存在的 ID，不如再次插入重复的 ID(意思是两个 1，1 个用于 www.one.com，1 个用于 www.yahoo.com)

即使我删除 --update-key 结果也是一样的。它的发生是因为表没有主键

我在 Cloudera quickstart VM 中使用 sqoop 1.4.5

有什么帮助吗？

最佳答案

根据 Sqoop docs ,

MySQL will try to insert new row and if the insertion fails with duplicate unique key error it will update appropriate row instead.

因此，--update-key 列应该是主键或具有唯一索引。

在内部，sqoop 将创建这样的查询

INSERT INTO table (id,email) VALUES (1,www.one.com) ON DUPLICATE KEY UPDATE email=www.one.com

对于所有其他值依此类推。

关于hadoop - Sqoop 导出插入重复条目，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39137254/

条目 hadoop section code com sqoop cloudera-quickstart-vm

有关hadoop - Sqoop 导出插入重复条目的更多相关文章

hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby - 如何在 Ruby 字符串中插入项目符号字符？ - 2
我正在尝试创建一个带有项目符号字符的Ruby1.9.3字符串。str="•"+"helloworld"但是，当我输入它时，我收到有关非ASCII字符的语法错误。我该怎么做？最佳答案你可以把Unicode字符放在那里。str="\u2022"+"helloworld" 关于ruby-如何在Ruby字符串中插入项目符号字符？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1195
ruby - 正则表达式 - 保存重复捕获的组 - 2
这就是我做的a="%span.rockets#diamonds.ribbons.forever"a=a.match(/(^\%\w+)([\.|\#]\w+)+/)putsa.inspect这是我得到的#这就是我想要的#帮助？我尝试过但失败了:( 最佳答案通常，您不能获得任意数量的捕获组，但如果您使用扫描，您可以为您想要捕获的每个标记获得一个匹配:a="%span.rockets#diamonds.ribbons.forever"a=a.scan(/^%\w+|\G[.|#]\w+/)putsa.inspect["%span","
ruby - 在 ruby 中使用自动创建插入数组 - 2
我想知道是否可以通过自动创建数组来插入数组，如果数组不存在的话，就像在PHP中一样:$toto[]='titi';如果尚未定义$toto，它将创建数组并将“titi”压入。如果已经存在，它只会推送。在Ruby中我必须这样做:toto||=[]toto.push('titi')可以一行完成吗？因为如果我有一个循环，它会测试“||=”，除了第一次:Person.all.eachdo|person|toto||=[]#with1billionofperson,thislineisuseless999999999times...toto.push(person.name)你有更好的解决方案吗？
ruby-on-rails - 在方法调用中插入 Ruby？ - 2
在我的用户模型中，我有一堆属性，例如is_foos_admin和is_bars_admin，它们决定允许用户编辑哪些类型的记录。我想干掉我的编辑链接，目前看起来像这样:'edit'ifcurrent_user.is_foos_admin?%>...'edit'ifcurrent_user.is_bars_admin?%>我想做一个帮助程序，让我传入一个foo或bar并返回一个链接来编辑它，就像这样:助手可能看起来像这样(这不起作用):defedit_link_for(thing)ifcurrent_user.is_things_admin?link_to'Edit',edit_poly
Ruby 将对象插入现有的已排序对象数组 - 2
我有以下现有的Dog对象数组，它们按age属性排序:classDogattr_accessor:agedefinitialize(age)@age=ageendenddogs=[Dog.new(1),Dog.new(4),Dog.new(10)]我现在想插入一条新的狗记录，并将它放在数组中的正确位置。假设我想插入这个对象:another_dog=Dog.new(8)我想把它插入到数组中，让它成为数组中的第三项。这是一个人为的示例，旨在演示我特别想如何将一个项目插入到现有的有序数组中。我意识到我可以创建一个全新的数组并重新对所有对象进行排序，但这不是我的目标。谢谢!
Ruby 从数组中删除重复的对象 - 2
我无法使用传统的Ruby方法从下面的数组user_list中删除所有重复对象，从而获得预期的结果。有解决这个问题的聪明方法吗？users=[]user_list.eachdo|u|user=User.find_by_id(u.user_id)users 最佳答案这个怎么样？users=User.find(user_list.map(&:user_id).uniq)这具有作为一个数据库调用而不是user_list.size数据库调用的额外好处。关于Ruby从数组中删除重复的对象，我们在
Ruby:如何将条件插入字符串连接 - 2
在字符串连接中，是否可以直接在语句中包含条件？在下面的示例中，我希望仅当dear列表不为空时才连接"mydear"。dear=""string="hello"+"mydear"unlessdear.empty?+",goodmorning!"但是结果报错:undefinedmethod'+'fortrue我知道另一种方法是在这条语句之前定义一个额外的变量，但我想避免这种情况。最佳答案使用插值而不是连接更容易和更具可读性:dear=""string="hello#{'mydear'unlessdear.empty?},goodmo
Ruby 删除可枚举列表中的重复项 - 2
ruby中有没有一个很好的方法来删除可枚举列表中的重复项(即拒绝等) 最佳答案对于数组你可以使用uniq()方法a=["a","a","b","b","c"]a.uniq#=>["a","b","c"]所以如果你只是(1..10).to_a.uniq或%w{antbatcatant}.to_a.uniq因为无论如何，几乎所有您实现的方法都将作为Array类返回。关于Ruby删除可枚举列表中的重复项，我们在StackOverflow上找到一个类似的问题： h
ruby - 重复排列 - 2
我知道如何创建值数组的排列。例如:[*1..3].permutation(2)这导致以下六种排列:[1,2][1,3][2,1][2,3][3,1][3,2]但这个结果缺少三个排列，它们是相同值的组合，即:[1,1][2,2][3,3]如何获得所有排列，包括上面重复的排列？最佳答案尝试#repeated_permutation:[*1..3].repeated_permutation(3).to_a>pp[*1..3].repeated_permutation(3).to_a[[1,1,1],[1,1,2],[1,1,3],[1

hadoop - Sqoop 导出插入重复条目

有关hadoop - Sqoop 导出插入重复条目的更多相关文章

随机推荐