给刚玩Hadoop的朋友一些建议

Slaytanic 2023-03-28 原文

随着两会中间央视新闻天天说大数据，很多人纷纷开始关注大数据和Hadoop以及数据挖掘和数据可视化了，我现在创业，遇到很多传统数据行业往Hadoop上面去转型的公司和个人，提了很多问题，大多数问题还都是差不多的。所以我想整理一些，也可能是很多人都关注的问题。

关于Hadoop版本的选择？

目前为止，作为半只脚迈进Hadoop大门的人，我建议大家还是选择Hadoop 1.x用。可能很多人会说，Hadoop都出到2.4，为啥还用1.x呢，说这话一听就没玩过hadoop。

理由一： Hadoop 1.x和2.x是完全两个不同的东西，并不是像说单机的webserver从1.0升级到2.0那么简单的事情。也不是说我现在用的mysql 5.0，只要编译一个新版本就直接无缝迁移到5.5的事情。Hadoop从1.0过度到2.0是整个架构体系全部推翻重写的。从实现方式到用户接口完全是两个完全不同的东西，不要简单的认为那不过就像nginx从0.8升级到1.4一样。所以我给的建议是，生产环境用1.x，实验环境部署2.x作为熟悉使用。

理由二：依然是，Hadoop不是webserver，分布式系统尽管Hadoop实现出来了，但是他仍然是非常复杂的一套体系，单说HDFS存储，以前Hadoop 0.20.2想升级到0.20.203，首先你需要在所有节点部署上新版的Hadoop，然后停止整个集群的所有服务，做好元数据备份，然后做HDFS升级，还不能保证HDFS一定能升级成功。这样升级一次的代价是很大的，停服务不说，万一升级不成功能不能保证元数据完整无误都是不可预知的。远比你想象的麻烦的多得多得多。千万不要以为有了Cloudera Manager或者其他管理软件你就真的可以自动化运维了，部署Hadoop只是×××长征的第一步而已。

理由三： Hadoop 2.x目前很不稳定，Bug比较多，更新迭代速度太快，如果你想选择2.x，想清楚再做决定，这玩意不是说你选择新的版本就万无一失了，Openssl多少年了，还出现了心脏滴血的漏洞，何况刚出来才不到一年的Hadoop2，要知道，Hadoop升级到1.0用了差不多7，8年的时间，而且经过了无数大公司包括Yahoo，Facebook，BAT这样的公司不停的更新，修补，才稳定下来。Hadoop2才出现不到一年，根本没有经过长期稳定的测试和运行，看最近Hadoop从2.3升级到2.4只用了一个半月，就修复了400多个bug。

所以，不建议大家现在直接在生产集群就上2.x，再等等看吧，等稳定了再上也不迟。如果大家关注Apache JIRA的话，可以看到Hadoop 3.0已经开始内部bug跟踪了。

关于Hadoop的人才？

我觉得企业需要从两个方面来考虑hadoop的人才问题，一个是开发人才，一个是维护人才。

开发人才目前比较匮乏，基本都集中在互联网，但这个是一个在相对短时间内能解决的事情，随着Hadoop培训的普及和传播。以及Hadoop本身在接口方面的完善，这样的人才会越来越多。

维护人才我觉得互联网外的行业一段时间内基本不用考虑，不是太多了，而是根本没有。Hadoop和云计算最后拼的就是运维，大规模分布式系统的运维人才极难培养。特别是DevOps，本身DevOps就很稀缺，而在稀缺人才中大部分又是用puppet, fabric去搞web运维的，转向分布式系统运维难度还是有的。所以这种人才很难招聘，也很难培养。参看左耳朵耗子的InfoQ访谈 http://www.infoq.com/cn/articles/chenhao-on-cloud。

然后你需要明确自己想要的开发人才类型，打个比方Hadoop就好象是windows或者linux操作系统，在这个操作系统上，既可以用photoshop画图，又可以用3dmax做动画，也可以用Office处理表格，但是应用软件所实现的目的是不一样的。这还是需要CTO，CIO对大数据和Hadoop及周边应用有个起码的了解。不要把Hadoop跟mysql php或者传统的J2EE做类比，认为没什么难的，大不了外包。完全不是这么回事。

关于Hadoop的培训内容？

经过几家企业的Hadoop内部培训，我发现刚转型企业都有一个问题是贪多。想做一次培训把hadoop和周边所有东西都了解透了，比较典型的是我最近去上海培训的一个公司，从Hadoop到HBase到Mahout到分词到Spark Storm全要听。然后培训机构就只能找几个老师分别讲不同的内容，我觉得这种培训对企业的意义不大，顶多就是给员工一个扎堆睡午觉的机会。

第一、Hadoop就不是一两次讲课就能搞明白的东西，除了理论知识，还需要大量的实践经验的支持。

第二、每个Hadoop生态组件都是一个很复杂的玩意，使用确实简单，但是要真正理解每一个组件没那么容易。尤其是Mahout，Spark，R这些涉及大量统计学和数学理论的玩意，你叫一帮搞产品的，毫无编程和统计学背景的人来听课，他们真的只能睡午觉，我都觉得让他们过来听Hadoop是很残忍的事情，明明听不懂，因为领导在旁边，还不得不努力坚持不睡觉。

第三、每个人擅长的领域不同，没有任何一个老师既能讲Windows服务器运维，又能讲Excal高级技巧还能讲3DMax动画PhotoShop绘图的。而培训机构为了抢单，往往承诺企业找几个老师一起讲，企业也往往觉得，一样的价格，我把所有都听了，多爽啊。其实不然，每个老师的讲课风格，知识点水平，内容设计都是不同的，鸡肉，面粉，蔬菜放在一起不一定是大盘鸡和皮带面，也很有可能是方便面，最后搞得食之无味弃之可惜。所以企业在选择做培训的时候一定要有的放矢，不要搞大而全，浪费资源不说，还毫无效果。可以分开几种不同的培训方向，找不同的，专业性强的培训机构来完成。当然，这也需要CTO,CIO具有一定的想法和眼光，更多的是，起码你作为领导者，应该比别人了解的更多一点，不是说技术细节上的，而是技术方向上的把握要比员工更精准。

关于与传统业务的对接？

这个也是很多人关心的，特别是传统企业，之前用的是Oracle，大量的数据存放在里面，一下子用Hadoop替代是不可能的。这个我觉得就属于想多了，Hadoop说白了是离线分析处理工具，目的不是代替你的数据库，事实上也根本不可能代替关系型数据库。他所作的是关系型数据库做不了的脏活累活，是原有业务架构的补充，而不是替换者。

而且这种辅助和替换是逐步完成的，不能一蹴而就，在我所认知的范围内，没有任何一家公司上来就说我直接把mysql不用了，直接上Hadoop，碰上这样的，我首先会赞叹他的决心，然后我拒绝给他出方案，我会明确告诉他，这样是不可能的。

Hadoop提供了多种工具给大家做传统数据库业务的对接，除了sqoop，你还可以自己写，Hadoop接口很简单的，JDBC接口也很简单的。

有日子没更新博客了，创业真的很忙，也很难。好在大批的Hadoop圈子里的朋友都很支持我们，给予我们很多无私的帮助，谢谢大家。

Hadoop 给刚 nbsp 的部署开发运维建议 HadoopHadoop 大数据

有关给刚玩Hadoop的朋友一些建议的更多相关文章

ruby-on-rails - 如何生成传递一些自定义参数的 `link_to` URL？ - 2
我正在使用RubyonRails3.0.9，我想生成一个传递一些自定义参数的link_toURL。也就是说，有一个articles_path(www.my_web_site_name.com/articles)我想生成如下内容:link_to'Samplelinktitle',...#HereIshouldimplementthecode#=>'http://www.my_web_site_name.com/articles?param1=value1¶m2=value2&...我如何编写link_to语句“alàRubyonRailsWay”以实现该目的？如果我想通过传递一些
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
HBase Region 简介和建议数量&大小 - 2
Region是HBase数据管理的基本单位,region有一点像关系型数据的分区。region中存储这用户的真实数据，而为了管理这些数据，HBase使用了RegionSever来管理region。Region的结构hbaseregion的大小设置默认情况下，每个Table起初只有一个Region，随着数据的不断写入，Region会自动进行拆分。刚拆分时，两个子Region都位于当前的RegionServer，但处于负载均衡的考虑，HMaster有可能会将某个Region转移给其他的RegionServer。RegionSplit时机：当1个region中的某个Store下所有StoreFile
ruby - 找一些句子 - 2
我想找到在某些文本中找到一些(让它是两个)句子的好方法。什么会更好-使用正则表达式或拆分方法？你的想法？应JeremyStein的要求-有一些例子示例:输入:ThefirstthingtodoistocreatetheCommentmodel.We’llcreatethisinthenormalway,butwithonesmalldifference.IfwewerejustcreatingcommentsforanArticlewe’dhaveanintegerfieldcalledarticle_idinthemodeltostoretheforeignkey,butinthis
ruby-on-rails - 我需要从 HTML 转到 markdown，有什么建议吗？ - 2
我正在使用Maruku，将Markdown(超集)转换为HTML，你知道我该怎么做才能从HTML转换为Markdown吗？最佳答案 Google发现了一个名为reverse_markdown的ruby脚本.它似乎可以满足您的需求。关于ruby-on-rails-我需要从HTML转到markdown，有什么建议吗？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/175162
ruby block 并从 block 中返回一些东西 - 2
我正在使用ruby1.8.7。p=lambda{return10;}deflab(block)puts'before'putsblock.callputs'after'endlabp以上代码输出为before10after我将相同的代码重构到这里deflab(&block)puts'before'putsblock.callputs'after'endlab{return10;}现在我收到LocalJumpError:意外返回。对我来说，这两个代码都在做同样的事情。是的，在第一种情况下我传递了一个过程，在第二种情况下我传递了一个block。但是&block将该block转换为pro
ruby - 如果键存在，向散列值添加一些东西？ - 2
我在Ruby中有一个哈希:hash=Hash.new里面有一些键值对，比如说:hash[1]="One"hash[2]="Two"如果散列包含键2，那么我想将“Bananas”添加到它的值中。如果散列没有键2，我想创建一个新的键值对2=>"Bananas"。我知道我可以通过首先使用has_key?检查散列是否具有key2来做到这一点，然后采取相应的行动。但这需要一个if语句和不止一行。那么是否有一种简单、优雅的单行代码可以实现这一目标？最佳答案这个有效:hash[2]=(hash[2]||'')+'Bananas'如果您希望所有
ruby-on-rails - 仍然建议使用 Minitest 在 Rails 4 中测试路由吗？ - 2
在Rails3中，当在MiniTest中编写功能测试时，我养成了将路由测试与Controller操作分开测试的习惯。我从RailsGuideonTesting-Section9:TestingRoutes得到了这个想法.然而，在将我的应用程序升级到Rails4之后，我注意到如果我不为get|patch|post|delete方法提供一组适当的参数。例如，给定路线:#config/routes.rbnamespace"api"donamespace"v2",defaults:{format::json}doresources:usersdoresources:postsdoresourc
ruby - 使用 gmail gem 跟踪一些电子邮件 - 2
我正在使用gmailgem发送电子邮件，我需要跟踪这些电子邮件。我该怎么做？我正在尝试搜索带有message_id的电子邮件，但它会从我的收件箱中提取所有电子邮件，而我只想要特定电子邮件的回复。这是我的实际代码:*使用message_id保存电子邮件*mail=gmail.deliver(email)Email.create(:message_id=>mail.message_id,:from=>user.email,:to=>annotation.to,:body=>annotation.content,:title=>annotation.title,:annotation=>an
ruby - 一些简单的 Ruby 问题——迭代器、 block 和符号 - 2
我的背景是PHP和C#，但我真的很想学习RoR。为此，我开始阅读官方文档。我对一些代码示例有一些疑问。第一个是迭代器:classArraydefinject(n)each{|value|n=yield(n,value)}nenddefsuminject(0){|n,value|n+value}enddefproductinject(1){|n,value|n*value}endend我理解yield的意思是“在这里执行关联的block”。令我震惊的是|value|n=each的一部分。其他block对我来说更有意义，因为它们似乎模仿C#风格的lambda:publicintsum(in

给刚玩Hadoop的朋友一些建议

有关给刚玩Hadoop的朋友一些建议的更多相关文章

随机推荐