草庐IT

是否需要追逐潮流!基于Hadoop的感想

songknight 2023-03-28 原文
   近几年大数据的概念被炒的红红火火,各种云应运而生,也有不少企业开始搭载自己的云,但是真的什么企业都需要吗?下面我要说的也仅仅是基于我目前工作的一些感想,欢迎拍砖!

   公司的主要数据是利用HBase收集的报文,整个到目前运行了一年零一两个月的时间。目前数据量是266GB(其中包含一份完全副本,实际业务数据133GB),在7月出进行数据统计时,该平台数据量为250GB(其中包含一份完全副本,实际业务数据125GB),并且通过计算可以得知,在过去14个月内,平均每月获得的数据量为9.5GB,并且7月份一个月的时间内HBase收集的报文为8GB左右。

   通过上面的描述可以看出这个业务的数据量并不大,可能很多公司tomcat一天的日志量都比这一年的总数据量要大的多。并且在前段时间对HBase内表的数据进行了一次统计,大约有700W的数据,搜索一共耗时20分钟左右。说实话,这个速度并不算快,由于节点数量的不足并不能充分发挥HBase在分布式上的有点,但是这个时间对比Oracle真的能有提升吗?

   在有了如上疑问后跟领导进行了沟通,领导要表达的是:不管是不是合适,我们要先抢占技术的高峰,就算目前数据量不大以后也会变大。根据领导的回答我也算明白了,当初在构建这个平台的时候基本没有考虑到这个平台是否符合业务逻辑的需求(PS:虽然我在这个公司也不想涉及到业务逻辑方面的内容),只是因为这个东西很新,很火。

   在和领导沟通后,我简单的了解了一下表内的内容:时间、报文类型(公司设定的发送报文、接受报文、企业报文用不同的编号来表示)、报文XML文件。说真的,存储的方式对于分析来说作用很小,因为XML文件没有解析,所以有了第二次沟通。

   在第二次沟通前我了解了一下关于XML解析方面的内容,可以通过Java程序解析后再报错,同时Hadoop在某一个版本是确实存在着XML解析的类,不过后来被取消了。沟通的结果就是领导让我去想办法弄XML的解析,说真的这东西我真力不从心。后来的几次沟通也是这样(内容多种多样,包含HBase的API接口压力测试,云平台改进想法文档等等),最后都是无功而返。

   通过多次的沟通,我始终觉得领导从来没有在这个系统是不适合Hadoop上进行过思考,每次一说到这个,就开始跟我说百度、谷歌每天要对几个PB的文件进行分析,而我们对百十来个GB的数据束手无策。但是真的是束手无策吗?每次沟通我都会说一些想法,最后也都被很容易得PASS了,原因大部分都是因为他试验过效率不行等原因。

   一个月就算多说10个G的数据量,平均到每天也就不足350MB。真的都放到Oracle甚至MySQL里面每天跑个列表出来应该并不困难。而坚定的认为Hadoop在架构上比那两个更先进,所以效果就更好。这里我打个比方吧!

   一个人走路的速度比骑车的速度慢,骑车的速度又比汽车的速度慢!同样是5公里,走路可能需要半个小时,骑车需要15分钟,汽车需要10分钟。但是如果你想从一个楼到对面的楼里面去那?你会选择开走路、汽车还是骑车那一种?如果你要是去1公里外的报亭买报纸你会选择开走路、汽车还是骑车那一种?如果你去50公里外的地方郊游你会选择开走路、汽车还是骑车那一种?

   现在的情况是:

   小部分企业给人的感觉就是开着汽车去隔壁串门!

   大部分企业跟人的感觉是开着汽车去一公里外的地方买报纸!

   极小一部分的企业是开着汽车去郊游!

有关是否需要追逐潮流!基于Hadoop的感想的更多相关文章

  1. ruby - 我需要将 Bundler 本身添加到 Gemfile 中吗? - 2

    当我使用Bundler时,是否需要在我的Gemfile中将其列为依赖项?毕竟,我的代码中有些地方需要它。例如,当我进行Bundler设置时:require"bundler/setup" 最佳答案 没有。您可以尝试,但首先您必须用鞋带将自己抬离地面。 关于ruby-我需要将Bundler本身添加到Gemfile中吗?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/4758609/

  2. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

    给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

  3. ruby - 检查数组是否在增加 - 2

    这个问题在这里已经有了答案:Checktoseeifanarrayisalreadysorted?(8个答案)关闭9年前。我只是想知道是否有办法检查数组是否在增加?这是我的解决方案,但我正在寻找更漂亮的方法:n=-1@arr.flatten.each{|e|returnfalseife

  4. ruby - rspec 需要 .rspec 文件中的 spec_helper - 2

    我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require,它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中,因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗? 最佳答案 我不在Bundler上工作,所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件,通常按照当前的惯例,只

  5. ruby - 如何在 Lion 上安装 Xcode 4.6,需要用 RVM 升级 ruby - 2

    我实际上是在尝试使用RVM在我的OSX10.7.5上更新ruby,并在输入以下命令后:rvminstallruby我得到了以下回复:Searchingforbinaryrubies,thismighttakesometime.Checkingrequirementsforosx.Installingrequirementsforosx.Updatingsystem.......Errorrunning'requirements_osx_brew_update_systemruby-2.0.0-p247',pleaseread/Users/username/.rvm/log/138121

  6. ruby - 检查字符串是否包含散列中的任何键并返回它包含的键的值 - 2

    我有一个包含多个键的散列和一个字符串,该字符串不包含散列中的任何键或包含一个键。h={"k1"=>"v1","k2"=>"v2","k3"=>"v3"}s="thisisanexamplestringthatmightoccurwithakeysomewhereinthestringk1(withspecialcharacterslike(^&*$#@!^&&*))"检查s是否包含h中的任何键的最佳方法是什么,如果包含,则返回它包含的键的值?例如,对于上面的h和s的例子,输出应该是v1。编辑:只有字符串是用户定义的。哈希将始终相同。 最佳答案

  7. ruby-on-rails - Ruby 检查日期时间是否为 iso8601 并保存 - 2

    我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby​​是否有特定方法,但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗?编辑解释我的环境,并改变问题的范围。因此,我的项目将使用jsapiFullCalendar,这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么,以正确的格式将日期保存在数据库中,或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。 最佳答案 我不太明白你的问题。我假设您想检查

  8. ruby - 检查日期是否在过去 7 天内 - 2

    我的日期格式如下:"%d-%m-%Y"(例如,今天的日期为07-09-2015),我想看看是不是在过去的七天内。谁能推荐一种方法? 最佳答案 你可以这样做:require"date"Date.today-7 关于ruby-检查日期是否在过去7天内,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/32438063/

  9. ruby - 如何验证 IO.copy_stream 是否成功 - 2

    这里有一个很好的答案解释了如何在Ruby中下载文件而不将其加载到内存中:https://stackoverflow.com/a/29743394/4852737require'open-uri'download=open('http://example.com/image.png')IO.copy_stream(download,'~/image.png')我如何验证下载文件的IO.copy_stream调用是否真的成功——这意味着下载的文件与我打算下载的文件完全相同,而不是下载一半的损坏文件?documentation说IO.copy_stream返回它复制的字节数,但是当我还没有下

  10. ruby - 是否可以覆盖 gemfile 进行本地开发? - 2

    我们的git存储库中目前有一个Gemfile。但是,有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它,我必须将它添加到我们的Gemfile中,但每次我checkout到我们的master/dev主分支时,由于与跟踪的gemfile冲突,我必须删除它。我想要的是类似Gemfile.local的东西,它将继承从Gemfile导入的gems,但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗? 最佳答案 设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI

随机推荐