草庐IT

EasyHadoop软件开发总结和知识点整理

Slaytanic 2023-03-28 原文
之前一直忙于写代码,也没有整理一下思路来做一个技术点的分享,也该整理一下技术相关的东西。分两篇吧,一篇太长了也不利于阅读,废话写多了,大家看着困。当然我的技术水平也很烂,懂行的不要见笑就好了。

第一篇写EasyHadoop,第二篇写phpHiveAdmin

EasyHadoop最早只是一个hadoop的安装Shell脚本,这就没有什么可说的了,界面化的分布式安装还有有些知识点可以总结和分享下的,或许能对开发者有所帮助。

EasyHadoopManager

分为两个部分,Central和Agent

Central为前端展示界面,可以实现对Agent的界面化操作,php语言编写。模型时期采用自己编写Socket协议与Agent之间进行通信,用fsockopen实现命令的发送和文件传输。后来发现这种方式不太稳定,Agent所在的tty关闭后会出现Agent进程僵死。所以后来放弃了,采用thrift方式重构了socket的所有相关代码。以后前端再开发一个用expect脚本推送安装agent就可以了。

Agent部分,跟Central配合,模型时期自己写的一个python脚本,用atexit和os等模块实现了daemon,socket部分自己实现了一个基于线程的socket server。但是因为上述问题,最后放弃了。后来采用thrift方式重构了Agent的代码,更稳定,更合理,也更标准。

模型时期Agent代码片段如下:

import sys
import socket
import threading
import time
import atexit
import os
import subprocess
import string
import platform

from optparse import OptionParser
from signal import SIGTERM

......

class Server:
  def __init__( self ):
    self.sock = None
    self.thread_list = []
    
  def close ( self ):
    del self.sock
    sys.exit(1)

  def run( self ):
    all_good = False
    try_count = 0
    while not all_good:
      if 0 < try_count:
        sys.exit( 1 )
      try:
        self.sock = socket.socket( socket.AF_INET, socket.SOCK_STREAM )
        self.sock.bind( ( '0.0.0.0', 30050 ) )
        self.sock.listen( 5 )
        all_good = True
        break
      except socket.error, err:
        print 'Socket was in used'
        del self.sock
        time.sleep( 1 )
        try_count += 1

    try:
      while not QUIT:
        try:
          self.sock.settimeout( 0.500 )
          client = self.sock.accept()[0]
        except socket.timeout:
          time.sleep( 1 )
          if QUIT:
            break
          continue
        threaded = ClientThread( client )
        print threaded.getName()
        self.thread_list.append( threaded )
        threaded.start()
        for thread in self.thread_list:
          if not thread.isAlive():
            self.thread_list.remove( thread )
            thread.join()

    for thread in self.thread_list:
      thread.join( 1.0 )
    self.sock.close()

......


程序执行后会退出主进程,在后台fork一个子进程,该子进程会创建基于线程的socket server出来。篇幅所限,fork部分的代码就不贴了。fork由引入的sys,os,atexit等完成。socket由socket,threading等完成。

subprocess的作用是把Central发过来的命令进行执行,并从stderr和stdout读取执行结果返回Central界面,让用户知道该节点的执行结果。

class Install:
  def __init__( self, stdin='/dev/stdin', stdout='/dev/stdout', stderr='/dev/stderr' ):
    self.stdin = stdin
    self.stdout = stdout
    self.stderr = stderr

  def RunShellScript(self, command):
    a = subprocess.Popen( command, shell=True, stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE )
    if command.find("start") == -1:
      tmp_out = a.stdout.readlines()
      tmp_err = a.stderr.readlines()
    else:
      tmp_out = a.stdout.readline()
      tmp_err = a.stderr.readline()
    tmp = tmp_out + tmp_err
    return tmp


之后是第二版的Agent,采用thrift接口开发。开发简单了许多,thrift把socket的通信和协议都封装好了,只要调用封装的类和方法就好了。不用自己区分命令执行和文件传输的协议了,也不用自己去做文件传输的结构化封装,比较省事。thrift之前有些过文章介绍使用方法,不再赘述,很好的一个接口开发工具。

目前的代码片段:

import atexit
import subprocess
import string
import platform
import os
import sys
import time
from optparse import OptionParser
from signal import SIGTERM

sys.path.append('./thrift')

from thrift.EasyHadoop.EasyHadoop import *
from thrift.EasyHadoop.EasyHadoop.ttypes import *

from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol
from thrift.server import TServer

......

class Daemon:
  def _run(self):
    handler = EasyHadoopHandler()
    processor = EasyHadoop.Processor(handler)
    transport = TSocket.TServerSocket(self.host,self.port)
    tfactory = TTransport.TBufferedTransportFactory()
    pfactory = TBinaryProtocol.TBinaryProtocolFactory()

    server = TServer.TThreadPoolServer(processor, transport, tfactory, pfactory)
    while True:
      print 'Starting server'+os.linesep
      server.serve()
......

代码更加精简,清晰,基于线程池的socket server。

访问全部代码可以去 http://github.com/xianglei/easyhadoop

软件的设计构思是,Agent只负责接收命令执行和文件的传输保存,其他一切控制都放在php的Central中封装成类和方法。这样对需要改造的用户来说是最清晰和简单的。至于安装部署hadoop,你只需要具备基本的linux操作技能就可以了,只要会部署LNMP的server就可以用EasyHadoop安装部署hadoop,并且这个思路也易于用户改造成其他自动化运维的应用。

我的前端水平很烂的,前端相关代码就没什么可说的了,bootstrap框架还是别人教我用的。

至于为什么自己开发了一套分布式Hadoop的安装部署软件,主要是懒,大公司的要花钱,ambari免费,但要求用户部署ruby, puppet, ssh免密码,LDAP,太麻烦了。明明很简单就能做的事,为什么要搞那么复杂呢?也正好看看自己能不能按照Cloudera的方式做一套开源的东西出来,省得大家花钱去买那么贵的东西。Python也是服务器装系统的时候就自带了,不用用户自己去安装。最大限度简化用户操作。目前支持跑在CentOS5-6上,兼容python 2.4-2.7。界面现在做的还比较土鳖,没那么炫,不过起码也能使,算是实现了一个模型出来了。

也希望这种思路对大家在集群自动化运维方面有所帮助,下一篇总结一下phpHiveAdmin用到的比较好玩的技术点。

有关EasyHadoop软件开发总结和知识点整理的更多相关文章

  1. ruby - 使用 C 扩展开发 ruby​​gem 时,如何使用 Rspec 在本地进行测试? - 2

    我正在编写一个包含C扩展的gem。通常当我写一个gem时,我会遵循TDD的过程,我会写一个失败的规范,然后处理代码直到它通过,等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb,如何运行我的规范并仍然加载我的C扩展?当我更改C代码时,我需要采取哪些步骤来重新编译代码?这可能是个愚蠢的问题,但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时,我确实得到了一个Makefile(在整个项目的根目录中),然后当

  2. Ruby Sinatra 配置用于生产和开发 - 2

    我已经在Sinatra上创建了应用程序,它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择,是开发还是生产,一些方法的逻辑应该改变,这取决于部署类型。是否有任何想法,如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现? 最佳答案 根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm

  3. ruby - 是否可以覆盖 gemfile 进行本地开发? - 2

    我们的git存储库中目前有一个Gemfile。但是,有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它,我必须将它添加到我们的Gemfile中,但每次我checkout到我们的master/dev主分支时,由于与跟踪的gemfile冲突,我必须删除它。我想要的是类似Gemfile.local的东西,它将继承从Gemfile导入的gems,但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗? 最佳答案 设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI

  4. ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反? - 2

    这似乎非常适得其反,因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby​​-mysqlgem问题(gem本身发生段错误,一个名为UnixSocket的类显然在Windows机器上不能正常工作,等等)。我只是在浪费时间吗?我应该转向不同的脚本语言吗? 最佳答案 我在Windows上使用Ruby的经验很少,但是当我开始使用Ruby时,我是在Windows上,我的总体印象是它不是Windows原生系统。因此,在主要使用Windows多年之后,开始使用Ruby促使我切换回原来的系统Unix,这次是Linux。Rub

  5. ruby-on-rails - 在 Rails 开发环境中为 .ogv 文件设置 Mime 类型 - 2

    我正在玩HTML5视频并且在ERB中有以下片段:mp4视频从在我的开发环境中运行的服务器很好地流式传输到chrome。然而firefox显示带有海报图像的视频播放器,但带有一个大X。问题似乎是mongrel不确定ogv扩展的mime类型,并且只返回text/plain,如curl所示:$curl-Ihttp://0.0.0.0:3000/pr6.ogvHTTP/1.1200OKConnection:closeDate:Mon,19Apr201012:33:50GMTLast-Modified:Sun,18Apr201012:46:07GMTContent-Type:text/plain

  6. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  7. 【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2

    在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList​()Obt

  8. 软件测试基础 - 2

    Ⅰ软件测试基础一、软件测试基础理论1、软件测试的必要性所有的产品或者服务上线都需要测试2、测试的发展过程3、什么是软件测试找bug,发现缺陷4、测试的定义使用人工或自动的手段来运行或者测试某个系统的过程。目的在于检测它是否满足规定的需求。弄清预期结果和实际结果的差别。5、测试的目的以最小的人力、物力和时间找出软件中潜在的错误和缺陷6、测试的原则28原则:20%的主要功能要重点测(eg:支付宝的支付功能,其他功能都是次要的)80%的错误存在于20%的代码中7、测试标准8、测试的基本要求功能测试性能测试安全性测试兼容性测试易用性测试外观界面测试可靠性测试二、质量模型衡量一个优秀软件的维度①功能性功

  9. SPI接收数据异常问题总结 - 2

    SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位(1bit)。SPI数据收发是数据交换,因此接收数据时从第二个字节开始才是有效数据,也就是数据整体向右移一个字节(1byte)。请教前辈之后也没有得到解决,通过在网上查阅前人经验终于解决问题,所以写一个避坑经验总结。实际背景:MCU与一款芯片使用spi通信,MCU作为主机,芯片作为从机。这款芯片采用的是它规定的六线SPI,多了两根线:RDY和INT,这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手

  10. 微信小程序开发入门与实战(Behaviors使用) - 2

    @作者:SYFStrive @博客首页:HomePage📜:微信小程序📌:个人社区(欢迎大佬们加入)👉:社区链接🔗📌:觉得文章不错可以点点关注👉:专栏连接🔗💃:感谢支持,学累了可以先看小段由小胖给大家带来的街舞👉微信小程序(🔥)目录自定义组件-behaviors    1、什么是behaviors    2、behaviors的工作方式    3、创建behavior    4、导入并使用behavior    5、behavior中所有可用的节点    6、同名字段的覆盖和组合规则总结最后自定义组件-behaviors    1、什么是behaviorsbehaviors是小程序中,用于实现

随机推荐