it_works_草庐IT

IT的贵与慢

本文于2019年7月24日完成，发布在个人博客网站上。考虑个人博客因某种原因无法修复，于是在博客园安家，之前发布的文章逐步搬迁过来。笔记而已，没有逻辑。贵与慢，一方面是事实，另一方面是偏见。流程IT，流程，方法，模板，工具，IT。先有流程，后有IT。流程，用来沉淀知识，固化经验，把能力建设到组织上，降低对人的依赖。相对于现实工作中遇到的问题，流程首先会相对滞后；然后IT作为流程自动化的解决方案，自然是更加滞后。因此，IT的方案偏保守，这是正常现象。IT部门，作为企业的成本和费用中心，支撑企业发展，存在感相对比较低。相比于产品交付团队，IT的交付在项目关系，项目资源，人员素质，交付能力，交付要求

交付团队部门程序人生

apache-spark - HDFS 和 Spark : Best way to write a file and reuse it from another program

我有一些来自Spark应用程序的结果作为名为part-r-0000X(X=0、1等)的文件保存在HDFS中。而且，因为我想将所有内容加入到一个文件中，所以我使用了以下命令:hdfsdfs-getmergesrcDirdestLocalFile前面的命令在bash脚本中使用，该脚本清空输出目录(保存part-r-...文件的位置)，并在循环内执行上面的getmerge命令。问题是我需要在另一个Spark程序中使用生成的文件，该程序需要将该合并文件作为HDFS的输入。所以我将其保存为本地，然后将其上传到HDFS。我想到了另一种选择，即以这种方式从Spark程序写入文件:outputData

apache-spark another a-hdfs-path code hdfs hadoop

python - Hadoop 流 : PYTHONPATH not working when mapper runs

我在其中设置了PYTHONPATH，它也能正常工作，除非我运行map-reduce作业它没有说追溯(最近的调用最后):文件“/work/app/hadoop/tmp/mapred/local/taskTracker/hduser/jobcache/job_201203091218_0006/attempt_201203091218_0006_m_000020_0/work/./mapper.py”，第57行，在从src.utilities导入实用程序导入错误:没有名为src.utilities的模块java.lang.RuntimeException:PipeMapRed.waitOu

PYTHONPATH working hadoop java apache python mapreduce hadoop-streaming

2023 最受 IT 公司欢迎的 30 款开源软件！

所谓开源，就是把软件的源代码开放出来，大家都能看到源代码，大家可以一起研究源代码并对软件的进行优化和改进。越来越多的IT公司对开源持开放态度，一方面有了优秀的开源项目，就不用再重复造轮子，可以直接拿来使用；另一方面，自己公司有优秀的自研项目，为了发展壮大可以选择将项目开源，让更多的开发者参与进来，一起努力提升软件的功能！近些年来，国内很多大型IT公司也逐渐推出了一些高质量的开源项目，比如华为开源了鸿蒙系统、腾讯开源了自研的顶级数据库TBase、阿里开源了自研的科学计算引擎Mars等。下面，我们先大概回顾一下红帽公司发布的企业开源现状的调查报告，然后简单介绍一下最受IT公司青睐的一些开源项目。这

开源公司 1024722 https 系统软件工程

2023 最受 IT 公司欢迎的 30 款开源软件！

所谓开源，就是把软件的源代码开放出来，大家都能看到源代码，大家可以一起研究源代码并对软件的进行优化和改进。越来越多的IT公司对开源持开放态度，一方面有了优秀的开源项目，就不用再重复造轮子，可以直接拿来使用；另一方面，自己公司有优秀的自研项目，为了发展壮大可以选择将项目开源，让更多的开发者参与进来，一起努力提升软件的功能！近些年来，国内很多大型IT公司也逐渐推出了一些高质量的开源项目，比如华为开源了鸿蒙系统、腾讯开源了自研的顶级数据库TBase、阿里开源了自研的科学计算引擎Mars等。下面，我们先大概回顾一下红帽公司发布的企业开源现状的调查报告，然后简单介绍一下最受IT公司青睐的一些开源项目。这

开源公司 1024722 https 系统软件工程其他

java - Hadoop MapReduce : Read a file and use it as input to filter other files

我想编写一个hadoop应用程序，它将一个文件和一个包含多个文件的输入文件夹作为输入。单个文件包含需要从文件夹中的其他文件中选择和提取其记录的key。我怎样才能做到这一点？顺便说一句，我有一个正在运行的hadoopmapreduce应用程序，它将文件夹路径作为输入，进行处理并将结果写到不同的文件夹中。我对如何使用文件获取需要从特定目录中的其他文件中选择和提取的key感到困惑。包含key的文件是一个大文件，因此不能直接放入主存中。我该怎么做？谢谢! 最佳答案如果键的数量太多而无法放入内存，则考虑将键集加载到布隆过滤器(大小合适以产生

MapReduce Hadoop section 布隆文件包 java

【docker login报错】x509: cannot validate certificate for IP地址 because it does not contain any IP SANs

原因如果服务器名称是IP地址，还会检查证书的SubjectAlternativeName（SAN），因此需要创建一个包含此名称的证书。否则，dockerlogin时会报如下错误：Errorresponsefromdaemon:Gethttps://x.x.x.x/v2/:x509:cannotvalidatecertificateforx.x.x.xbecauseitdoesn'tcontainanyIPSANs解决方法在证书中生成x509v3Extensions。要将 extensions 添加到证书中，需要在签署证书时使用“-extensions”选项。例：#opensslca-polic

certificate validate extensions xff0c xff docker

hadoop - Cloudera-Agent 给出错误 - 'Hostname is invalid; it contains an underscore character.'

我正在尝试使用Cloudera-Manager安装程序在4个虚拟机上设置一个HBase集群(按照安装指南中的建议)。Cloudera-Manager版本为4.6.1，CDH版本为4.3，操作系统为CentOS-6.4。但是在安装包裹并且云时代代理尝试启动之后，报告以下错误:'主机名无效；它包含一个下划线字符。来自/usr/lib64/cmf/agent/src/cmf/agent.py:315.我可以在agent.py的第315行看到一个下划线('_')检查主机名。交叉检查了我们之前的CDH3.4设置，没有这样的验证。开发人员/用户是否可以确认检查是否相关以及下划线('_')是否未在C

Cloudera-Agent underscore 下划 section 39 hadoop hbase cloudera

Python HDFS 蛇咬伤 : Methods work only with print

我正在使用snakebite客户端https://github.com/spotify/snakebite当我尝试在hdfs中创建目录或移动文件时，我注意到一个奇怪的行为。这是我的代码。它所做的只是将源目录的内容移动到目标目录。最后，显示目标目录的内容defpurge_pending(self,source_dir,dest_dir):if(self.hdfs_serpent.test(path=self.root_dir+"/"+source_dir,exists=True,directory=True)):print"Sourceexists",self.root_dir+sour

Methods Python self dir root_dir hadoop snakebite

Hadoop-2.2.0 "It looks like you are making an HTTP request to a Hadoop IPC port. "

我是hadoop新手，我在单机上安装hadoop-2.2.0后，访问url:localhost:9000，返回如下结果:ItlookslikeyouaremakinganHTTPrequesttoaHadoopIPCport.Thisisnotthecorrectportforthewebinterfaceonthisdaemon.我已经配置了我的core-site.xml如下:fs.default.namehdfs://localhost:9000Thenameofthedefaultfilesystem.Eithertheliteralstring"local"orahost:po

Hadoop amp section code