草庐IT

数量级

全部标签

apache - 控制 HDFS 复制、映射器数量和 reducer 识别

我正在尝试以分布式方式(使用3台计算机的集群)运行ApacheHadoop2.65,并且我想决定映射器和缩减器的数量。我正在使用复制数为1的HDFS,我的输入是3个文件(表)。我想调整数据在系统中的流动方式,为此,我想通过以下方式获得一些帮助吗?以及如何以及在哪里可以更改它?HDFS的复制-我可以干扰HDFS的复制方式吗?例如,确保每个文件存储在不同的计算机上?如果可以,我可以选择哪个它将存储在计算机上吗?映射器数量-我可以更改映射器或输入拆分的数量吗?我知道这取决于输入拆分的数量和block大小。它在网上说我可以通过更改以下参数来做到这一点,但我不知道在哪里?-Dmapred.map

hadoop - 为了加快配置单元进程,如何使用 tez 调整映射器和缩减器数量

我尝试使用tez处理大数据(约150GB)的过程(句子的单词标签),但问题是它花了很多时间(1周或更多),然后我试图指定映射器的数量。虽然我设置了mapred.map.tasks=2000,但我无法阻止mapper被设置为150左右,所以我不能做我想做的事。我在oozie工作流文件中指定映射值并使用tez。如何指定映射器的数量?最后想加快进程,不用tez也可以。另外,我想用reducer统计标记的句子,也很花时间。而且,我还想知道如何调整内存大小以使用每个映射器和缩减器进程。 最佳答案 Inordertomanuallysetthe

hadoop - 创建dataproc集群时报告DataNodes数量不足

在使用gs://作为默认FS创建dataproc集群时,我收到“报告的DataNode数量不足”错误。下面是我正在使用dataproc集群的命令。gclouddataprocclusterscreatecluster-538f--image-version1.2\--bucketdataproc_bucket_test--subnetdefault--zoneasia-south1-b\--master-machine-typen1-standard-1--master-boot-disk-size500\--num-workers2--worker-machine-typen1-st

开源轻量级任务管理工具dootask私有化部署

目录一、什么是dootask二、安装环境三、安装docker四、安装DockerComposev2.0+五、安装dootask一、什么是dootask        DooTask是一款轻量级的开源在线项目任务管理工具,提供各类文档协作工具、在线思维导图、在线流程图、项目管理、任务分发、即时IM,文件管理等工具。二、安装环境        操作系统:CentOSLinuxrelease7.3.1611(Core)        内存:4G        CPU:4核三、安装docker        docker的安装步骤比较简单,网上也有很多资料可以参考。yuminstalldocker四、

hadoop - 在 spark yarn 集群中,容器如何工作取决于 RDD 分区的数量?

我有一个关于ApacheSpark(yarn集群)的问题虽然在这段代码中,创建了10个分区但是在yarncluster中,只需要3个contatinervalsc=newSparkContext(newSparkConf().setAppName("SparkCount"))valsparktest=sc.textFile("/spark_test/58GB.dat",10)valtest=sparktest.flatMap(line=>line.split("")).map(word=>(word,1))在sparkyarn集群中,容器如何工作取决于RDD分区的数量?*因为我只有一点

hadoop - 动态计算oozie参数(MR Action 的reducer数量)

在我的oozie工作流程中,我动态创建了一个配置单元表,比如T1。此配置单元操作之后是映射减少操作。我想将reducers属性(mapred.reduce.tasks)的数量设置为等于字段的不同值,比如(T1.group)。关于如何动态设置某些oozie参数的值以及如何从hive不同操作获取参数值到oozie参数的任何想法? 最佳答案 希望对您有所帮助:像您已经做的那样创建配置单元表。执行另一个Hive查询,计算列的不同值并将其写入hdfs中的文件。创建一个Shell操作,它将读取文件并以key=value的形式回显值。为shell

开源啦!!!轻量级工作流引擎管理系统

流程设计新增点击列表左上角“新增”按钮,可新增流程设计,这里只需要填写基本信息。字段说明显示名称,流程显示的名称,相当于中文标题唯一编码,流程编码的唯一编码,通过该编码一流程定义的name相匹配流程分类,假期管理、人事管理、智能财务、法务管理、行政管理、业务管理、其他等,可通过数据字典的流程分类进行配置。图标,系统图标,可通过下拉选择获取备注查看点击行操作右边的“查看”按钮一共用两个tab,可以查看流程图和流程数据流程图流程数据编辑点击行操作右边的“编辑”按钮,可对流程设计的基本信息进行编辑设计点击行操作右边的“设计”按钮,可打开流程设计器进行流程的设计流程设计器流程设计器主要由三部分组成:拖

hadoop - 通过 hadoop mapreduce 限制处理记录的数量

我有一个hugh文件(包含超过200亿条记录的hive表)我需要运行一个mapreduce来处理前10k条记录。有没有一种有效的方法来限制hadoopmapreduce处理记录的数量? 最佳答案 您可以将LIMIT与任务规范一起使用。但是,如果您必须一次又一次地执行此操作,那么更好的自动化解决方案是使用OOZIE(hadoop工作流编辑器),它可以在配置单元中为您的数据创建分区。 关于hadoop-通过hadoopmapreduce限制处理记录的数量,我们在StackOverflow上找

hadoop - 使用 SPLIT 和 COGROUP 的 Pig LOAD 以及映射器的数量

我注意到,当我在加载后的pig脚本中引入“SPLIT”和“COGROUP”语句时,pig作业中的映射器数量会翻倍。这个对吗?有谁知道为什么会这样?我使用PigStorage加载数据集:A=LOAD'test.csv'USINGPigStorage;cattest.csvA123A345B234B123然后我使用SPLIT将数据集拆分为两个关系(使用过滤器结果相同)。然后,我将这两个关系组合为一个,并存储它。SPLITAINTOAAIF$0=='A',ABIF$0=='B';CG=COGROUPAABY$1,ABBY$1;STORECGINTO'cg'USINGPigStorage();

K8s部署轻量级日志收集系统EFK(elasticsearch + filebeat + kibana)

文章目录K8s部署EFK(elasticsear+filebeat+kibana)日志收集一.准备镜像二.搭建Elasticsearch+kibana1.在可执行kubectl命令的服务器准备安装的yml文件2.在elasticsearch-kibana目录下创建配置文件elasticsearch.yml3.创建kibana配置文件kibana.yml4.在k8s中创建elasticsearch和kibana的配置文件configmap5.检查是否有StorageClass6.创建es-kibana的yaml配置文件:es-statefulset.yaml7.创建es-kibanacluser