草庐IT

distributed

全部标签

python - 从 MrJob 访问分布式缓存

我正在使用MrJob编写hadoop应用程序。我需要使用分布式缓存来访问一些文件。我知道hadoop流中有一个选项-files但不知道如何在程序中访问它。感谢您的帮助。 最佳答案 我认为你必须使用mrjob.compat.supports_new_distributed_cache_options(版本)然后使用-files和-archives代替-cacheFile和-cacheArchive也许你会得到更多here 关于python-从MrJob访问分布式缓存,我们在StackOve

hadoop - 如何垂直而不是水平拆分数据?

我想聚类和拆分(使用Hadoop)具有大约6万个特征(维度也称为列)的数据集。这个数据集只有很少的实例——大约100行。我不想水平拆分数据,而是想根据特征集群进行拆分。例如,如果我有3个集群,我希望每个集群有20K列和100行,以在3个不同的节点上运行。如何实现这种拆分?如果做不到这一点,您能否为Hadoop以外的框架提供任何建议来促进这种拆分? 最佳答案 首先:对于这个微小数据集(60k*100,也就是几兆字节),MapReduce是一个非常糟糕的选择。您将获得大量开销,而yield为零。如果您的数据适合主内存,请不要使用Hado

linux - 在 Hortonworks Distribution 中归档 HDFS 文件时出现 AWK 使用问题

我正在尝试将HDFS目录中超过3天的文件移动到HDFS中的存档文件夹。AWK脚本:hdfsdfs-lshdfs://companycluster/data/src/purecloud/current|tail-n+2|xargs-n8|awk'{DAY_CONV=(60*60*24);X="date+%s";X|getlineED;printf("")>"X";close("X");Y="date-d\"$6\"+%s";Y|getlineSD;printf("")>"Y";close("Y");DIFF=(ED-SD)/DAY_CONV;print"SD=",SD"ED=",ED,"

java - Hadoop 上次 map 作业卡住 - 需要帮助

我正在使用hadoopmap-reduce作业进行一些文本处理。我的工作已完成99.2%,并停留在上一个map工作上。map输出的最后几行如下所示。上次发生此问题时,我尝试打印出从map发出的键值,并注意到其中一个键具有大量与之关联的值,我认为它在对这些值进行排序时似乎卡住了。然后,我停止从map作业中发出该键,它工作正常。我想,同样的问题又发生了,打印出键值对是一项乏味的工作,因为这项工作很费时间。有更好的选择吗?如果他们在排序上花费太多时间,就像配置hadoop忘记几个键一样。有没有这样的。2010-10-2014:43:32,274INFOorg.apache.hadoop.ma

hadoop - hbase真的是线性扩展的吗?

我开始学习hbase,我不明白它是如何线性扩展的。问题是在安装hbase之前,您必须有一个hdfs集群。HDFS集群有一个master节点,在整个集群中只能是一个,所以是一个瓶颈。当然我们可以多跑1个master节点(有可能只多跑1个master节点)但是会处于standby状态。据我了解,hbase使用HDFS集群来存储数据。因此,对我来说,运行多个Hmaster从逻辑上讲是没有意义的,因为所有请求都将转到hdfs事件主机,如果我们有太多请求,性能会受到影响。我也不太明白我们是否需要在与hdfs相同的节点上或单独安装hbase。如果我们将hbase与HDFS分开运行有什么好处。对于我

区块链实验室(30) - 区块链期刊:Distributed Ledger Technologies: Research and Practice

区块链涉及多学科及技术,众多期刊接收区块链文章。DistributedLedgerTechnologies:ResearchandPractice是ACM出版集团的一本期刊。DistributedLedgerTechnologies:ResearchandPractice创刊历史很短,始于2022年,出版期数也不多。载文量也不大,每期在10+左右,从已接收的文章来看,篇幅一般在20+页左右。支持传统的订阅模式及OA模式。目前还没有IF,也没有中科院分区。有兴趣的研友,可以关注。

hadoop - 重复键过滤

我正在寻找一种分布式解决方案来实时筛选/过滤大量key。我的应用程序每天生成超过1000亿条记录,我需要一种方法来从流中过滤重复项。我正在寻找一个系统来存储滚动10天的key,每个key大约100字节。我想知道在使用Hadoop之前如何解决这种类型的大规模问题。HBase是正确的解决方案吗?有没有人尝试过像Zookeeper这样的部分内存解决方案? 最佳答案 我可以看到许多解决您问题的方法,但实时要求确实缩小了范围。您所说的实时是指您想要查看key在创建时是否重复?让我们谈谈每秒的查询数。你说100B/天(很多,恭喜!)。那是每秒1

使用 Kerberos 的 Hadoop Web 身份验证

我使用kerberos配置了hadoop,一切正常,我可以浏览hdfs、提交作业等。但是httpweb身份验证失败。我在cdh3u2中使用hadoop-0.20.2,它支持HTTPSPNEGO。core-site.xml中HTTP认证相关配置如下:hadoop.http.filter.initializersorg.apache.hadoop.security.AuthenticationFilterInitializerhadoop.http.authentication.typekerberoshadoop.http.authentication.token.validity360

hadoop - 从 Hadoop 提供静态文件

我的工作是为静态图像/视频文件设计一个分布式系统。数据的大小约为数十TB。它主要用于HTTP访问(因此不对数据进行处理;或仅进行简单的处理,例如调整大小-但这并不重要,因为它可以直接在应用程序中完成)。更清楚一点,这是一个系统:必须是分布式的(水平尺度),因为数据的总规模非常大。主要通过HTTP提供小型静态文件(例如图像、缩略图、短视频)。一般不需要处理数据(因此不需要MapReduce)设置对数据的HTTP访问可以很容易地完成。(应该)良好的吞吐量。我正在考虑:原生的网络文件系统:但是好像不可行,数据放不下。Hadoop文件系统。我以前使用过Hadoopmapreduce,但我没有使

hadoop - Spark 1.0.2(也是 1.1.0)卡在一个分区上

我在apachespark中遇到了一个奇怪的问题,我将不胜感激。从hdfs读取数据(并进行一些从json到对象的转换)后,下一阶段(处理所述对象)在处理完2个分区(总共512个)后失败。这种情况发生在大型数据集上(我注意到的最小数据集约为700兆,但可能会更低,我还没有缩小范围)。编辑:700megs是tgz文件大小,未压缩是6gigs。编辑2:同样的事情发生在spark1.1.0我在一台32核、60演出的机器上使用本地主机运行spark,设置如下:spark.akka.timeout=200spark.shuffle.consolidateFiles=truespark.kryose