草庐IT

springcloudgateway分布式

全部标签

Hadoop伪分布式运行报错: Protocol message tag had invalid wire type

我正在设置一个Hadoop2.6.0单节点集群。我关注hadoop-common/SingleClusterdocumentation.我在Ubuntu14.04上工作。到目前为止,我已经成功地运行了独立操作。我在尝试执行伪分布式操作时遇到错误。我设法启动了NameNode守护进程和DataNode守护进程。jps输出:martakarass@marta-komputer:/usr/local/hadoop$jps4963SecondaryNameNode4785DataNode8400Jpsmartakarass@marta-komputer:/usr/local/hadoop$但是

Java 或 Python 分布式计算工作(学生预算)?

我有一个大型数据集(大约40G),我想在实验室的几台计算机上用于某些NLP(主要是令人尴尬的并行),我没有拥有root访问权限,而且只有1G的用户空间。我用hadoop进行了试验,但当然这是死在水中——数据存储在外部usb硬盘驱动器上,由于1G用户空间上限,我无法将其加载到dfs上。我一直在研究几个基于python的选项(如果可以的话,我宁愿使用NLTK而不是Java的lingpipe),分布式计算选项看起来像:Ipython迪斯科在我的hadoop经验之后,我正在努力确保我尝试做出明智的选择——任何关于什么可能更合适的帮助将不胜感激。Amazon的EC2等不是真正的选择,因为我几乎没

hadoop - 以伪分布式hadoop方式管理hdfs

我想在我的四核机器上用hadoop和mahout做一些计算,所以我在伪分布式模式下使用hadoop。问题是我的根驱动器上的空间有限,所以我如何配置它以使用其他外部硬盘驱动器上的可用空间。 最佳答案 您可以配置hdfs存储数据的位置。将以下内容添加到您的conf/hdfs-site.xml中:dfs.data.dir__path_to_where_you_want_to_store_your_data/hdfs/data/dfs.name.dir__path_to_where_you_want_to_store_your_data/h

java - Spark中分布式缓存的等价物?

这个问题在这里已经有了答案:HadoopDistributedCachefunctionalityinSpark(2个答案)关闭3年前。在Hadoop中,您可以使用分布式缓存来复制每个节点上的只读文件。在Spark中这样做的等效方法是什么?我知道广播变量,但这只适用于变量,不适用于文件。

hadoop - Hadoop 分布式缓存的生命周期

在HadoopStreaming作业中使用分布式缓存机制将文件传输到节点时,系统会在作业完成后删除这些文件吗?如果它们被删除,我认为它们是,有没有办法让缓存保留多个作业?这在Amazon的ElasticMapreduce上的工作方式是否相同? 最佳答案 我仔细研究了源代码,看起来文件被TrackerDistributedCacheManager删除大约每分钟一次,当它们的引用计数下降到零时。TaskRunner在任务结束时显式释放其所有文件。也许你应该编辑TaskRunner不这样做,并通过更明确的方式自己控制缓存?

hadoop - 没有 Map/Reduce 的 HDFS 分布式读取

是否可以在一台机器上使用HDFS客户端实现从HDSF集群的分布式读取?我用一个由3个数据节点(DN1、DN2、DN3)组成的集群进行了实验。然后我从位于DN1上的客户端程序运行10个同时读取10个独立文件,它似乎只从DN1读取数据。其他数据节点(DN2、DN3)显示为零事件(从调试日志判断)。我检查了所有文件的block是否在所有3个数据节点上都被复制了,所以如果我关闭DN1,那么数据将从DN2读取(仅DN2)。增加读取的数据量没有帮助(尝试从2GB到30GB)。由于我需要读取多个大文件并仅从中提取少量数据(几Kb),因此我想避免使用map/reduce,因为它需要设置更多服务并且还需

hadoop - 我如何确保数据在 hadoop 节点之间均匀分布?

如果我将数据从本地系统复制到HDFS,我能否确保它在节点之间均匀分布?PSHDFS保证每个block将存储在3个不同的节点上。但这是否意味着我文件的所有block都将在相同的3个节点上排序?或者HDFS会为每个新block随机选择它们吗? 最佳答案 如果您的复制设置为3,它将被放置在3个独立的节点上。它所在的节点数由您的复制因子控制。如果您想要更大的分布,那么您可以通过编辑$HADOOP_HOME/conf/hadoop-site.xml并更改dfs.replication值来增加复制数。我相信新block几乎是随机放置的。需要考虑

太强了!全新一代分布式任务调度与计算框架!

大家好,我是Java陈序员。我们在工作开发中,离不开任务调度。通过指定的间隔时间执行各类操作,来完成无需用户操作的任务。目前市场上,有一些编程语言本身自带的定时任务工具,如Java中Timer。也有一些比较成熟的定时任务框架,如Quartz。现在大部分系统都是使用分布式,分布式的任务调度工具也是十分流行,如xxl-job。今天,给大家介绍一个全新一代分布式调度与计算框架!关注微信公众号:【Java陈序员】,回复AI,获取AI副业赚钱资讯。项目介绍PowerJob(原OhMyScheduler)——全新一代分布式调度与计算框架,能让您轻松完成作业的调度与繁杂任务的分布式计算。主要特性使用简单:提

hadoop - 我从哪里开始分布式计算?

我对学习分布式计算技术很感兴趣。作为Java开发人员,我可能愿意从Hadoop开始。.您能否推荐一些书籍/教程/文章作为开始? 最佳答案 也许你可以先阅读一些与MapReduce和分布式计算相关的论文,以更好地理解它。以下是一些我想推荐的:MapReduce:大型集群上的简化数据处理,http://www.usenix.org/events/osdi04/tech/full_papers/dean/dean_html/Bigtable:结构化数据的分布式存储系统,http://www.usenix.org/events/osdi06

hadoop - Hadoop中单节点和伪分布式模式有什么区别?

我想知道从配置的角度和理论的角度有什么区别?这两种模式使用不同的端口号吗?或任何其他区别? 最佳答案 我的2美分。单节点设置(独立设置)默认情况下,Hadoop配置为以非分布式或独立模式运行,作为单个Java进程。没有守护进程在运行,一切都在单个JVM实例中运行。不使用HDFS。就配置而言,除了JAVA_HOME之外,您无需执行任何操作。只需下载tarball,解压,就可以开始了。伪分布式模式Hadoop守护进程在本地机器上运行,因此模拟了一个小规模的集群。不同的Hadoop守护进程运行在不同的JVM实例中,但在一台机器上。使用HD