ha_source

java - 如何为启用 HA 的集群配置 SparkContext

当我尝试使用HDFS文件系统以YARN模式运行spark应用程序时，当我提供以下属性时它工作正常。sparkConf.set("spark.hadoop.yarn.resourcemanager.hostname",resourcemanagerHostname);sparkConf.set("spark.hadoop.yarn.resourcemanager.address",resourcemanagerAddress);sparkConf.set("spark.yarn.stagingDir",stagingDirectory);但是这样做的问题是:因为我的HDFS启用了Namd

何为 SparkContext code section hadoop java apache-spark

java - 无法在多宿主网络中形成 HA Hadoop 集群

用以下机器ip组成多节点HA集群ActivityNN-172.16.105.---备用NN-172.16.105.---DataNodeDN-192.168.---对于上面的配置无法创建集群，在格式化namenode时抛出异常15/04/2716:15:18INFOnamenode.NNConf:Maximumsizeofanxattr:1638415/04/2716:15:18FATALnamenode.NameNode:Exceptioninnamenodejoinjava.lang.IllegalArgumentException:Unabletoconstructjournal

Hadoop java lt gt property hdfs apache-zookeeper high-availability

linux - 异常(exception)如下。 org.apache.flume.FlumeException : Unable to load source type in flume twitter analysis 异常

我正在尝试使用Flume和Hive进行Twitter分析。为了从twitter获取推文，我在flume.conf文件中设置了所有必需的参数(consumerKey、consumerSecret、accessToken和accessTokenSecret)。TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.TwitterSourceTwitterAgent

flume FlumeException TwitterAgent java linux hadoop hive flume-twitter

hadoop - HA hadoop 设置中 3 个日志节点的要求

我对hadoop很陌生。当我使用qoroumjournalmanager设置hadoopnamenodeha时，我对这些要求有点困惑。apache站点上的官方文档说Note:Theremustbeatleast3JournalNodedaemons,sinceeditlogmodificationsmustbewrittentoamajorityofJNs.这是什么意思？为什么我们需要3个日志节点而不是两个？最佳答案在hadoop1中，如果这个名称节点以某种方式变得不可用，那么我们每个集群只能有一个名称节点，整个集群将变得不可用

hadoop HA strong section 法定人数 hdfs high-availability

Hadoop ResourceManager HA 连接到 ResourceManager at/0.0.0.0 :8032

扩展其中一个问题:Hadoop:ConnectingtoResourceManagerfailedHadoop2.6.1我确实配置了ResourceManagerHA。当我确实终止“本地”ResourceManager(以检查集群)时，就会发生故障转移，并且其他服务器上的ResourceManager变为事件状态。不幸的是，当我尝试使用“本地”实例节点管理器运行作业时，它不会将请求“故障转移”到事件的ResourceManager。yarn@stg-hadoop106:~$jps26738Jps23463DataNode23943DFSZKFailoverController24297

ResourceManager Hadoop yarn gt lt high-availability failover

scala - Source.fromFile 不适用于 HDFS 文件路径

我正在尝试从我的hdfs中读取文件内容，因为我正在使用Source.fromFile()。当我的文件在本地系统中时它工作正常，但当我尝试从HDFS读取文件时抛出错误。objectCheckFile{defmain(args:Array[String]){for(line错误:java.io.FileNotFoundException:hdfs:/quickstart.cloudera:8080/user/cloudera/xxxx/File(Nosuchfileordirectory)我进行了搜索，但找不到任何解决方案。请帮忙最佳答案

fromFile Source code section scala hadoop apache-spark

hadoop - HDFS 名称节点 HA : Why use NFS rather than simply replicate between the two?

看Facebook使用的AvatarNode方案为HDFSNamenode提供HA，不明白为什么要用NFS。让我感到困惑的是，NFS无论如何都必须复制才能实现HA。主节点必须写入NFS并刷新才能获得HA。为什么不简单地在主节点和辅助节点之间打开一个套接字channel，然后对辅助Namenode执行相同的写入。这将是(大约)相同数量的网络流量，并且似乎具有相同的复制语义。那么问题来了，为什么不这样做呢？我想原因之一可能是NFS存在，因此问题可能更容易实现。但是考虑到在主要和次要之间使用原始套接字channel将写入流接口(interface)(即文件)的相同信息写入NFS的(明显的)简

replicate between section NFS 套接字 hadoop hdfs high-availability

hadoop - namenode ha故障转移时间

NamenodeHA(NFS、QJM)在hadoop2.x(HDFS-1623)中可用。它为Namenode提供快速故障转移，但我找不到任何关于多长时间从故障中恢复的描述。谁能告诉我？谢谢你的回答。事实上，我想知道两个节点(activenamenode和standbynamenode)转换之间的时间。你能告诉我多长时间吗？最佳答案以下是一些使用备用NameNode进行故障转移的合格示例:A60nodeclusterwith6millionblocksusing300TBrawstorage,and100Kfiles:30seco

namenode hadoop section strong hdfs high-availability failover

scala - 创建像 TextLine 这样的 Scalding Source，将多个文件组合成单个映射器

我们有很多小文件需要合并。在Scalding中，您可以使用TextLine将文件读取为文本行。问题是我们每个文件有1个映射器，但我们想要组合多个文件，以便它们由1个映射器处理。我知道我们需要将输入格式更改为CombineFileInputFormat的实现，这可能涉及使用级联CombinedHfs。我们不知道如何做到这一点，但它应该只是几行代码来定义我们自己的Scalding源，例如CombineTextLine。非常感谢任何可以提供代码的人。作为附带问题，我们在s3中有一些数据，如果给定的解决方案适用于s3文件，那就太好了——我想这取决于CombineFileInputFormat还

射器 TextLine import code hadoop scala cascading scalding

Hadoop HA Namenode远程访问

我正在使用HA名称节点配置Hadoop2.2.0稳定版，但我不知道如何配置对集群的远程访问。我配置了手动故障转移的HA名称节点，我定义了dfs.nameservices，我可以从集群中包含的所有节点访问带有名称服务的hdfs，但不能从外部访问。我可以通过直接联系事件名称节点来对hdfs执行操作，但我不想那样，我想联系集群然后被重定向到事件名称节点。我认为这是HA集群的正常配置。现在有人知道怎么做吗？(提前致谢...) 最佳答案您必须向hdfs站点添加更多值:dfs.ha.namenodes.mynsmachine-98,machi

Namenode Hadoop gt lt property remote-access high-availability nameservice

53 54 555657 58 59