草庐IT

master-data-management

全部标签

apache-spark - 什么是 hadoop(单节点和多节点)、spark-master 和 spark-worker?

我想了解以下术语:hadoop(单节点和多节点)Spark大师星火worker名称节点数据节点到目前为止我的理解是sparkmaster是工作执行者并处理所有sparkworker。而hadoop是hdfs(我们的数据所在的地方),sparkworker根据给他们的工作从那里读取数据。如果我错了,请纠正我。我也想了解namenode和datanode的作用。虽然我知道namenode的作用(拥有所有数据节点的元数据信息,最好只有一个,但可以是两个)并且数据节点可以是多个并拥有数据。datanodes是同一个hadoop节点吗? 最佳答案

hadoop - 无法在 dse 4.5 中运行 spark master 并且缺少 slaves 文件

我在DSE4.5中有5个节点集群正在运行。5个节点中有1个节点已启用hadoop_enabled和spark_enabled,但sparkmaster未运行。ERROR[Thread-709]2014-07-0211:35:48,519ExternalLogger.java(line73)SparkMaster:Exceptioninthread"main"org.jboss.netty.channel.ChannelException:Failedtobindto:/54.xxx.xxx.xxx:7077有人对此有任何想法吗?我也尝试导出SPARK_LOCAL_IP但这也不起作用DS

hadoop - Mesos 和 Hadoop : How to get the running job input data size?

我在Mesos0.14上运行Hadoop1.2.1。我的目标是记录输入数据大小、运行时间、cpu使用情况、内存使用情况等,以便稍后进行优化。除了数据大小之外,所有这些都是使用Sigar获得的。有什么方法可以获取正在运行的任何作业的输入数据大小?例如,当我运行hadoop示例的terasort时,我需要在作业实际运行之前获取teragen生成的数据大小。如果我正在运行Wordcountexample,我需要获取wordcount输入文件大小。我需要自动获取数据大小,因为我无法知道稍后将在该框架内运行什么作业。我正在使用Java编写一些mesos库代码。最好,我想在MesosExecuto

hadoop - Spark over Yarn - 不正确的 Application Master 选择

我正在尝试使用以下命令在Yarn上使用Spark触发一些作业(这只是一个示例,实际上我使用的是不同数量的内存和内核):./bin/spark-submit--classorg.mypack.myapp\--masteryarn-cluster\--num-executors3\--driver-memory4g\--executor-memory2g\--executor-cores1\lib/myapp.jar\当我查看WebUI以查看幕后真正发生的事情时,我注意到YARN正在选择一个不是SparkMaster的节点作为ApplicationMaster。这是一个问题,因为真正的Sp

java - 为什么 ./sbin/start-master.sh 给出 "Error: Could not find or load main class org.apache.spark.launcher.Main"?

我是新手。我在单个节点上安装spark-1.5.2-bin-without-hadoop.tgz。我已完成配置。当我要使用以下命令启动我的主节点时,它向我显示错误。请帮助我。Command:./sbin/start-master.shstartingorg.apache.spark.deploy.master.Master,loggingto/usr/local/spark/sbin/../logs/spark-jalaj-org.apache.spark.deploy.master.Master-1-CIPL367.outfailedtolaunchorg.apache.spark.

hadoop - GFS/Hadoop master的存储容量

我正在阅读GFS论文但无法理解一点,master是否也为文件的每个副本维护64kb的元数据?假设master的内存是8gb,我存储1000个文件,每个文件1kb,它需要多少内存?如果复制因子是3。 最佳答案 GFS为每个64MBblock维护少于64字节的元数据,而不是为单个文件维护。每个副本花费相同的元数据开销。因此,1000个文件占用多少内存取决于这些文件总共有多少block。 关于hadoop-GFS/Hadoopmaster的存储容量,我们在StackOverflow上找到一个类

java.lang.RuntimeException : Failed construction of Master: class org. apache.hadoop.hbase.master.HMaster

当我启动-hbase.shHMaster和HregionServer正在启动,但一段时间后不可见。通过查看日志,我发现了这一点。HMaster:java.lang.RuntimeException:FailedconstructionofMaster:classorg.apache.hadoop.hbase.master.HMasteratorg.apache.hadoop.hbase.master.HMaster.constructMaster(HMaster.java:3150)atorg.apache.hadoop.hbase.master.HMasterCommandLine.

hadoop - spark-shell --master yarn 卡住

我通过Homebrew安装了Hadoop和Spark$brewlist--versions|grepsparkapache-spark2.2.0$brewlist--versions|grephadoophadoop2.8.12.8.2hdfs我使用的是Hadoop2.8.2。我关注了thispost配置Hadoop。另外,关注thispost将spark.yarn.archive配置为:spark.yarn.archivehdfs://localhost:9000/user/panc25/spark-jars.zip以下是我在.bash_profile中的Hadoop/Spark相关

java - Hive 流和 Azure Data Lake Store 的问题

我正在编写一个Play2JavaWeb应用程序以使用HiveStreamingAPI(https://cwiki.apache.org/confluence/display/Hive/Streaming+Data+Ingest)将数据提取到HDInsight交互式查询。Hive数据存储在AzureDataLakeStore中。我松散地基于https://github.com/mradamlacey/hive-streaming-azure-hdinsight/blob/master/src/main/java/com/cbre/eim/HiveStreamingExample.java

hadoop - Apache Hadoop Windows 10 - Datanode、Resource Manager 和 Yarn 在启动时立即关闭

我已经按照教程为Windows设置了ApacheHadoop,可以找到here.我现在遇到Datanode、ResourceManager和Yarncmd窗口的问题,显示打开后所有3秒都关闭,只有Namenode继续运行。这是我到目前为止尝试过的过程:以管理员身份运行CMD使用命令start-all.cmd(这会打开Namenode、Datanode、Yarn和Resourcemanagercmd窗口)Datanode、Yarn和Resourcemanager几乎都在启动后立即给出关闭消息SHUTDOWN_MSG:正在thood-alienware/...关闭ResourceManag