草庐IT

cluster-computing

全部标签

java - 安装Github Project Cascading/vagrant-cascading-hadoop-cluster 出错

我开始安装vagrant-cascading-hadoop-clustergithub项目,但是出现了一些错误,无法结束安装。当我做“vagrantup”时sina@linux:/media/sina/passport/vagrant-cascading-hadoop-cluster$sudovagrantupBringingmachine'hadoop1'upwith'virtualbox'provider...Bringingmachine'hadoop2'upwith'virtualbox'provider...Bringingmachine'hadoop3'upwith'vir

hadoop - Google Compute Engine 问题上的 Spark SQL

我们正在使用bdutil1.1部署Spark(1.2.0)集群。但是,我们在启动spark脚本时遇到了问题:py4j.protocol.Py4JJavaError:Anerroroccurredwhilecallingo70.registerTempTable.:java.lang.RuntimeException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.metastore.HiveMetaStoreClientatorg.apache.hadoop.hive.ql.session.Ses

scala - 使用 Hivecontext,在本地系统 metastore_db 而不是 Cluster 中本地创建 Hive 表,在哪里放置我的 hive-site.xml

我已经创建了一个SparkContext对象,并尝试从hadoop服务器(不在我的本地)上的文本文件中检索文本,我能够检索到它。当我尝试检索Hive表(位于独立机器、集群上)时,我无法做到,当我创建一个Hive表时,它是在metastore_db中本地创建的objHiveContext.sql("createtableyahoo_orc_table(dateSTRING,open_priceFLOAT,high_priceFLOAT,low_priceFLOAT,close_priceFLOAT,volumeINT,adj_priceFLOAT)storedasorc")我尝试设置Me

hadoop - Datanodes 处于事件状态,但我无法将文件复制到 HDFS [Hadoop 2.6.0 - Raspberry Pi Cluster]

我一直在使用RaspberryPis开发Hadoop集群,只是出于学习目的。我已经成功配置了所有的奴隶和主人(据我所知)。问题:HDFS无法复制本地文件。并根据http://Master:8088我有3个事件节点。(我在最后附上了截图)但是当我尝试将本地文件复制到HDFS时,出现以下异常:16/01/1206:20:43WARNhdfs.DFSClient:DataStreamerExceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):File/LICENCE.txt._COPYING_couldonlyb

java - Google Compute Engine 上 Hadoop 中的标准输出

我正在尝试调试在GoogleComputeEngine上的Hadoop上运行的程序作为.jar文件。我尝试在reducer代码中同时使用System.out.println()和context.write()进行调试输出,但无法在任何地方找到它们的输出。我能找到的唯一日志是我的Google存储桶gs:/my_bucket/yarn-logs/my_name/logs/application_#####中的日志和存储在$hadoop_install_dir$中的本地日志/logs/但它们都没有我正在寻找的输出。在以前的日志中,我可以看到我的log4j没有正确初始化,但我不确定这是否是问题

hadoop - 报告平台应该选择 yarn-cluster 还是 yarn-client?

我打算做的是使用现有数据开发一个报告平台。我有一个包含大量记录的现有RDBMS。所以我在用。(Hadoop2.7,Spark,Hive,JasperReports,Scoop-Architecuture)Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。鉴于我已经阅读了以下内容Whatisyarn-clientmodeinSpark?Differencebetweenyarn-clientmodeandyarn-clustermode我应该使用

apache-spark - 如何将配置从 spark-submit 传递到 yarn cluster?

我想知道有什么方法可以让spark-submit临时更改yarn作业的配置?问题是因为我们的Sparkoveryarncluster的historyserver只允许admin访问,不方便用户检索自己job的log。我了解到mapreduce-default.xml中的“mapreduce.job.acl-view-job”可以更改特定作业的ACL。因为我正在使用spark-submit来启Action业,并且“--conf”是为spark本身保留的,但是我如何从命令行和应用程序一起设置yarn的配置? 最佳答案 您可以修改Spar

hadoop - Google Compute 引擎中的职位跟踪 URL 不起作用

我正在使用GoogleComputeEngine在Hadoop上运行Mapreduce作业(几乎所有默认配置)。在运行作业时,我得到一个形式为http://PROJECT_NAME:8088/proxy/application_X_Y/的跟踪URL但它无法打开。我是不是忘记配置什么了? 最佳答案 要详细说明在使用GoogleComputeEngineVM的“外部IP地址”的其他答案中提到的选项Amal,您可以通过运行gcloudcomputeinstancesdescribe--zone来获取外部IP地址。并寻找natIP.要打开端

hadoop - 无法在 Google Compute Engine 中安装 Hadoop

当我尝试从谷歌计算引擎“部署ApacheHadoop”时,我收到一条消息“部署将超过us-central1的CPU配额。限制:8。减少使用,选择另一个区域中的区域,或者请求增加配额。”我尝试了所有区域。它仍然无法正常工作。 最佳答案 如果您使用的是GCE免费试用版,则限制为8个并发CPU内核。这对所有地区和地区都是如此,因此尝试在不同的地区并不能解决这个问题。要运行更大的部署,您需要升级到付费帐户。或者,您可以使用GoogleCloudDataproc或bdutil至deployaHadoopcluster并选择一些较小的实例类型,

hadoop - Spark yarn-cluster 模式 - 读取通过 --files 传递的文件

我正在使用yarn-clustermaster运行我的spark应用程序。应用程序有什么作用?外部服务根据对RESTService的HTTP请求生成一个jsonFileSpark需要读取这个文件并在解析完json之后做一些工作想到的最简单的解决方案是使用--files加载该文件。在yarn-cluster模式下读取文件意味着它必须在hdfs上可用(如果我是对的?)并且我的文件正在被复制到这样的路径:/hadoop_user_path/.sparkStaging/spark_applicationId/myFile.json我当然可以在哪里阅读它,但是我找不到从任何配置/SparkEnv