草庐IT

already_computed

全部标签

hadoop - Google Compute Engine 问题上的 Spark SQL

我们正在使用bdutil1.1部署Spark(1.2.0)集群。但是,我们在启动spark脚本时遇到了问题:py4j.protocol.Py4JJavaError:Anerroroccurredwhilecallingo70.registerTempTable.:java.lang.RuntimeException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.metastore.HiveMetaStoreClientatorg.apache.hadoop.hive.ql.session.Ses

java - Spark 2.0.0 抛出 AlreadyExistsException(消息 :Database default already exists) when interact with Hive 1. 0.0

我正在尝试使用SparkJava连接到Hive。当我通过Spark在Hive中运行任何查询时,它会返回如下异常:16/10/0609:37:56ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(message:Databasedefaultalreadyexists)我的版本是:星火2.0.0hive1.0.0这是我的全部堆栈:16/10/0609:37:56ERRORmetastore.RetryingHMSHandler:AlreadyExistsException(message:Databasedefaultalr

java - Google Compute Engine 上 Hadoop 中的标准输出

我正在尝试调试在GoogleComputeEngine上的Hadoop上运行的程序作为.jar文件。我尝试在reducer代码中同时使用System.out.println()和context.write()进行调试输出,但无法在任何地方找到它们的输出。我能找到的唯一日志是我的Google存储桶gs:/my_bucket/yarn-logs/my_name/logs/application_#####中的日志和存储在$hadoop_install_dir$中的本地日志/logs/但它们都没有我正在寻找的输出。在以前的日志中,我可以看到我的log4j没有正确初始化,但我不确定这是否是问题

hadoop - Google Compute 引擎中的职位跟踪 URL 不起作用

我正在使用GoogleComputeEngine在Hadoop上运行Mapreduce作业(几乎所有默认配置)。在运行作业时,我得到一个形式为http://PROJECT_NAME:8088/proxy/application_X_Y/的跟踪URL但它无法打开。我是不是忘记配置什么了? 最佳答案 要详细说明在使用GoogleComputeEngineVM的“外部IP地址”的其他答案中提到的选项Amal,您可以通过运行gcloudcomputeinstancesdescribe--zone来获取外部IP地址。并寻找natIP.要打开端

hadoop - 无法在 Google Compute Engine 中安装 Hadoop

当我尝试从谷歌计算引擎“部署ApacheHadoop”时,我收到一条消息“部署将超过us-central1的CPU配额。限制:8。减少使用,选择另一个区域中的区域,或者请求增加配额。”我尝试了所有区域。它仍然无法正常工作。 最佳答案 如果您使用的是GCE免费试用版,则限制为8个并发CPU内核。这对所有地区和地区都是如此,因此尝试在不同的地区并不能解决这个问题。要运行更大的部署,您需要升级到付费帐户。或者,您可以使用GoogleCloudDataproc或bdutil至deployaHadoopcluster并选择一些较小的实例类型,

java - Hadoop - java.net.BindException : Address already in use

我的Hadoop安装工作正常,直到我尝试更改端口号。现在,当我运行任何hadoop程序时,我得到:java.net.BindException:Problembindingtolocalhost/127.0.0.1:9010:Addressalreadyinuse9010是在conf/mapred-site.xml中定义的JobTracker的端口号。我尝试更改它,但仍然出现相同的错误。我什至尝试通过bin/stop-all.sh停止Hadoop,然后通过netstat-nl|检查端口是否被使用|grep9010什么也没找到。感谢任何解决此问题的帮助。 最佳

postgresql - 大量导出时出现 Sqoop PSQLException "Sorry, too many clients already"

当从HDFS导出大型(超过200万行)表到Postgres时,我看到Sqoop抛出PSQLException“抱歉,客户端已经太多了”。我有几张较小的table(约300万张),它们似乎运行良好。即使大表出现故障,我的postgres表中似乎仍然有大约200万行,但我猜这只是来自那些没有死的worker,因为他们首先获得了其中一个连接。我的Postgres表配置为允许300个max_connections,并且有大约70个连接始终来自其他应用程序,因此SQOOP应该有大约230个可供使用。我尝试在我的SQOOP导出命令中将--num-mappers切换为2-8,但这似乎并没有太大的区别

scala - SparkPi 程序在 Yarn/Spark/Google Compute Engine 下保持运行

在GoogleComputeEngine上部署了一个Hadoop(Yarn+Spark)集群,其中有一个主节点和两个从节点。当我运行以下shell脚本时:spark-submit--classorg.apache.spark.examples.SparkPi--masteryarn-cluster--num-executors1--driver-memory1g--executor-memory1g--executor-cores1/home/hadoop/spark-install/lib/spark-examples-1.1.0-hadoop2.4.0.jar10作业一直在运行,每

docker - 重试连接到服务器 : Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 毫秒)

我有三个物理节点。在每个节点中,我使用此命令进入docker。dockerrun-v/home/user/.ssh:/root/.ssh--privileged-p5050:5050-p5051:5051-p5052:5052-p2181:2181-p8089:8081-p6123:6123-p8084:8080-p50090:50090-p50070:50070-p9000:9000-p2888:2888-p3888:3888-p4041:4040-p8020:8020-p8485:8485-p7078:7077-p52222:22-eWEAVE_CIDR=10.32.0.3/12-

java - 在 Google Compute Engine 上成功安装 Oryx?

我正在尝试在GoogleComputeEngine上启动并运行Oryx。我创建了一个新实例并通过以下方式安装了Oryx:gitclonehttps://github.com/cloudera/oryx.gitcdoryxmvn-DskipTestsinstall并将此安装保存为GoogleComputeEngine上的图像(“oryx-image”)。查找Oryx和Google文件系统的问题(Hadoop2.4.1andGoogleCloudStorageconnectorforHadoop)我一直在使用hdfs://作为默认文件系统。发现在GoogleComputeEngine上启动