master-data-services

amazon-web-services - Hadoop配置属性

在我的Spark代码中，我必须在HadoopConfiguration中设置ACCESS_KEY和SECRET_KEY才能访问AWS-S3。在互联网上，我找到了多种设置这些属性的方法。例如样式#1，sc.hadoopConfiguration.set("fs.s3n.access.key",AWS_ACCESS_KEY)sc.hadoopConfiguration.set("fs.s3n.secret.key",AWS_SECRET_KEY)样式#2，sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId",AWS_ACCESS_KEY)sc

java.lang.ClassNotFoundException : org. openx.data.jsonserde.JsonSerDe 错误

我正在尝试使用iPython从Hive查询表。下面是我的代码的样子。sqlc=HiveContext(sc)sqlc.sql("ADDJARs3://x/y/z/jsonserde.jar")我首先创建一个新的配置单元上下文，然后尝试添加上面的jar。以下是我收到的错误消息。Py4JJavaError:Anerroroccurredwhilecallingo63.sql:java.lang.ClassNotFoundException:org.openx.data.jsonserde.JsonSerDe我还可以如何将此jar添加到Spark类路径？最佳答案

ClassNotFoundException JsonSerDe section code jar java python-2.7 apache-spark hadoop pyspark

hadoop - HDFS 行为 : Datanodes up but all data goes to one node (using -copyFromLocal)

我有一个集群配置。主人(也是奴隶)两个奴隶复制因子=1我将一个~9GB的文件movies.txt复制到hdfs中:hadoopdfs-copyFromLocalmovies.txt/input/我观察到一半的block被保存到Master，另一半分布在两个slave上。然后我想到使用以下方法格式化hadoop_stores:stop-all.shrm-rf{hadoop_store}/*hdfsnamenode-formatsshslave1rm-rf{hadoop_store}/*hdfsnamenode-formatexitsshslave2rm-rf{hadoop_store}/

copyFromLocal Datanodes hadoop code section formatting hdfs

mysql - 错误 : When running sqoop import command on master node

我已经配置了hadoop多节点集群。当我尝试在主节点中使用sqoop将表从mysql数据库导入到配置单元时，它抛出以下错误，sqoopimport--connectjdbc:mysql://master:3306/mysql--usernameroot--passwordadmin--tablepayment--hive-import----null-string'\\N'\--null-non-string'\\N'警告:/usr/lib/hcatalog不存在!HCatalog作业将失败。Pleaseset$HCAT_HOMEtotherootofyourHCataloginsta

command running java apache hadoop mysql

amazon-web-services - 如何让 EMR 持续运行

这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Re-useAmazonElasticMapReduceinstance我能否让已启动的EMR集群保持运行并继续向其提交新作业直到我完成(比如几天后)然后关闭集群，或者我是否必须在EC2中启动我自己的集群才能这样做？

amazon-web-services services section notice blockquote amazon-emr emr

java - ERROR [main] master.HMasterCommandLine : Master exiting java. lang.RuntimeException: Master 构建失败

尝试使用HADOOP运行HBASE时出现以下错误HBASE0.98.xHADOOP2.4.0ERROR[main]master.HMasterCommandLine:Masterexitingjava.lang.RuntimeException:FailedconstructionofMaster:classorg.apache.had$atorg.apache.hadoop.hbase.util.JVMClusterUtil.createMasterThread(JVMCl$atorg.apache.hadoop.hbase.LocalHBaseCluster.addMaster(L

Master HMasterCommandLine apache hadoop hbase java

hadoop - 动态加载文件时的 Spark Streaming 和 Data Locality

我正在运行一个spark流应用程序，它从Kafka接收HDFS上的文件路径，应该打开这些文件并对它们执行某种计算。问题是我无法享受数据局部性的好处，因为执行程序可能在任何节点上运行，而打开文件的执行程序不一定是持有文件的执行程序。有没有一种方法可以按照我介绍的方式动态打开文件，同时保持数据局部性？谢谢，丹尼尔最佳答案我不确定你打开文件的意思，如果你能分享一些代码会很有帮助，但如果你使用的是sc.textFile，那是一个RDD转换。转换被集群管理器安排为任务，因此不一定会从运行DStream转换的执行器节点执行。

Streaming Locality section stackoverflow questions hadoop apache-spark spark-streaming

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

时出 Yarn-Client client current hadoop apache-spark hbase block hortonworks-data-platform

hadoop - 限制 Application Master 请求的资源的属性

HadoopMRv2(Yarn)中是否有一个属性允许我们专门操纵ApplicationMaster请求的资源量(VCores和堆内存)？或者ApplicationMaster会动态评估所需的资源(基于每个应用程序)并为容器请求相应的资源？最佳答案以下属性可用于为YARNApplicationmaster设置VCors和HeapMemory。yarn.app.mapreduce.am.resource.mb8192yarn.app.mapreduce.am.resource.cpu-vcores1yarn.app.mapreduc

Application hadoop section gt lt hadoop-yarn

Docker Service 创建

DockerSwarmModeDockerSwarm集群搭建DockerSwarm节点维护DockerService创建service只能依附于dockerswarm集群，所以service的创建前提是，swarm集群搭建完毕。1.创建servicedockerservicecreate命令用于创建service，需要在manager中运行。与创建容器的命令dockerrun非常类似目前的节点状态如下：在swarm中创建一个运行tomcat:8.5.49镜像的service，服务名称为toms，包含3个副本task，对外映射端口号为9000。当一个service包含多个task时，对servi

创建 Service span class token docker 容器运维

120 121 122123124 125 126