designated-initializer

hadoop - Spark 提交 :ERROR SparkContext: Error initializing SparkContext

我正在尝试在HadoopYARN客户端模式下运行我的spark作业，我正在使用以下命令$/usr/hdp/current/spark-client/bin/spark-submit--masteryarn-client--driver-memory1g--executor-memory1g--executor-cores1--filesparma1--jarsparam1param2--classcom.dc.analysis.jobs.AggregationJobsparkanalytics.jarparam1param2param3请在下面找到spark-default配置:Spa

linux - 运行 hadoop 集群时在 Google Cloud Platform 上获取 'sudo: unknown user: hadoop' 和 'sudo: unable to initialize policy plugin error'

我正在尝试部署Google在https://github.com/GoogleCloudPlatform/solutions-google-compute-engine-cluster-for-hadoop提供的示例Hadoop应用程序在谷歌云平台上。我逐步按照那里给出的所有设置说明进行操作。我能够设置环境并成功启动集群。但是我无法运行MapReduce部分。我正在我的终端上执行这个命令:./compute_cluster_for_hadoop.pymapreduce[--prefix]--inputgs://\--outputgs://\--mappersample/shortest

amp hadoop compute cluster linux google-compute-engine google-cloud-platform google-hadoop

linux - 预认证失败 : Password read interrupted while getting initial credentials

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭4年前。Improvethisquestion这是我遇到过的事情，我找到了解决方案。从那里没有任何问题，我会把它作为一个问题发布，我会写下我的解决方案作为答案。环境:操作系统:CentosLinux、MacOS(BigSur)集群:ClouderaHadoopDistribution，工具:Kerberos问题:我通过“ktutil”创建了“user.keytab”文件来更新没有密码的krb票据，正如这里推荐的那样https://kb.

interrupted credentials section user class linux hadoop kerberos keytab

apache-spark - 错误 : User did not initialize spark context

记录错误:TestSuccessfull2018-08-2004:52:15INFOApplicationMaster:54-Finalappstatus:FAILED,exitCode:132018-08-2004:52:15ERRORApplicationMaster:91-Uncaughtexception:java.lang.IllegalStateException:Userdidnotinitializesparkcontext!atorg.apache.spark.deploy.yarn.ApplicationMaster.runDriver(ApplicationMas

spark apache-spark ApplicationMaster apache hadoop

hadoop - 如何解决 Oozie 错误 : JA009: Cannot initialize Cluster. 检查 mapreduce.framework.name 的配置

我一直在使用oozie来安排spark作业。尝试使用Oozie中可用的spark操作在2.x集群中部署spark作业。在我的job.properties中，我有以下内容`nameNode=hdfs://hostname:8020jobTracker=hostname:8050master=yarn-clusterqueueName=defaultoozie.use.system.libpath=true`当我提交oozie作业时，我一直收到此错误错误:错误代码[JA009]，消息[JA009:无法初始化集群。请检查您的mapreduce.framework.name配置和相应的服务器地

initialize framework oozie section apache hadoop oozie-coordinator

java - 将 Java 应用程序迁移到 Hadoop : Architecture/Design Roadblocks?

Alrite..所以..这是一种情况:我负责构建基于Java的ETL软件(更确切地说是EAI)的迁移。我必须将其迁移到Hadoop(apache版本)。现在，从技术上讲，这更像是重新启动而不是迁移——因为我没有要迁移的数据库。这是关于利用Hadoop，以便(“ETL”的)转换阶段是并行化的。这将使我的ETL软件，更快-转换并行化。可扩展-处理更多数据/大数据就是添加更多节点。可靠-Hadoop的冗余性和可靠性将增加我的产品的功能。我已经测试了这个配置-将我的转换算法更改为mapreduce模型，在高端Hadoop集群上对其进行了测试，并对性能进行了基准测试。现在，我正在尝试了解并记录所

Architecture Roadblocks Hadoop section 的 java

hadoop - hive ，直线 : Peer indicated failure: GSS initiate failed

我正在使用在Kerberos中添加的帐户启动beeline来测试Sentry:beeline-u"jdbc:hive2://IP:10000/;principal=test_table/domain_name@HADOOP.COM"但是JavaHotSpot(TM)64-BitServerVMwarning:ignoringoptionMaxPermSize=512M;supportwasremovedin8.0JavaHotSpot(TM)64-BitServerVMwarning:ignoringoptionMaxPermSize=512M;supportwasremovedin8

indicated initiate section code hive hadoop

hadoop - kinit : Client's credentials have been revoked while getting initial credentials

我的hdp集群配置了带有AD的kerberos。所有HDP服务帐户都生成了主体和key表，包括spark。我知道服务帐户没有密码并设置为未过期。现在在执行kinit-ktspark.keytab-pspark-PRINCIPAL时出现以下错误(请参阅标题)。我在麻省理工学院的网站上读到，这是由于多次登录尝试失败或KDC中默认策略中设置的帐户过期而发生的。可以使用kadmin命令解锁帐户，例如kadmin:modprincispark/principal但我已与AD管理员进行交叉检查。他说我们在使用AD时不使用kdc服务器执行kadmin命令，但说使用ADUI检查时spark帐户处于解锁

credentials getting section spark strong hadoop apache-spark active-directory kerberos hortonworks-data-platform

hadoop - 亚马逊电子病历 : Initializing a cluster with data

我正在使用AmazonEMR，并且能够使用CLI工具创建和运行工作流。作业运行良好。但是，当我尝试将数据从S3和名称节点的本地文件系统加载到我的EMR集群的HDFS时遇到了问题。我想从S3填充HDFS。我正在尝试使用S3DistCp工具执行此操作。我正在运行这个命令:elastic-mapreduce--jobflow$JOBFLOWID--jars3://us-east-1.elasticmapreduce/libs/s3distcp/1.0.1/s3distcp.jar--arg--src--arg's3n://my-bucket/src'--arg--dest--arg'hdfs

病历 Initializing hadoop apache java amazon-s3 hdfs emr

database-design - Hadoop Hbase : Spreading column families across tables or not

Hbase的文档说的很清楚，相似的列应该归为列族，因为物理存储是由列族来完成的。但是将两个列族放在同一个表中，而不是每个列组都有单独的表，这意味着什么？是否存在以这种方式“分区”表更有意义的特定情况，以及一个“宽”表效果更好的情况？单独的表应该导致单独的“行区域”，这在一些列族(作为一个整体)非常稀疏时可能是有益的。相反，什么时候将列系列聚集在一起比较有利？最佳答案您已经了解了列族的概念:基本上，它只是提示HBase将这些项目存储和复制在一起以便更快地访问。如果您将两个列族放在同一个表中，并且总是有不同的键来访问它们，那么这实际

database-design Spreading section 的浏览量 hadoop hbase

121 122 123124125 126 127