HCIE-Cloud

python - 尝试从 Jupyter Notebook 使用 Spark 访问 Google Cloud Bigtable 时出现区域错误

我正在尝试从运行PySpark内核的JupyterNotebook中运行对GoogleCloudBigtable的并行访问。我以http://ec2-54-66-129-240.ap-southeast-2.compute.amazonaws.com/httrack/docs/cloud.google.com/dataproc/examples/cloud-bigtable-example.html为例我正在使用我的特定项目/区域/集群/表名称。身份验证通过在spark上下文中广播的服务帐户凭据进行。jconf={"hbase.client.connection.impl":"com.

时出 Bigtable apache java spark python hadoop pyspark jupyter-notebook

hadoop - 将文件从 Google Cloud Storage 加载到本地 Hadoop 集群

我正在尝试将Google云存储文件加载到本地Hadoop集群。我开发了一个解决方法(程序)来将本地EdgeNode和distcp上的文件下载到Hadoop。但这似乎是双向解决方法，并没有给人留下深刻印象。我浏览了几个网站(links1、link2)，这些网站总结了使用HadoopGoogleCloudStorage连接器进行此类过程，并且需要基础架构级别的配置，这在所有情况下都是不可能的。有什么方法可以使用Python或Java以编程方式将文件直接从CloudStorage复制到Hadoop。最佳答案要以编程方式执行此操作，您可

Storage hadoop section noreferrer google-cloud-platform google-cloud-storage

hadoop - Amazon Elastic Cloud 无法在子网上启动

我正在尝试在我们自己的VPC上启动EC2集群。我可以使用命令在AWS中启动它，但如果我指定我们自己的VPC/子网，它就无法启动集群(因此，我们不是在谈论将在其上运行的作业——我们正在谈论启动默认集群本身)。显然，这一定与sub和AWS的Hadoop有关(尽管它不是常见的“无法在主RouteTable中找到到InternetGateway的路由”错误)。我无法从日志中确定任何原因。这在命令行和使用AWSWeb控制台时都会发生。我们不会在集群上执行任何自定义操作/环境。这是子网的详细信息DestinationTarget10.0.0.0/16local0.0.0.0/0igw-2235d2

Elastic hadoop apache 2014 amazon-web-services amazon-ec2

apache-spark - Spark 作业未显示在 Google Cloud 的 Hadoop UI 中

我在GoogleCloud中创建了一个集群并提交了一个Spark作业。然后我按照theseinstructions连接到UI:我创建了一个ssh隧道并用它打开Hadoopweb界面。但工作没有出现。一些额外的信息:如果我通过ssh连接到集群的主节点并运行spark-shell，这个“作业”会显示在hadoop网络界面中。我很确定我以前做过这个并且我可以看到我的作业(包括正在运行的和已经完成的)。我不知道他们之间发生了什么才停止出现。最佳答案问题是我在本地模式下运行作业。我的代码有一个.master("local[*]")导致了这

apache-spark apache section code Hadoop google-cloud-platform

hadoop - 如何从机器内部在 google cloud dataproc 上运行配置单元？

我刚刚创建了一个谷歌云数据处理集群。一些基本的东西对我不起作用:我正在尝试从主节点运行Hive控制台，但它无法加载除root以外的任何用户(看起来有锁，控制台只是卡住了)。但即使在使用root时，我也会看到一些奇怪的行为:“显示表格；”显示名为“输入”的表查询该表会引发一个异常，表示未找到该表。不清楚哪个用户正在通过网络用户界面创建表格。我创建了一个作业并执行了它，但随后没有通过控制台看到结果。找不到关于此的任何好的文档-有人对此有想法吗？最佳答案由于默认的Metastore配置，目前运行hive命令有些问题。我建议您使用bee

配置单 dataproc section code li hadoop hive google-cloud-platform google-cloud-dataproc

hadoop - 在 Google Cloud Dataproc 环境中使用 Hadoop 流运行 python map reduce 作业时出错

我想使用hadoop流方法在GoogleCloudDataproc中运行pythonmapreduce作业。我的mapreducepython脚本、输入文件和作业结果输出位于Google云存储中。我试着运行这个命令hadoopjar/usr/lib/hadoop-mapreduce/hadoop-streaming.jar-filegs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py-mappergs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py-filegs://buck

时出 Dataproc intro_to_mapreduce mapreduce bucket-name hadoop google-cloud-platform hadoop-streaming google-cloud-dataproc

hadoop - 无法在 Google Cloud Dataproc 上启动 Apache Flink 1.7

我使用Hadoop2.9.2启动了Dataproc集群，下载了Flink1.7.2并尝试使用以下命令启动它:./bin/yarn-session.sh-n2失败并显示以下错误消息:SettingHADOOP_CONF_DIR=/etc/hadoop/confbecausenoHADOOP_CONF_DIRwasset.2019-02-1512:56:05,679INFOorg.apache.flink.configuration.GlobalConfiguration-Loadingconfigurationproperty:jobmanager.rpc.address,localho

Dataproc hadoop java URLClassLoader ClassLoader apache-flink google-cloud-dataproc

hadoop - Google Cloud 上的 Hive 无法与 hive 以外的任何用户访问数据

我在Hadoop上运行Hive，并使用bdutil版本1.3.1成功安装在GoogleCloudStorage上。我运行了以下命令:./bdutil-eplatforms/hdp/ambari_env.shdeploy作为hive用户，我可以毫不费力地创建/删除数据库和表:hive>createdatabasedb_finallocation'gs://cip-hadoop-dev-data/apps/hive/warehouse/db_final';OKTimetaken:1.816seconds但是如果我尝试以任何其他用户身份访问数据库，我会收到以下错误:hive>usedb_fi

hadoop Google code hive google-compute-engine chmod google-cloud-platform

linux - 运行 hadoop 集群时在 Google Cloud Platform 上获取 'sudo: unknown user: hadoop' 和 'sudo: unable to initialize policy plugin error'

我正在尝试部署Google在https://github.com/GoogleCloudPlatform/solutions-google-compute-engine-cluster-for-hadoop提供的示例Hadoop应用程序在谷歌云平台上。我逐步按照那里给出的所有设置说明进行操作。我能够设置环境并成功启动集群。但是我无法运行MapReduce部分。我正在我的终端上执行这个命令:./compute_cluster_for_hadoop.pymapreduce[--prefix]--inputgs://\--outputgs://\--mappersample/shortest

amp hadoop compute cluster linux google-compute-engine google-cloud-platform google-hadoop

hadoop - 如何在使用 Google Cloud Dataproc 启动的 Spark 集群中启用 Snappy 编解码器支持？

尝试从使用GoogleCloudDataproc启动的Spark集群读取Snappy压缩序列文件时，我收到以下警告:java.lang.RuntimeException:nativesnappylibrarynotavailable:thisversionoflibhadoopwasbuiltwithoutsnappysupport.在此上下文中启用Snappy编解码器支持的最佳方法是什么？最佳答案遗憾的是，Dataproc的启动图像是在没有Snappy支持的情况下构建的。我已经打开了一个错误来为下一张图片修复这个问题。解决方法

何在 Dataproc code section snappy hadoop apache-spark google-cloud-platform google-cloud-dataproc

133 134 135136137 138 139