ibm-cloud-infrastructure

oracle - 使用外部 Oracle 数据库设置 IBM Open Platform

当我尝试使用Oracle数据库作为RDBMS安装单节点IBMOpenPlatform集群时，我有点困惑。首先，我了解到IBMBigInsights的Hadoop部分不是相应Apache版本的修改版本(如HortonWorks所做的那样)，因此，当Ambari(来自IBM存储库)让我使用外部Oracle数据库时，我想它应该工作。我可能是错的，我在蹩脚的IBM安装指南中找不到任何oracle引用来正确设置它(只是它应该适用于Oracle11gR2)因此，就像我使用等效的HortonWorks发行版(但使用来自IBM的二进制文件)一样，我使用所有oracle参数设置我的ambari-serv

python - IBM Bluemix set_hadoop_config 错误

每当我尝试Apachespark数据分析的设置过程时，我都会收到此错误。在defset_hadoop_config(credentials):prefix="fs.swift.service."+credentials['name']hconf=sc._jsc.hadoopConfiguration()hconf.set(prefix+".auth.url",credentials['auth_url']+'/v3/auth/tokens')hconf.set(prefix+".auth.endpoint.prefix","endpoints")hconf.set(prefix+".t

set_hadoop_config Bluemix 39 credentials 34 python hadoop apache-spark ibm-cloud

hadoop - 如何在 Google Cloud Storage 中存储大量小的 HTML 文件以优化 Dataproc？

我有兴趣在HTML解析任务上试用GoogleCloudDataproc。我们目前在谷歌存储中有很多(200M+)小的HTML文件。我们希望能够将所有这些文件提取到Hadoop(MapReduce或Spark)中进行处理。但是，我的理解是Dataproc在列出和读取大量小文件时性能会很差，而且Hadoop通常也是如此。所以我的问题是，我应该如何将大量小文件打包成更大的文件，以便能够高效地列出和读取？我考虑过像TAR/ZIP这样的标准东西，但我的理解是这些东西是不可分割的，因此并发性是有限的。是否有其他推荐的格式用于此类内容？我考虑过使用avro，并且只是将HTML存储为avro记录中的字

何在 Dataproc section stackoverflow noreferrer hadoop google-cloud-storage google-cloud-dataproc

hadoop - 如何在现有集群上升级 hadoop - google cloud

问题是独立的。我部署了一些集群，现在我想升级我的hadoop版本。我试图检查bdutil或gsutil，我没有找到如何让它工作! 最佳答案不幸的是，由于Hadoop1和Hadoop2之间的各种路径、库依赖项和守护进程有很大不同，因此目前没有简单的就地升级方法。特别是，即使协调库升级和守护程序更改，对集群进行的任何自定义也可能会中断，因此一般来说，简单地删除并重新创建集群会更容易、更安全。为了帮助防止过度卡在单个集群实例上并受益于能够从头开始重新部署可重现集群的敏捷性，最佳实践建议是将您可能拥有的任何自定义隔离到自定义“_env.s

hadoop 何在 code install_jdk section google-cloud-storage google-compute-engine google-cloud-platform

hadoop - 使用 Cloud9 和 hadoop 提取维基百科文章文本

首先:我正在使用运行ElCapitan10.11.3的新MacBook，我刚刚下载了最新的Hadoop(2.6.0)。我正在尝试使用Cloud9从维基百科转储中的一堆页面中提取主要文章文本。基本上，他们会告诉您如何做，作为他们在本文档页面上的第二个“快速而肮脏”的示例:http://lintool.github.io/Cloud9/docs/content/wikipedia.html我下载了所有内容并在我的终端中输入了相同的命令:hadoopjartarget/cloud9-2.0.2-SNAPSHOT-fatjar.jaredu.umd.cloud9.collection.wiki

维基章文 section wikipedia hadoop

hadoop - 在 Google Cloud Dataproc 上运行 xgboost

我是虚拟机分布式学习的新手。现在我有一个大数据集，想在GoogleCloudDataproc上运行xgboost。我查看了xgboostgit中关于在AWS上运行的教程，但我认为这与GoogleCloud不同。任何建议、相关链接、教程将不胜感激!此致! 最佳答案我会说GoogleCloudMachineLearningEngine(CloudML)是最适合机器学习算法的产品，因为它是一种托管服务，您可以专注于模型开发，而不必担心基础架构。Here是关于在CloudML上使用XGBoost进行在线预测的教程。正如您提到的，您有一个大

Dataproc xgboost section Cloud code hadoop google-cloud-platform distributed-computing google-cloud-dataproc

azure - 使用 NiFi 从 Azure 到 Google Cloud Platform 的数据流

我的目标是使用NiFi将json/xml文件从Azure移动到GoogleCloudPlatform(GCP)>。在我所有的研发之后，我发现了一些可能有用的处理器。列表如下:获取文件放置文件putGCSObject-将数据放入GCPFoundthislinkasanalternativetogetfilesfromAzuresincethereisnoin-builtprocessoravailable上面的链接很复杂。所以根据我的目标，我走对了吗？我需要额外的处理器吗？？以及在定义此流程时我需要进行的任何重要配置？请帮助我，因为我是新手并且刚刚开始使用NiFi

Platform Google code section Azure hadoop google-cloud-platform bigdata apache-nifi

hadoop - Google Cloud Platform for NiFi 数据路径

我想在NiFi的GetFile处理器中给出inputfolder的位置。根据NiFi，我提供的路径不正确。它仍然显示警告标志。我跟着这个link但它不能提供太多帮助。下面是我在GetFile处理器的inputpath属性中使用的路径:/browser//我什至试过下面的链接gs://或gs://browser/他们都没有帮助。按照Shu的建议，我创建了一个ListGCSBucket处理器并为其创建了一个新的GCPCredentialsService但是当我运行这个处理器时它给出了一个错误:com.google.cloud.storage.StorageException:NotFoun

Platform hadoop code noreferrer noopener google-cloud-platform bigdata apache-nifi

hadoop - 使用 globStatus 和 Google Cloud Storage 存储桶作为输入时无法运行 Spark 作业

我正在使用Spark1.1。我有一个Spark作业，它只在存储桶下寻找特定模式的文件夹(即以...开头的文件夹)，并且应该只处理那些。我通过执行以下操作实现了这一点:FileSystemfs=FileSystem.get(newConfiguration(true));FileStatus[]statusArr=fs.globStatus(newPath(inputPath));ListstatusList=Arrays.asList(statusArr);ListpathsStr=convertFileStatusToPath(statusList);JavaRDDpaths=sc.

入时 globStatus code FileSystem pre hadoop google-cloud-storage apache-spark google-hadoop

hadoop - 在 Hadoop 作业中调用 Solr Cloud Index 时出错

我的目标是运行一个弹性mapreduce作业，该作业在map阶段查询Solr索引并将结果写入S3。在Hadoop作业中构建Solr索引(即写入Solr索引)时，Solr和Hadoop可以很好地协同工作。当我运行作业来查询Solr索引时，我在尝试启动Solr客户端时收到错误消息。我怀疑Hadoop和Solr之间存在依赖性问题，我记得它们都使用不同版本的http客户端，错误是找不到方法的问题。这是堆栈跟踪2013-07-2403:17:47,082FATALorg.apache.hadoop.mapred.Child(main):Errorrunningchild:java.lang.No

时出 hadoop apache HttpClientUtil section solr solrj emr