azure-blob-storage

azure - 使用 IaaS 的 Azure 上的 Hadoop

我正在考虑使用Azure中的虚拟化环境为大数据分析设置Hadoop集群。由于数据量非常大，我正在考虑将数据存储在二级存储中，例如AzureDataLakeStore和Hadoop集群存储将充当主存储。我想知道如何配置，以便在创建Hive表和分区时，部分数据可以驻留在主存储中，其余数据驻留在辅助存储中？谢谢问候，马杜最佳答案默认情况下，您不能将文件系统与Hive表混合使用。Hive元存储仅包含一个用于数据库/表定义的文件系统位置。您可以尝试使用WaggleDance设置一个联合Hive解决方案，但这可能比简单地允许Hive数据存在

azure - 使用 Azure Blob 存储时的 HDInsight 群集大小

当使用HDInsight并选择AzureStorageBlob来存储需要计算的数据时，您仍然需要在配置新集群时选择数据节点的数量。如果您的数据存储在Azure存储Blob上，数据节点的数量有什么影响？blob中的数据是否实际复制到数据节点上？最佳答案如果您将数据放在AzureBlobStore上，它会保留在那里，并直接从Azure存储中读取。HDInsight集群中的数据节点有两个用途。首先，他们运行实际的计算作业，这些作业直接从Azure存储中读取。这并不像HDFS用户听起来那么疯狂，因为Azure的一致底层结构使存储保持良好

HDInsight azure section hadoop hive azure-hdinsight

azure - HDFS ls 在 Flume 写入文件时显示文件大小为 0

我们目前正在设置一个ApacheFlume系统，该系统收集事件数据并将其写入我们的HDInsightHDFS集群中的文件。在验证初始设置时，hdfsls在Flume写入文件时显示文件大小为0，但是当文件滚动(并且删除了.tmp文件扩展名)时，文件大小突然跳起来。在Flume写入文件时，HDFS或HDInsight(或WASB)是否有某种原因导致文件的文件大小为0。最佳答案这可能是由于HDFS一致性模型。在向HDFS执行写入时，一旦写入了超过一个block的数据，第一个block将对新读者。后续block也是如此:它始终是当前bl

时显 azure section HDFS hadoop azure-hdinsight

hadoop - 亚马逊电子病历 : Configuring storage on data nodes

我使用的是AmazonEMR，我能够很好地运行大多数作业。当我开始在EMR集群中加载和生成更多数据时，我遇到了问题。集群存储空间不足。每个数据节点都是一个c1.medium实例。根据链接here和here每个数据节点应配备350GB的实例存储。通过ElasticMapReduceSlave安全组，我已经能够在我的AWS控制台中验证c1.medium数据节点正在运行并且是实例存储。当我在名称节点上运行hadoopdfsadmin-report时，每个数据节点都有大约10GB的存储空间。这通过运行df-h进一步验证hadoop@domU-xx-xx-xx-xx-xx:~$df-hFiles

病历 Configuring section noreferrer noopener hadoop amazon-ec2 amazon-web-services elastic-map-reduce emr

hadoop - 从 Hadoop 访问只读的 Google Storage 存储桶

我正在尝试使用bdutil脚本从部署在GoogleCloud中的Hadoop集群访问GoogleStorage存储桶。如果存储桶访问是只读的，它将失败。我在做什么:部署集群bdutildeploy-edatastore_env.sh关于大师:vgorelik@vgorelik-hadoop-m:~$hadoopfs-lsgs://pgp-harvard-data-public2>&1|head-1014/08/1414:34:21INFOgcs.GoogleHadoopFileSystemBase:GHFSversion:1.2.8-hadoop114/08/1414:34:25WAR

Storage hadoop code GoogleCloudStorageImpl google-cloud-storage gsutil google-cloud-platform google-hadoop

java - 无法使用本地 hadoop 连接 azure blob 存储

同时尝试将本地hadoop与AZUREBLOB存储连接(即使用blob存储作为HDFS)与Hadoop版本-2.7.1，抛出异常这里我通过设置属性成功组建了本地集群fs.default.namewasb://account@storage.blob.core.windows.net然后是core-site.xml中blob存储的键值。在列出文件或对blob存储进行HDFS操作时，出现以下异常ls:NoFileSystemforscheme:wasb任何人请指导我解决上述问题。最佳答案您需要添加hadoop-azure.jar在h

hadoop azure strong section java hdfs

google-app-engine - Hadoop 无法连接到 Google Cloud Storage

我正在尝试将在GoogleCloudVM上运行的Hadoop连接到GoogleCloudStorage。我有:修改了core-site.xml以包含fs.gs.impl的属性和fs.AbstractFileSystem.gs.impl下载并引用了生成的hadoop-env.sh中的gcs-connector-latest-hadoop2.jar使用我的个人帐户通过gcloudauth登录进行身份验证(而不是服务帐户)。我可以毫无问题地运行gsutil-lsgs://mybucket/但是当我执行hadoopfs-lsgs://mybucket/我得到输出:14/09/3023:29:3

google-app-engine Storage code gt lt hadoop google-cloud-storage google-hadoop

azure - 在 Azure 上的 HDInsight 群集上打开一个端口

我有一个MicrosoftAzureHDInsight集群。在节点上，我正在rdp'ing并启动一个绑定(bind)到端口8080的应用程序。我希望能够从集群外部连接到这个应用程序。我有我的集群连接字符串(https://xxxxx.azurehdinsight.net)，但是当我尝试连接到它时，我超时了。我认为这是因为我没有向公众开放8080端口。我怎么能在集群下做到这一点我只有Hadoop服务和用户名.... 最佳答案此时，我们不允许您控制/打开HDInsight群集上的其他网络端口。如果您希望Azure中的另一台计算机能够访

HDInsight azure section noreferrer hadoop azure-hdinsight

hadoop - Hbase 与 Cassandra : Which is better for a timeseries data storage?

我使用我的API日志提取如下信息:这段时间内我的API有多少用户？或者在这段时间里，什么类型的服务被调用最多？我提取的几乎所有信息都取决于时间戳。实际上，我使用MongoDB并将时间戳添加为索引(对于80GB，索引大小为12GB)。有人向我推荐迁移到cassandra或Hbase。我想知道哪个更适合我的用例:时间序列数据分析。需要良好的写入和读取性能。可以使用hadoop进行数据分析。感谢您分享您的观点或经验。最佳答案 Cassandra的优势:Cassandra通常表现出更好的性能(尽管两者都非常出色)。从操作的角度来看，Cas

timeseries Cassandra section hadoop hbase analytics bigdata

azure - HDInsight : HBase or Azure Table Storage?

目前，我的团队正在创建一个使用HDInsight的解决方案。我们每天将获得5TB的数据，并且需要对这些数据执行一些map/reduce作业。如果我们的数据存储在AzureTableStorage而不是AzureHBase中，会有任何性能/成本差异吗？最佳答案主要区别在于功能和成本。AzureTableStorage本身没有附加mapreduce引擎，但您当然可以使用mapreduce方法编写自己的引擎。您可以使用AzureHDInsight将MapReduce连接到表存储。周围有几个连接器，包括我编写的一个以配置单元为中心的连接

HDInsight Storage section Azure hadoop hbase azure-table-storage azure-hdinsight