草庐IT

continuation-local-storage

全部标签

hadoop - 如何将我的数据从本地 HDFS 安全地传输到 Google Cloud Storage?

我在本地HDFS安装中有大量数据。我想将其中一些移动到GoogleCloud(云存储),但我有一些顾虑:我实际上如何移动数据?我担心在公共(public)互联网上移动它将数据从我的HDFS存储安全地移动到CloudStorage的最佳方法是什么? 最佳答案 要将数据从本地Hadoop集群移动到GoogleCloudStorage,您可能应该使用GoogleCloudStorageconnectorforHadoop.您可以按照installdirections在任何集群中安装连接器.请注意,GoogleCloudDataproc集群

hadoop - 动态加载文件时的 Spark Streaming 和 Data Locality

我正在运行一个spark流应用程序,它从Kafka接收HDFS上的文件路径,应该打开这些文件并对它们执行某种计算。问题是我无法享受数据局部性的好处,因为执行程序可能在任何节点上运行,而打开文件的执行程序不一定是持有文件的执行程序。有没有一种方法可以按照我介绍的方式动态打开文件,同时保持数据局部性?谢谢,丹尼尔 最佳答案 我不确定你打开文件的意思,如果你能分享一些代码会很有帮助,但如果你使用的是sc.textFile,那是一个RDD转换。转换被集群管理器安排为任务,因此不一定会从运行DStream转换的执行器节点执行。

hadoop - 缺少 Hive 执行 Jar :/usr/local/apache-hive-2. 1.0-bin/lib/hive-exec-*.jar

运行hive时出现以下错误MissingHiveExecutionJar:/usr/local/apache-hive-2.1.0-bin/lib/hive-exec-*.jar查看所有相关帖子,例如MissingHiveExecutionJar:/usr/local/hadoop/hive/lib/hive-exec-*.jar但没有帮助..!!几乎什么都试过了按照这里的步骤安装http://www.bogotobogo.com/Hadoop/BigData_hadoop_Hive_Install_On_Ubuntu_16_04.php这是我的所有设置#HADOOPVARIABLES

hadoop - Data locality 概念是否也适用于 Reducers?

我的理解:数据局部性的概念仅适用于Mapper,因为它处理输入文件。Reducers在处理时是否也会使用Datalocality概念?数据局部性:数据局部性是指通过对数据进行计算而不是从其位置请求数据来处理数据所在的位置。在计算数据时,Mappers和Reducers会工作。映射器在计算数据时使用数据局部性。Reducers将输入作为Mappers的输出。假设Mappers输出(中间数据)存储在不同的数据节点。Reducers在计算时是否使用数据局部性? 最佳答案 不,数据局部性概念仅适用于MAPPERS。Reducer是根据par

hadoop - 将 hadoop 集群连接到多个 Google 项目中的多个 Google Cloud Storage 存储桶

可以同时将我的Hadoop集群连接到多个GoogleCloud项目吗?我可以通过GoogleCloudStorageConnector在单个GoogleProject中轻松使用任何GoogleStorage存储桶,如本线程中所述Migrating50TBdatafromlocalHadoopclustertoGoogleCloudStorage.但是我找不到任何文档或示例如何从单个map-reduce作业连接到两个或多个GoogleCloud项目。你有什么建议/技巧吗?非常感谢。 最佳答案 确实,可以同时将您的集群连接到来自多个不同

hadoop - 使用 Google Cloud Dataflow 合并 Google Cloud Storage 中的文件

NathanMarz在他的书“BigData”中描述了如何维护HDFS中的数据文件。以及如何使用他的Pail优化文件大小以尽可能接近原生HDFSblock大小在MapReduce之上运行的库.是否有可能在GoogleCloudStorage中获得相同的结果??我可以使用GoogleCloudDataflow吗?而不是MapReduce用于此目的? 最佳答案 GoogleCloudStorage允许组合对象,让您可以将一个对象存储在多个部分中,然后将它们组合起来,一次最多可组合32个部分,总共1024个组成部分。API中提供了此功能。

java - 如何在 Flink 中为 Google Cloud Storage 创建 RecoverableWriter

我想使用GoogleCloudStorage使用StreamingFileSink从我的流作业写入(sink)DataStream元素.为此,我使用了GoogleCloudStorageconnector用于Hadoop作为org.apache.hadoop.fs.FileSystem的实现,并使用HadoopFileSystemasanimplementationoforg.apache.flink.core.fs.FileSystem为Flink包装了hadoopFileSystem类。我在我的gradle文件中包含了以下依赖项:编译("com.google.cloud.bigda

java - 从 Windows 机器加载 Hive 表(Load data local inpath)

我正在尝试使用来自Windows的文件加载Hive表。但是我收到以下错误:java.sql.SQLException:Errorwhilecompilingstatement:FAILED:IllegalArgumentExceptionjava.net.URISyntaxException:Expectedscheme-specificpartatindex2:C:我正在使用TalendETL工具来处理文件。下面是Talend生成的代码:Stringpath_tHiveLoad_1="file:///C:/employee.txt";Stringtablename_tHiveLoad

hadoop - 在 continuent-tools-hadoop 中更改 tungsten 安装目录

您好,我正在使用它从hadoop将数据加载到配置单元。https://github.com/continuent/continuent-tools-hadoop这会产生以下错误:ls:cannotaccess/opt/continuent/tungsten/tungsten-replicator/:Nosuchfileordirectory这很明显,因为我在我的tungsten中安装在不同的文件夹中,而不是默认文件夹中。在哪里可以更改tungsten目录的URL? 最佳答案 执行./bin/load-reduce-checkwith

java - HDInsight-Spark (spark-submit) 失败 - java.lang.NoSuchMethodError : com. microsoft.azure.storage.blob.CloudBlockBlob.startCopy

我们正在开发一个spark应用程序。它将托管在azureHDInsightSpark集群上。我们的用例是这样的,我们必须从azureblob存储中提取数据并使用spark处理数据,最后创建或将数据追加回azureblob存储。所以我们用了azure-storage-4.3.0.jar我们在eclipse项目中使用了Maven并添加了以下依赖com.microsoft.azureazure-storage4.3.0编译成功。甚至应用程序在本地机器上也能正常运行并且执行时没有任何问题。因此我们从eclipse创建了一个uber/fatjar并移植到我们的AzureHDInsight-Spa