草庐IT

amazon-elasticache

全部标签

hadoop - 如何从 Ubuntu 中的命令行创建 Amazon EMR 集群?

如何在Ubuntu中通过命令行创建AmazonEMR集群?我有私钥、访问key和pem文件?....谁能指导我如何从命令行运行字数统计示例 最佳答案 您可以为此使用AWS命令​​行工具(CLI)。http://docs.aws.amazon.com/cli/latest/userguide/installing.html这些安装完成后,您必须使用“awsconfigure”命令配置工具并输入私有(private)key、访问key。http://docs.aws.amazon.com/cli/latest/userguide/cli

hadoop - 在 Amazon EMR 上设置 Spark 类路径

我正在尝试使用Hadoop2.4和Spark1.3.1在EMR(AMI3.6)上运行一些简单的作业。我在没有引导脚本的情况下手动安装了Spark。目前我正在尝试读取和处理来自S3的数据,但似乎我在我的类路径中丢失了无数的jar。在spark-shell上运行命令。启动shell使用:spark-shell--jarsjar1.jar,jar2.jar...在shell上运行的命令:vallines=sc.textFile("s3://folder/file.gz")lines.collect()错误总是类似于:“找不到类xyz”。找到所需的jar并将其添加到类路径后,我将再次收到此错误

amazon-web-services - 使用 NiFi 写入启用 MFA 的 AWS S3 Bucket

在MFA处于事件状态时,是否可以使用NiFi处理器PutS3Object将数据写入S3存储桶?如果没有,考虑将数据从hive/HDFS写入S3的替代方案是什么? 最佳答案 从1.8.0版开始,我认为ApacheNiFi*S3Object处理器(或AWSCredentialsProviderControllerService)不支持此功能。我建议在Jirasite上打开功能请求票.您可以使用以下选项之一立即完成此操作:使用ExecuteStreamCommand或ExecuteProcess调用终端命令或shell脚本使用AWSS3C

amazon-web-services - 将数据从 Hive 写入 Amazon S3,同时保持表分区目录结构

假设我在Hive中有一个名为T1的表。它按日期字段dt列进行分区。在配置单元Metastore中,目录结构有一个名为T1表的文件夹,其中有子目录-每个日期一个文件夹。我的目标是将表的数据复制到AmazonS3中,同时保持目录结构。如果我尝试将表内容直接写入S3文件,如下所示,输出将写入单个文件并且目录结构丢失:INSERTOVERWRITEDIRECTORY"s3://"SELECT*FROMT1;或者,如果我尝试使用命令将目录从HIVE-metatore直接复制到s3,则整个目录将复制到S3,但底层文件不再以逗号分隔...这是一些不可读的字符相反:s3-dist-cp--src=hd

amazon-web-services - 如何将 Amazon S3 对象移动到分区目录中

以具有以下结构的s3存储桶为例,其中包含以下形式的文件francescotti_yyyy_mm_dd_hh.csv.gz:例如:francescototti_2019_05_01_00.csv.gz,francescototti_2019_05_01_01.csv.gz,francescototti_2019_05_01_02.csv.gz,.....francescototti_2019_05_01_23.csv.gz,francescototti_2019_05_02_00.csv.gz每个每小时文件大约30MB。我希望最终的配置单元表按天分区存储为orc文件。最好的方法是什么?我

amazon-s3 - 将单个 Hadoop map reduce 输出写入多个 S3 对象

我正在实现需要在多个S3对象中创建输出的HadoopMapreduce作业。Hadoop本身只创建一个输出文件(一个S3对象),但我需要将输出分成多个文件。我如何实现这一目标? 最佳答案 我通过使用S3工具包将我的reducer方法的输出直接写入S3来做到这一点。因为我在EC2上运行,所以这是快速且免费的。一般来说,您希望Hadoop尽可能多地处理您的输入和输出,以获得更清晰的映射器和缩减器;当然,您希望在管道的最后写入S3,让Hadoop的代码移动在HDFS上完成它的工作。无论如何,我建议进行所有数据分区,并在最终归约任务中将整个

hadoop - 在 Amazon MapReduce 上调用已编译的二进制文件

我正尝试在AmazonElasticMapReduce上进行一些数据分析。映射器步骤是一个python脚本,其中包括对名为“./formatData”的已编译C++二进制文件的调用。例如:#myMapper.pyfromsubprocessimport*inputData=sys.stdin.readline()#...p1=Popen('./formatData',stdin=PIPE,stdout=PIPE)p1Output=p1.communicate(input=inputData)result=...#manipulatetheformatteddataprint"%s\t%

amazon-web-services - 无法使用 StreamExecutionEnvironment 使用 S3 接收器写入 S3 - Apache Flink 1.1.4

我创建了一个简单的ApacheFlink项目,它将从Kafka主题读取数据并将该数据写入S3存储桶。运行该项目时我没有收到任何错误,它成功地从Kafka主题读取每条消息,但没有任何内容写入我的S3存储桶。没有错误,因此很难尝试调试正在发生的事情。下面是我的项目和我的配置。这仅在我使用StreamExecutionEnviornment时发生。如果我尝试使用常规批处理ExecutionEnviornment生成到S3,它就可以工作。S3测试Java程序publicclassS3Test{publicstaticvoidmain(String[]args)throwsException{/

amazon-web-services - 无法使用 Hadoop 访问 S3 存储桶

我正在尝试使用Hadoop(2.7.3)访问我的S3存储桶,我得到以下信息ubuntu@AWS:~/Prototype/hadoop$ubuntu@AWS:~/Prototype/hadoop$bin/hadoopfs-lss3://[bucket]/17/03/2415:33:31WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable-ls:Fatalinternalerrorcom.amazonaws.ser

amazon-web-services - 使用 Elastic MapReduce 进行文件处理 - 没有 Reducer 步骤?

我在S3目录中有大量文本文件。对于每个文本文件,我想应用一个函数(通过Bootstrap加载的可执行文件),然后将结果写入S3输出目录中另一个同名的文本文件。所以在我的MapReduce作业中没有明显的reducer步骤。我曾尝试使用NONE作为我的reducer,但输出目录中充满了part-00000、part-00001等文件。而且这些文件的数量比我输入目录中的文件还要多;每个部分文件只代表一个处理过的片段。如有任何建议,我们将不胜感激。 最佳答案 Hadoop提供了一个名为IdentityReducer的缩减器。Identit