amazon-elastic-transcoder

r - 将 Hive 表从 HDFS 移动到 Amazon Redshift

我尝试将通过连接4-5个数据集创建的Hive表传输到Redshift。这个过程应该如何实现？我们在边缘节点上有可用的R。Hive表必须先传输到S3，然后从s3传输到Redshift。这是唯一的方法吗？是否可以使用R，即使用RHive包将我的数据集从HDFS移动到R，然后将该数据集从R移动到Redshift？最佳答案您可以使用RJDBC连接到Redshift(Redshift是pgsql)。因此，您可以使用从配置单元读取一行，并使用R中的RJDBC将其加载到Redshift。您创建1000个或更多的批处理并插入Redshift。如

hadoop - 从 Pig UDF Java 类中的分布式缓存访问文件，Amazon EMR

我正在尝试访问UDF中的文件(sample.txt)。我想将该文件放在分布式缓存中并从那里使用它。我正在使用亚马逊EMR来运行Pig作业。我在创建集群时使用EMRbootstrap-action将文件(sample.txt)复制到HDFS。bootstrap.sh(将文件从s3复制到hdfs)hadoopfs-copyToLocals3n://s3_path/sample.txt/mnt/sample.txtUsingSample.java(使用sample.txt的UDF)publicclassUsingSampleextendsEvalFunc{publicStringuseSam

hadoop Amazon String sample code apache-pig amazon-emr distributed-cache udf

hadoop - 无法让日志聚合在 Amazon-Hadoop 集群上工作

我尽我所能使日志聚合，但我做不到。所以我需要你的帮助来解决这个问题:我将其添加到yarn-site.xml并重新启动但没有任何乐趣。yarn.log-aggregation-enabletrueWheretoaggregatelogsto.yarn.nodemanager.remote-app-log-dir/tmp/logsyarn.log-aggregation.retain-seconds259200yarn.log-aggregation.retain-check-interval-seconds3600当我尝试通过以下方式进行聚合时:yarnlogs-applicationI

上工 Amazon-Hadoop lt gt property hadoop amazon-ec2 hadoop-yarn

分布式搜索引擎（Elastic Search）+消息队列（RabbitMQ）部署（商城4）

一、分布式搜索引擎：ElasticSearchElasticSearch的目标就是实现搜索。是一款非常强大的开源搜索引擎，可以帮助我们从海量数据中快速找到需要的内容。在数据量少的时候，我们可以通过索引去搜索关系型数据库中的数据，但是如果数据量很大，搜索的效率就会很低，这个时候我们就需要一种分布式的搜索引擎。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch结合kibana、Logstash、Beats，也就是elasticstack（ELK），被广泛应用在日志数据分析、实时监控等领域。而elasticsearch是elasticstack的核心

队列分布式插入 img img-blog 搜索引擎 rabbitmq centos 服务器

amazon-web-services - 如何使用 "s3a://"方案让 Hive 2.2.1 成功与 AWS S3 集成

我遵循了各种已发布的文档，了解如何使用s3a://方案将ApacheHive2.1.1与AWSS3集成，配置fs.s3a.access.key和fs.s3a.secret.key用于hadoop/etc/hadoop/core-site.xml和hive/conf/hive-site.xml.我现在可以让hdfsdfs-lss3a://[bucket-name]/正常工作(它返回那个桶的s3ls)。所以我知道我的信用、存储桶访问和整体Hadoop设置是有效的。hdfsdfs-lss3a://[bucket-name]/drwxrwxrwx-hdfshdfs02017-06-2722:4

amazon-web-services amp code bucket-name s3a hadoop amazon-s3 hive

amazon-web-services - Hadoop 配置单元无法在 AWS EMR 上扩展

我正在hadoophive上运行一个实验。在这个实验中，我在2个不同的硬件设置上运行相同的配置单元作业。它托管在AWSEMR中。这是我运行的hive.sql脚本:DROPDATABASEIFEXISTSlabtest;CREATEDATABASElabtest;CREATETABLEIFNOTEXISTSlaborder(InserttsTIMESTAMP,ordernrSTRING,PatientnrSTRING,visitnrSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPE

配置单 amazon-web-services 34 STRING labspecimen hadoop hive amazon emr

hadoop - 随着集群规模的增加，每个节点并发运行的映射器数量在 Elastic MapReduce w/AMI 3.1.0 和 Hadoop 2.4.0 上急剧下降

在相关问题(HowtosettheprecisemaxnumberofconcurrentlyrunningtaskspernodeinHadoop2.4.0onElasticMapReduce)中，我要求提供将并发运行的映射器/缩减器的数量与YARN和MR2内存参数相关联的公式。事实证明，在ElasticMapReduce上，当我的集群有2到10个c3.2xlarge节点时，那里提到的公式的变体工作正常，每个节点有7-9个并发运行的映射器；但是当c3.2xlarges的数量为20或40时，我发现集群未充分利用:每个节点仅运行1-4个映射器。由于我的工作受CPU限制，这尤其糟糕:MR2

射器急剧 section stackoverflow hadoop amazon-web-services amazon-ec2 elastic-map-reduce hadoop-yarn

python - 使用 elastic-mapreduce 将文件加载到 EMR 分布式缓存时出错

我正在使用以下命令启动集群。./elastic-mapreduce--create\--stream\--caches3n://bucket_name/code/totalInstallUsers#totalInstallUsers\--inputs3n://bucket_name/input\--outputs3n://bucket_name/output\--mappers3n://bucket_name/code/mapper.py\--reducers3n://bucket_name\--jobflow-roleEMR_EC2_DefaultRole\--service-rol

时出 elastic-mapreduce code 34 data_processing python ruby hadoop mapreduce emr

hadoop - 如何向 Elastic Search 数据库添加计算？

我正在使用ElasticSearch为大量传感器数据编制索引以用于分析目的。该表有超过400万行并且增长迅速-预计明年将达到4000万。这使得ElasticSearch看起来很自然，尤其是使用Kibana等工具可以轻松显示数据。ElasticSearch看起来很棒，但是还必须执行一些更复杂的计算。一种这样的计算是针对我们的“平均用户时间”，我们在其中获取两个数据点(元素拾取的时间戳和元素放回的时间戳)，将它们相互减去，然后对一个特定客户的所有这些进行平均具体时间范围。SQL查询看起来像“select*fromeventswhereevent_type='objectpickedup'o

Elastic hadoop section Search elasticsearch bigdata kibana

hadoop - 如何知道 Amazon EMR 实例的 MIN_CONTAINER_SIZE？

如何在AmazonEMR集群上获取MIN_CONTAINER_SIZE的默认设置？因为我想通过这个公式来计算EMR上每个节点的内存使用情况RAM-per-container=max(MIN_CONTAINER_SIZE,(TotalAvailableRAM)/containers))谢谢! 最佳答案在EMR4.x中，默认的最小容器大小为256M。但是上限将受到每个实例类型的节点管理器可用内存的限制(http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr

MIN_CONTAINER_SIZE CONTAINER section hadoop amazon-web-services amazon-ec2 hadoop2 emr

40 41 424344 45 46