草庐IT

appengine-mapreduce

全部标签

java - 我如何等待 Java 应用程序中的 Elastic MapReduce 作业流完成?

最近我一直在使用AmazonWebServices(AWS),我注意到没有太多关于这个主题的文档,所以我添加了我的解决方案。我正在使用AmazonElasticMapReduce(AmazonEMR)编写应用程序。计算结束后,我需要对它们创建的文件执行一些工作,因此我需要知道作业流何时完成其工作。这是检查工作流程是否完成的方法:AmazonElasticMapReducemapReduce=newAmazonElasticMapReduceClient(credentials);DescribeJobFlowsRequestjobAttributes=newDescribeJobFlo

java - Google AppEngine session 示例

我只是enabledSession在我的GoogleAppEngine/Java+GWT应用程序中。我该如何使用它?我如何获得sessionID并从中播放所有好东西?是否有任何简单登录页面的真实示例,我只需输入登录名和密码,然后通过RPC调用转到服务器,对数据库进行身份验证并将sessionID发送回客户端。我已经有了以下代码,但不知道下一步该做什么:GWT登录表单:publicclassLoginForm{privatefinalLoginServiceAsyncloginService=GWT.create(LoginService.class);VerticalPanellogi

用于分布式计算的 Java 8 MapReduce

当我听说Java8中的parallelStream()时,我很高兴,它在多个内核上处理并最终在单个JVM中返回结果。没有更多的多线程代码行。据我了解,这仅对单个JVM有效。但是,如果我想将处理分布到单个主机甚至多个主机上的不同JVM上怎么办?Java8是否包含任何用于简化它的抽象?在tutorialatdreamsyssoft.com中用户列表privatestaticListusers=Arrays.asList(newUser(1,"Steve","Vai",40),newUser(4,"Joe","Smith",32),newUser(3,"Steve","Johnson",57

大数据技术之Hadoop(MapReduce)

大数据技术之Hadoop(MapReduce)第1章MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.2MapReduce优缺点1.2.1优点1)MapReduce易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点使得Ma

java - AppEngine Java Google+ 登录缺少 gplus_id

我正尝试按照说明在GoogleAppEngine上使用java登录G+here第8步代码获取gPlusId如下StringgPlusId=request.queryParams("gplus_id");这个请求应该来自第6步中的ajax调用,它只在请求中发送authResult['code'],即使authResult没有参数gplus_id这个gplus_id是怎么来的,从哪里来的?! 最佳答案 您的请求获得授权了吗?如果是,那么您是否检查过是否通过以下链接为您的GAE应用程序启用了Google+API。https://conso

Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)

Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)4.1概述1)压缩的好处和坏处2)压缩原则4.2MR支持的压缩编码4.3压缩方式选择4.3.1Gzip压缩4.3.2Bzip2压缩4.3.3Lzo压缩4.3.4Snappy压缩4.3.5压缩位置选择4.4压缩参数配置4.5压缩实操案例4.5.1Map输出端采用压缩4.5.2Reduce输出端采用压缩常见错误及解决方案4.1概述1)压缩的好处和坏处压缩的优点:以减少磁盘IO、减少磁盘存储空间。压缩的缺点:增加CPU开销。2)压缩原则(1)运算密集型的Job,少用压缩(2)IO密集型的Job,多用压缩4.2MR支持的压缩编码1

python - 无法访问 Google AppEngine 外部库

请帮忙...我正在从cygwin运行一些python代码,但我无法导入GoogleAppEngine(GAE)外部数据API。我认为这可能是一个环境变量问题。我能够从命令行运行GAE和“remote_data_api_shell.py”,但我无法运行引用GAE的python模块。我处于试错模式,尝试我能想到的每一种环境变量字符串组合。什么都不管用,我越来越沮丧。GAE(1.5)位于(windows路径):C:\ProgramFiles(x86)\Google\google_appengine这是我的Python错误:Traceback(mostrecentcalllast):File"

错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

目录报错信息:说明:报错截图:解决步骤1.输出路径信息(运行代码)2.复制上面输出的路径,添加到hadoop下面的yarn-site.xml里面3.每个节点都要添加相应的信息(完成后重启集群) 4.继续运行jar包5.验证结果报错信息:Containerexitedwithanon-zeroexitcode1.Errorfile:prelaunch.err.错误:找不到或无法加载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster说明:在测试一个jar包在Hadoop102上面跑的时候报了一个错误!jar包为mapreduce测试代码测试一下单词的统

python - 自更新以来,Appengine remote_api_shell 无法使用应用程序默认凭据

我最近将我的gcloud库从118.0.0更新到132.0.0,remote_api_shell立即失效。我经历了一系列重新登录的排列,通过gcloud设置应用程序默认凭据,并使用服务帐户和环境变量。所有排列均失败并显示相同的错误消息:Traceback(mostrecentcalllast):File"/Users/mbostwick/google-cloud-sdk/bin/remote_api_shell.py",line133,inrun_file(__file__,globals())File"/Users/mbostwick/google-cloud-sdk/bin/rem

python - 使用 AppEngine 发送多个具有相同名称的 POST 数据项

我尝试在AppEngine中使用urlfetch将POST数据发送到服务器。其中一些POST数据项具有相同的名称,但具有不同的值。form_fields={"data":"foo","data":"bar"}form_data=urllib.urlencode(form_fields)result=urlfetch.fetch(url="http://www.foo.com/",payload=form_data,method=urlfetch.POST,headers={'Content-Type':'application/x-www-form-urlencoded'})但是,在这