草庐IT

作业队

全部标签

hadoop - 仅 map 作业的用例/示例

对于仅涉及Map任务而不涉及reducer的作业,是否有任何现实生活中好的用例/示例。只触发映射器而不需要设置缩减器的作业。 最佳答案 我做过很多Map-Only的工作....这里有几个例子。您有一个每天构建的分类模型,您需要使用该分类器对所有数据进行分类。不需要reduce,您只需从分布式缓存(或从数据库等远程资源)加载分类器,然后在映射器的map()函数中进行分类并将结果写入某处。对HBase表等对象执行数据清理。读取映射器中的每一行,如果它匹配某些条件语句,则将其删除。这里不需要reduce。基本上,如果不需要合并或聚合数据,

java - 从 sql server 导入数据的 Sqoop 作业忽略模式

如何将模式名称传递给sqoop作业,将数据从SQLServer导入到hdfs?sqoopjob--createjob_name--import--connect"jdbc:sqlserver://server:port;database=datatabase_name;username=user;password=password"--tablesource_table--as-avrodatafile--target-dirdata/target_folder----schemaschema_name当我使用执行作业时sqoopjob-execjob_name生成的查询缺少架构名称。

hadoop - OOZIE:PIG 作业执行失败

我是OOZIE的新手,正在尝试使用OOZIE工作流程运行PIG脚本。下面是名为first.pig的pig脚本:A=LOAD'/user/jas/pigip'USINGPigStorage(',');B=FOREACHAGENERATE$0;STOREBINTO'/user/jas/pigop';下面是workflow.xml:${jobTracker}${nameNode}first.pigPigScriptfailed!!!下面是job.properties:nameNode=hdfs://localhost:8020jobTracker=localhost:8021queueNam

python - 通过 gcloud 发送 Hadoop 作业

这是我目前的Hadoop工作。java-cp`hadoopclasspath`:/usr/local/src/jobs/MyJob/tony-cli-0.1.5-all.jarcom.linkedin.tony.cli.ClusterSubmitter\--python_venv=/usr/local/src/jobs/MyJob/mnist_venv.zip\--src_dir=/usr/local/src/jobs/MyJob/\--executes=/usr/local/src/jobs/MyJob/src/mnist_distributed.py\--conf_file=/us

scala - 内存不足异常或工作节点在 spark scala 作业期间丢失

我正在使用spark-shell执行一个spark-scala作业,我面临的问题是,在最后阶段和最终映射器结束时,就像在第5阶段,它分配50并很快完成49,在第50个它需要5分钟,并说内存不足并失败。我正在使用SPARK_MAJOR_VERSION=2我正在使用下面的命令spark-shell--masteryarn--confspark.driver.memory=30G--confspark.executor.memory=40G--confspark.shuffle.service.enabled=true--confspark.dynamicAllocation.enabled

java - 如何在 hadoop map-reduce 作业中创建文件?

我在网上搜索过,但我只找到了一个声称可以做到的网站。它没有说明如何。 最佳答案 FileSystemfs=FileSystem.get(conf);Pathpath=newPath("/my/path/file")OutputStreamos=fs.create(path)//writetoosos.close() 关于java-如何在hadoopmap-reduce作业中创建文件?,我们在StackOverflow上找到一个类似的问题: https://st

hadoop - 运行 MapReduce 作业时的事件链

我正在寻找有关在Hadoop集群上运行MapReduce作业时的事件链的一些特定信息。假设我的Reduce任务即将完成。在我的最后一个reducer将其输出写入输出文件后,输出文件有多少个副本?最后一个reducer完成写入输出文件后到底发生了什么。NameNode何时请求各自的DataNodes复制输出文件?名称节点如何通知输出文件已准备好?谁将该信息传送给NameNode?谢谢! 最佳答案 Reduce任务将输出写入HDFS。他们通过首先与名称节点通信以请求一个block来做到这一点。namenode然后告诉reducer要写入

hadoop - 以不同的用户身份运行 Pig 作业

这是一种情况,我有一个没有配置Kerberos安全性和工作站的hadoop集群。Hadoop集群运行ClouderaCDH3发行版。集群上的数据全部存储在'hdfs'用户下。工作站是运行嵌入PIG客户端的复杂软件的linux或macos工作站。PIG客户端连接到集群以运行分析作业。这里有个问题。集群和工作站上的用户帐户不同,hadoop集群中的所有数据都存储在“hdfs”主目录下用户工作站具有完整的用户帐户集。是否可以告诉PIG在不同的用户帐户下执行作业。当前pig尝试使用当前登录到工作站的用户帐户执行作业。该作业实际运行但无法访问数据,因为脚本使用相对于HDFS用户主目录的路径。我知

java - 远程运行 Pig 作业

我正在学习Pig作业并希望使用PigServer通过Java代码在远程集群上运行Pig脚本。谁能指导我如何实现这一目标?提前致谢。 最佳答案 上面的代码是否可以用于远程调用,即Pig安装在cluster1上并从集群外的应用服务器进行调用? 关于java-远程运行Pig作业,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/14508361/

hadoop - 如何在 hadoop 中的所有 reduce 作业之间拥有一个共享变量

我有1TB的未排序字数(word:count),我想运行一个mapreduce作业来选择计数最大的字。在这种情况下,我希望有一个在所有减少作业之间共享的变量,该变量将保存迄今为止最大字数的单词。reduce函数将只检查这个变量并在必要时更新它。那可能吗?谢谢 最佳答案 你可以将reducer的数量设置为1向reducer类添加两个实例变量,一个用于计数,一个用于单词,以保存关于最频繁出现的单词的信息。初始化reducesetup()方法中的变量在reduce()方法中检查当前单词的出现次数是否超过迄今为止最频繁出现的单词,如果是,则