草庐IT

list_container

全部标签

java - 如何将 Set<List<Set<Integer>>> 传递给 hadoop map reduce 作业

我需要向map/reduce(hadoop实现)传递一个类型的参数Set>>对于hadoop类JobConf,我可以使用setInt、setFlot、setString、ecc,但如果我想设置“一个集合”或一个列表,是否可行?怎么办? 最佳答案 我没有找到任何通过“setter”方法来做到这一点的方法。但是,您可以将此Collection写入文件,然后将此文件添加到DistributedCache并从映射器/缩减器的配置中加载它。 关于java-如何将Set>>传递给hadoopmapr

hadoop - giraph/hadoop 读取 list 文件

我正在尝试运行RandomWalkWithRestart示例https://github.com/apache/giraph/blob/release-1.0/giraph-examples/src/main/java/org/apache/giraph/examples/RandomWalkWithRestartVertex.java我的输入是数据是12345634785634787834我正在运行hadoopjargiraph-examples-1.1.0-for-hadoop-2.2.0-jar-with-dependencies.jarGiraphRunner-Dgiraph.

hadoop - Importtsv 命令给出 : Container exited with a non-zero exit code 1 error

我正在尝试将tsv文件加载到现有的hbase表中。我正在使用以下命令:/usr/local/hbase/bin$hbaseorg.apache.hadoop.hbase.mapreduce.ImportTsv-Dimporttsv.columns=HBASE_ROW_KEY,cf:value'-Dtable_name.separator=\t'Table-name/hdfs-path-to-input-file但是当我执行上面的命令时,出现如下错误Containerid:container_1434304449478_0018_02_000001Exitcode:1Stacktrace

Hadoop/Hive Collect_list 没有重复项

根据帖子,Hive0.12-Collect_list,我试图找到Java代码来实现一个UDAF,它将完成这个或类似的功能,但没有重复序列。例如,collect_all()返回一个序列A,A,A,B,B,A,C,C我想要返回序列A,B,A,C。依次重复的项目将被删除。有没有人知道Hive0.12中的函数将完成或已经编写了他们自己的UDAF?一如既往,感谢您的帮助。 最佳答案 我前一段时间遇到了类似的问题。我不想写一个完整的UDAF所以我只是用brickhousecollect做了一个组合和我自己的UDF。假设你有这些数据idvalue

hadoop - 如何知道 Amazon EMR 实例的 MIN_CONTAINER_SIZE?

如何在AmazonEMR集群上获取MIN_CONTAINER_SIZE的默认设置?因为我想通过这个公式来计算EMR上每个节点的内存使用情况RAM-per-container=max(MIN_CONTAINER_SIZE,(TotalAvailableRAM)/containers))谢谢! 最佳答案 在EMR4.x中,默认的最小容器大小为256M。但是上限将受到每个实例类型的节点管理器可用内存的限制(http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr

尽量避免删改List

作者简介:大家好,我是smart哥,前中兴通讯、美团架构师,现某互联网公司CTO联系qq:184480602,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬学习必须往深处挖,挖的越深,基础越扎实!阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析阶段5、深入jvm源码解析尽管在之前介绍了如何避免并发修改异常,但那篇文章的目的,更多的是为了介绍底层原理及应付面试,实际开发中并不推荐大家对原List做增删改操作。我的观点是,对于一个初始化完毕的List,尽量把它当做只读的,不要贸然做增删改操作。比如Java8的Stream,它所有的操作都是基

hadoop - ESRI Hive ST_Contains 无法正常工作

尝试使用我能找到的JAR(不确定它们是否是最佳选择,我需要使用ESRI并在Hive中执行):ADDJAR/home/user/lib/esri-geometry-api-1.2.1.jar;ADDJAR/home/user/lib/spatial-sdk-hive-1.1.1-SNAPSHOT.jar;ADDJAR/home/user/lib/esri-geometry-api.jar;ADDJAR/home/user/lib/spatial-sdk-hadoop.jar;CREATETEMPORARYFUNCTIONST_PolygonAS'com.esri.hadoop.hive.

amazon-web-services - 设置 AWS 凭证 - Cloudera Quickstart Docker Container

我正在尝试使用Cloudera的Quickstartdocker容器来测试简单的Hadoop/Hive作业。我希望能够在S3中的数据上运行作业,但到目前为止我遇到了问题。我已将以下属性添加到core-site.xml、hive-site.xml、hdfs-site.xml。fs.s3.awsAccessKeyIdXXXXXXfs.s3.awsSecretAccessKeyXXXXXX无论如何,在Hive中尝试创建指向S3位置的外部表时,我收到错误:FAILED:SemanticExceptionjava.lang.IllegalArgumentException:AWSAccessKe

hadoop - 如何从 `yarn application -list` 访问 Tracking-URL?

我想查看我在yarn中看到的某个作业的yarnwebUI。当我做yarnapplication-list我可以看到跟踪URL.所以,我在chrome中导航到那个页面,它给了我这样的错误:The172.12.15.181pageisn'tworking.172.12.15.181didn'tsendanydata.我显然已经通过ssh进入了应该允许我看到它的机器。另外,这份工作肯定在status=RUNNING在yarn中。那么,是什么阻止我在这个url上看到yarnweb用户界面?我这样做正确吗?谢谢。 最佳答案 在yarnappl

Python两个一维列表 (list) 转换为二维列表 (list)

说明,输入list1=[1,3]         list2=[2,4]记list1为横坐标列表,list2为纵坐标列表,长度一致,输出两个location:[1,2]和[3,4],即输出如下                  list3=[[1,2],[3,4]] list1=[1,3]list2=[2,4]方法1、使用for语句,新建二维列表list3=[[list1[i],list2[i]]foriinrange(len(list1))]print(list3,type(list3))输出结果: list3:[[1,2],[3,4]]        type: 方法2、使用zip语句,缺