收集箱

java - 使用 Hadoop Jar 的垃圾收集信息

有没有办法在使用hadoop运行jar文件时看到垃圾收集信息？例如:$hadoopjartest.jar我尝试用上面的命令标记-verbose:gc但它没有用。最佳答案 Hadoop隐藏了Java调用，你可以尝试使用:$exportHADOOP_CLIENT_OPTS="-Xloggc:gc.log"$hadoopjartest.jar希望对你有帮助关于java-使用HadoopJar的垃圾收集信息，我们在StackOverflow上找到一个类似的问题：

sql - Hive - 根据收集时间提取第一条和最后一条记录的数据

我有一个配置单元表，我们每天在其中获取数据，并带有收集时间(unix时间戳)+--------+-----------------+------+----------+|ticket|collection_time|type|day|+--------+-----------------+------+----------+|t1|123|auto|20170302||t2|234|req|20170302||t3|345|req|20170302||t4|678|auto|20170303||t5|111|req|20170301||t6|222|auto|20170301||t7|

Hive sql collection_time collection auto hadoop hql

hadoop - 如何收集 Hadoop 集群大小/核心数信息

我在一个由多台机器组成的集群上运行我的hadoop作业，这些机器的大小未知(每台机器的主内存、核心数、大小等)。在不使用任何特定于操作系统的库(我的意思是*.so文件)的情况下，是否有任何适用于hadoop的类或工具本身或一些其他库，我可以在其中收集信息，例如在执行HadoopMR作业时:核心总数/作业使用的核心数总可用主内存/分配的可用主内存每台机器上的总存储空间/分配的存储空间4.我没有硬件信息或集群的规范，这就是为什么我想在我的hadoop代码中以编程方式收集此类信息的原因。我怎样才能做到这一点？由于不同的原因，我想知道这种信息。以下错误给出了一个原因:我想知道哪台机器空间不足。

心数 hadoop apache MapTask mapreduce cluster-computing

python - 为什么我在 pyspark 中收集它们时我的 `binaryFiles` 是空的？

我在同一个文件夹中的hdfs上有两个zip文件:/user/path-to-folder-with-zips/。我将其传递给pyspark中的“二进制文件”:zips=sc.binaryFiles('/user/path-to-folder-with-zips/')我正在尝试解压缩zip文件并对其中的文本文件执行一些操作，因此我试图只查看当我尝试处理RDD时的内容。我是这样做的:zips_collected=zips.collect()但是，当我这样做时，它给出了一个空列表:>>zips_collected[]我知道zips不是空的——它们有文本文件。文档here说每个文件都作为单个记

binaryFiles pyspark data code section python hadoop zip

java - Spark - 数据集之间的迭代而不收集数据

在我的代码的某个时刻，我有两个不同类型的数据集。我需要一个数据来过滤另一个数据。假设没有办法从此时开始更改代码，有没有办法在不从report2Ds收集所有数据并在Spark函数中使用它的情况下执行我在下面的评论中描述的内容？Datasetreport1Ds...Datasetreport2Ds...report1Ds.map((MapFunction)report->{Stringcompany=report.getCompany();//getdatafromreport2Dswherereport2.getEmployeer().equals(company);},kryo(Rep

Spark java report section report2 apache-spark hadoop apache-spark-sql bigdata

hadoop - FAILED 错误 : java. io.IOException:所有收集器的初始化失败

我在运行MapReduceWordCount作业时遇到一些错误。Error:java.io.IOException:Initializationofallthecollectorsfailed.Errorinlastcollectorwas:classwordcount.wordmapperatorg.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:414)atorg.apache.hadoop.mapred.MapTask.access$100(MapTask.java:81)atorg.apache.

收集器 IOException key public java hadoop mapreduce hadoop-yarn

Hadoop 输出收集器

我有一个mapreduce程序并且运行良好，以下是map和reduce函数的签名。目前的输出收集器是output.collect(newtext,newIntWritable(someintegervaluelike5));//worksok我需要更改它以处理/输出double值。(需要将两个整数相除才能得到double的结果)。我尝试如下更改outputcollectoroutput.collect(newtext,newDoubleWritable(somedoublevaluelike5.1))编译/运行有问题。希望尽量减少Map和Reduce签名的变化，因为程序运行良好，只需要

收集器 Hadoop IntWritable section code

hadoop - 使用 Hive 从文件中收集数据

我有这种格式的数据。"123";"mybook1";"2002";"publisher1";"456";"mybook2;thebestseller";"2004";"publisher2";"789";"mybook3";"2002";"publisher1";字段包含在""中并由;分隔书名也可能包含“；”介于两者之间。你能告诉我如何将这些数据从文件加载到配置单元表吗我现在使用的以下查询显然不起作用；createtablebooks(isbnstring,titlestring,yearstring,publisherstring)ROWFORMATDELIMITEDFIELDSTE

hadoop Hive code 34 string load create-table

hadoop - 如何将所有收集的推文提取到一个文件中

我正在使用Flume收集推文并将它们存储在HDFS上。收集部分工作正常，我可以在我的文件系统中找到我所有的推文。现在我想将所有这些推文提取到一个文件中。问题是不同的推文存储如下:正如我们所见，推文存储在128MB的block中，但只使用了几个Ko，这是HDFS的正常行为，如果我错了请纠正我。但是，我怎样才能在一个文件中获取所有不同的推文呢？这是我使用以下命令运行的conf文件:flume-ngagent-nTwitterAgent-f./my-flume-files/twitter-stream-tvseries.conftwitter-stream-tvseries.conf:Twi

hadoop 如何 TwitterAgent HDFS sinks twitter flume-ng

java - 使用 Hadoop MapReduce 从 CSV 文件中收集特定数据

我需要一些有关MapReduce程序的帮助。我有一个包含15列的CSV文件。我正在尝试根据第三列的值(年份)从其中两列(市场和资助金额)中提取数据。截至目前，我的程序为每个条目输出两列(市场和资助金额)的数据。我希望它输出的是指定年份每个市场的总融资额或指定年份范围内每个市场的总融资额。我将在下面发布我的映射器代码以及示例数据条目。任何帮助将不胜感激!publicclassFundingMapperextendsMapReduceBaseimplementsMapper{privateTextmarket=newText();privateTextamount=newText();pu

MapReduce Hadoop Text code conf java csv

94 95 969798 99 100