草庐IT

Record_Time

全部标签

hadoop - 获取 Hive 中 Record 的文件名

是否有可能在Hive中获取记录的文件名?这对调试非常有帮助。在我的特殊情况下,我在映射到包含>100个大文件的文件夹的表中有一个不正确的值。使用grep是非常低效的 最佳答案 HIVE支持虚拟列,例如INPUT__FILE__NAME。它为映射器任务提供输入文件的名称。查看文档here.它提供了一些有关如何执行此操作的示例。不幸的是,我现在无法对其进行测试。让我知道这是否有效。 关于hadoop-获取Hive中Record的文件名,我们在StackOverflow上找到一个类似的问题:

java - 错误 : java. lang.NumberFormatException:对于输入字符串: "time"

我正在尝试编写javaMapReduce代码并不断收到错误:Error:java.lang.NumberFormatException:Forinputstring:"time"atjava.lang.NumberFormatException.forInputString(NumberFormatException.java:65)atjava.lang.Long.parseLong(Long.java:589)atjava.lang.Long.parseLong(Long.java:631)atTokenizerMapper.map(UnknownSource)atTokenize

hadoop - HDFS 连接操作 : Does it lead to increased seek time?

我试图了解HDFS如何实现concat操作并深入到以下部分code.在我看来,从这个实现来看,concat只是对目标文件的inode进行元操作,实际block没有移动。我在想这是否会导致碎片化+增加寻道时间,因为不同的block会位于磁盘上的不同位置(考虑磁盘)。这个假设是否正确?如果是,我们可以避免这种情况吗? 最佳答案 经过几次实验,我找到了自己问题的答案。在非常频繁的文件连接操作(每分钟约1k)之后,数据节点开始提示一天左右的block太多,这让我相信这确实会导致碎片化和磁盘上block数量的增加。我使用的解决方案是编写一个单

linux -/usr/bin/time 使用 SPARK 时针对 TOP 的 CPU 利用率

我使用Spark中的MLIB库对大小为8G和700万行的数据运行了SVM算法。我在单个节点上以独立模式运行Spark。我使用/usr/bin/time-v来捕获有关作业的数据。我得到了峰值内存利用率和%CPU时间等等。我得到的CPU使用率百分比仅为6%。我在程序运行的同时监视TOP一段时间,我可以看到超过100%几乎始终如一地被使用。我现在很困惑,为什么/usr/bin/time只显示了6%?更多细节-我的机器是16G,我运行的程序消耗了13.88G。程序执行时间为2.1小时。任何见解,任何人? 最佳答案 我发现了问题。因此,usr

java - Avro Schema Evolution With GenericData.Record - Mapreduce 过程

我有一个mapreduce程序,它从avro数据中读取数据,对其进行处理并输出avro数据。我有这个avro数据的模式,假设有4列。我使用GenericData.Record来写入avro数据。现在,我使用具有5列的模式在此数据之上创建一个pig关系。第5列是新的,具有avsc文件中定义的默认值。根据我的理解,我应该能够使用带有一列的新模式读取旧数据(由4列生成)。相反,我收到一条错误消息-Tryingtoaccessnon-existcolumn.我错过了什么?Mapreduce驱动程序代码Jobjob=Job.getInstance(getConf());job.setJarByC

performance - "time spent by map task"在 Hadoop 上包括什么?

Hadoop作业成功后,会显示各种计数器的摘要,请参见下面的示例。我的问题是Totaltimespentbyallmaptasks计数器中包含什么,特别是在映射器作业不是节点本地的情况下,是否包含数据复制时间?17/01/2509:06:12INFOmapreduce.Job:Counters:49FileSystemCountersFILE:Numberofbytesread=2941FILE:Numberofbyteswritten=241959FILE:Numberofreadoperations=0FILE:Numberoflargereadoperations=0FILE:N

unix - 配置单元 time_stamp 转换为 UTC 与 time_offset in UTC

我有2列:time_stamp和time_offset。两者都是STRING数据类型。我们如何借助UTC中的第二列将一列值转换为UTC?他们是将time_stamp列转换为UTC的任何配置单元还是来自unix的解决方案?hive>selecttime_stampfromtable1limit2;OK20170717-22:31:57.34820170719-21:10:15.393[yyyymmdd-hh:mm:ss.msc]thiscolumnisinlocaltimehive>selecttime_offsetfromtable1limit2;OK-05:00+05:00[‘+hh

docker - 重试连接到服务器 : Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 毫秒)

我有三个物理节点。在每个节点中,我使用此命令进入docker。dockerrun-v/home/user/.ssh:/root/.ssh--privileged-p5050:5050-p5051:5051-p5052:5052-p2181:2181-p8089:8081-p6123:6123-p8084:8080-p50090:50090-p50070:50070-p9000:9000-p2888:2888-p3888:3888-p4041:4040-p8020:8020-p8485:8485-p7078:7077-p52222:22-eWEAVE_CIDR=10.32.0.3/12-

hadoop - Hadoop 中的小文件 vs Shuffle Time - Tunning

在处理如此多的小文件时,减少和调整随机播放时间的更好方法是什么?由于其他一些限制和要求,我无法减少小文件的数量,我知道处理小文件的问题。但我想知道这里还有哪些其他选项可以减少给定MapReduce作业的洗牌时间?对于单个MapReduce作业,我得到如下内容:AverageMapTime33secAverageReduceTime10secAverageShuffleTime1hrs,10mins,18secAverageMergeTime2sec我想知道是否有任何其他方法可以尝试减少此随机播放时间?对于上述数据,我的mapper#是:14778 最佳答案

hadoop - 在 sparksql 中设置 textinputformat.record.delimiter

在spark2.0.1和hadoop2.6.0中,我有很多文件用'!@!\r'分隔,而不是通常的换行符\n,例如:=========================================2001810086rongq2001810!@!2001810087hauaa2001810!@!2001820081hello2001820!@!2001820082jaccy2001820!@!2002810081cindy2002810!@!=========================================我尝试根据Settingtextinputformat.reco