草庐IT

cache_timestamp_format

全部标签

spring - Spring Data Hadoop中如何根据 `timestamp`过滤记录?

我有一个hbase表,其中包含如下示例记录:03af639717ae10eb743253433147e133column=u:a,timestamp=1434300763147,value=apple10f3d7f8fe8f25d5bdf52343a2601227column=u:a,timestamp=1434300763148,value=mapple20164b1aff21bc14e94623423a9d645dcolumn=u:a,timestamp=1534300763142,value=papple44d1cb38271362d20911a723410b2c67column

hadoop - 启动 hdfs namenode -format 时出错

我在启动时在远程服务器上安装hadoophdfs名称节点格式出现错误java.net.UnknownHostException:Web:Web:unknownerror我已经配置了所有需要的文件16/10/1414:28:38INFOnamenode.NameNode:STARTUP_MSG:/************************************************************STARTUP_MSG:StartingNameNodeSTARTUP_MSG:host=java.net.UnknownHostException:Web:Web:unkno

hadoop - 使用 CACHE_THROUGH 将数据写入 alluxio 失败

我正在尝试使用mapreduce将数据写入alluxio。我在hdfs上有大约11g的数据,我正在写到alluxio。它在MUST_CACHE写入类型(alluxio.user.file.writetype.default的默认值)下工作正常。但是当我尝试使用CACHE_THROUGH编写它时,它失败并出现以下异常:Error:alluxio.exception.status.UnavailableException:Channelto:29999:(Nosuchfileordirectory)atalluxio.client.block.stream.NettyPacketWrite

hadoop - 配置单元 : remove stuff from distributed cache

我可以通过以下方式将内容添加到分布式缓存addfilelargelookuptable然后运行一堆HQL。现在当我有一系列命令时,如下所示addfilelargelookuptable1;selectblahfromblahnessusingsomehowlargelookuptable1;addfilelargelookuptable2;selectnewblahfromotherblahusinglargelookuptable2;在这种情况下,largelookuptable1对于第二个查询来说是不必要的。有没有办法在第二个查询运行之前摆脱它? 最佳答

caching - 将 URI 作为运行时变量传递给 mapreduce hadoop 中的分布式缓存

我在我的mapreduce程序中使用分布式缓存,我将三个变量传递给这个mapreduce程序inputfile、outputdir和configfile.我想添加第三个参数,即配置文件到分布式缓存。我在MapReduce驱动程序的run()方法中设置参数如下:-conf.set("CONF_XML",args[2]);如何用同样的方法将这个文件添加到分布式缓存中。我该怎么做?通常我们添加使用URI(new(filepath));DistributedCache.addCacheFile(newURI(file_path),conf); 最佳答案

caching - Hadoop 分布式缓存大小的限制是多少?

我是Hadoop新手,听说分布式缓存大小最大为10GB。这个对吗?如果我的大小超过10GB怎么办,有没有更好的解决方案? 最佳答案 默认情况下,缓存大小为10GB。如果您想要更多内存,请在mapred-site.xml中配置local.cache.size以获得更大的值。不这样做的原因:最好在分布式缓存中保留几MB的数据。否则会影响您的应用程序的性能。 关于caching-Hadoop分布式缓存大小的限制是多少?,我们在StackOverflow上找到一个类似的问题:

caching - Hadoop 文件中的分布式缓存未找到异常

它表明它创建了缓存文件。但是,当我查看文件不存在的位置时,当我尝试从我的映射器中读取时,它显示文件未找到异常。这是我要运行的代码:JobConfconf2=newJobConf(getConf(),CorpusCalculator.class);conf2.setJobName("CorpusCalculator2");//DistributedCachingofthefileemittedbythereducer2isdonehereconf2.addResource(newPath("/opt/hadoop1/conf/core-site.xml"));conf2.addResou

java - hadoop java.io.IOException : while running namenode -format on OSX 错误

我在格式化namenode时遇到以下错误,我已经尝试使用sudosu,正如其他一些堆栈溢出解决方案中提到的那样,但我仍然遇到此错误,请协助。14/01/1616:10:41INFOutil.GSet:ComputingcapacityformapINodeMap14/01/1616:10:41INFOutil.GSet:VMtype=64-bit14/01/1616:10:41INFOutil.GSet:1.0%maxmemory=889MB14/01/1616:10:41INFOutil.GSet:capacity=2^20=1048576entries14/01/1616:10:4

regex - Hadoop Hive SerDe Row Format for String Quoted Space delimited file

我正在尝试为具有以下格式的日志文件创建一个Hive表。日志文件:#Software:1#Version:1#Start-Date:xx#Date:xx#Fields:datetimetime-takenc-ipcs-usernamecs-auth-groupx-exception-idsc-filter-resultcs-categoriescs(Referer)sc-statuss-actioncs-methodrs(Content-Type)cs-uri-schemecs-hostcs-uri-portcs-uri-pathcs-uri-querycs-uri-extensionc

MongoDB pyspark 连接器问题,[错误 13] 权限被拒绝 'home/.cache'

我在pyspark和mongoDB之间建立简单的“helloworld”连接时遇到了问题(参见我正在尝试模拟的示例https://github.com/mongodb/mongo-hadoop/tree/master/spark/src/main/python)。有人可以帮我理解并解决这个问题吗?详细信息:我可以使用下面看到的--jars--conf--py-files成功运行pysparkshell,然后导入pymongo_spark,最后连接到数据库;但是,当我尝试打印“helloworld”时,由于permissiondenied'/home/.cache'问题,python无法