草庐IT

update_check

全部标签

bash - 在 HDFS : How to check if 2 directories have same parent directory

是否有HDFS命令来检查HDFS中的2个目录是否具有共同的父目录。例如:$hadoopfs-ls-R/user/username/data//user/username/data/LIST_1539724717/SUBLIST_1533057294,/user/username/data/LIST_1539724717/SUBLIST_1533873826/UI,/user/username/data/LIST_1539724717/SUBLIST_1533873826/NEWDATA/A,/user/username/data/LIST_1539724717/SUBLIST_1533

java - Nutch-Hadoop :- how can we crawl only the updates in the url going for recrawl?

请有人告诉我如何识别要重新抓取的URL中的更新?当页面要重新抓取时,我只想抓取页面的更新内容,而不是已经抓取的旧内容。提前致谢。普拉亚.. 最佳答案 我想你的意思是,只有当内容在服务器端被修改时,你才想重新抓取url。您希望nutch识别它,从而明智地决定是否获取内容。Nutch有维护页面的“上次修改”时间的概念,并且在重新抓取页面时将其存储而不投入使用。Theyknew它会节省磁盘空间和带宽,但不会因为其他小东西而引起人们的兴趣。Peoplehadraised这个问题,但我仍然没有看到nutch开发团队的任何Activity。Ef

hadoop - Apache pig -错误 6007 : Unable to check name

我正在尝试运行Pig教程(http://pig.apache.org/docs/r0.11.1/start.html#pig-scripts)中的基本脚本,如下所示:/*myscript.pigMyscriptissimple.ItincludesthreePigLatinstatements.*/A=LOAD'student'USINGPigStorage()AS(name:chararray,age:int,gpa:float);--loadingdataB=FOREACHAGENERATEname;--transformingdataDUMPB;--retrievingresul

ubuntu - update-alternatives 在 CDH4 安装中抛出错误

我正在我的ubuntu12.04系统上安装CDH4。当我使用update-alternative指向我的hadoop_conf时,它会抛出一个错误。我到处搜索,但没有找到解决这个问题的办法。使用的命令:-sudoupdate-alternatives--install/etc/hadoop/confhadoop-conf/etc/hadoop/conf.my_cluster50sudoupdate-alternatives--sethadoop-conf/etc/hadoop/conf.my_cluster这给出了一个错误...update-alternatives:error:can

hadoop - 级联 sinkmode.update 不工作

我刚开始级联编程并且有一个级联作业需要运行可变的迭代次数。在每次迭代期间,它从前一次迭代生成的文件(Tap)准备好并将计算的数据写入两个单独的SinkTaps。OneTap(TapFinal)用于收集每次迭代的数据。另一个Tap(Tapintermediate)用来收集下一次迭代需要计算的数据。我正在使用SinkMode.UPDATE来实现“Tapfinal”。它在本地模式下工作正常。但在集群模式下失败。提示文件已经存在(“Tapfinal”)。我正在运行CDH4.4和级联2.5.2。似乎没有人遇到过同样的问题。如果有人知道任何可能的修复方法,请告诉我。谢谢Causedby:org.a

shell - 在 Hortonworks 上安装 Apache Kylin check-env.sh 时出错

我正在尝试按照ApacheKylininstall上提供的说明在Hortonworks沙盒上安装ApacheKylin。.我在我的.bashrcexportKYLIN_HOME='/root/kylin'上设置(在这个文件夹中有KylinBinaries)。在第3步中,它说运行bin/check-env.sh来检查环境问题,这个脚本在kylin/build下而不是在kylin/内,所以,我尝试将KYLIN_HOME设置为'/root/kylin/build'和'/root/kylin'我在“/root/kylin”中收到此错误$bin/check-env.sh:line23:/root

Hadoop eclipse 插件 2.6 - 在 : "Map/Reduce location status updater". java.lang.NullPointerException 期间发生内部错误

在EclipseHadoopplugin2.6中添加新的Hadoop位置,并尝试扩展位置时出现此错误Aninternalerroroccurredduring:"Map/Reducelocationstatusupdater".java.lang.NullPointerException请看下面的图片:http://i.imgur.com/029g7Vq.jpg.http://i.imgur.com/RIlEPH6.jpg.顺便说一句,我需要为“Map/Reduce(V2)MasterSection”配置hadoop中的哪一部分配置?对我来说,端口54333没有在Master服务器上监

java - org.apache.solr.common.SolrException : Bad Request Bad Request request: http://localhost:8080/solr/update? wt=javabin&version=2

请大家帮帮我我正在尝试使用NUTCH抓取网站,但它给我错误“java.io.IOException:Jobfailed!”我正在运行此命令“bin/nutchsolrindexhttp://:8080/solr/crawl/crawldb-linkdbcrawl/linkdbcrawl/segments/*”并且我正在使用NUTCH1.5.1和SOLR3.6.1以及jdkjava-7-openjdk-i386和ubuntu12.04。在hadoop.log存在于NUTCH/log文件夹中显示以下内容:2012-09-1312:56:10,524INFOsolr.SolrIndexer-

hadoop - 我如何使用 CQL 插入到 Cassandra,插入到只有主键的表,使用 UPDATE?

我需要向Cassandra插入新行,插入到只有主键列的表中,例如:CREATETABLEusers(user_idbigint,website_idbigint,PRIMARYKEY(user_id,website_id))最明显的方法是插入:INSERTINTOusers(user_id,website_id)VALUES(1,2);但我想通过使用HadoopCqlOutputFormat来实现,而CqlRecordWriter仅支持UPDATE语句。这通常不是问题,因为理论上UPDATE在语义上与INSERT相同。(如果给定的主键不存在,它将创建行)。但是在这里......我不知道

mysql - 高级 MySql 查询 : Update table with info from another table

我想用另一个表中的数据更新mySql中的一个表。我有两个表“人”和“业务”。人员表通过名为“business_id”的列链接到业务表。必要的表结构,主键加星号(表:列):人员:*business_id、*sort_order、电子邮件业务:*business_id、电子邮件我想用人员表中的电子邮件更新业务表电子邮件列,如下所示(我知道我在这里遗漏了一些东西):UPDATEbusinessbSETemail=(SELECTemailfromPeoplepwherep.business_id=b.business_idANDsort_order='1')WHEREb.email='';这有