草庐IT

expose_used

全部标签

革命 R : filter an xdf using another xdf

我正在尝试使用in过滤一个非常大的xdf文件(位于cloudera上)以将其与另一个xdf文件(位于cloudera上)进行比较。如果我尝试:rxDataStep(inData=largeXdf,outFile=largeXdf,overwrite=TRUE,transformObjects=list(param1=parameter),rowSelection=(columnNameFromLargeXdf%in%param1$1),numRows=-1))我收到关于param$1的错误,指出类s4的对象不能被子集化。与在xdf中一样,数据对象不能被子集化。有没有办法解决?我宁愿不将

java - 不是主机 :port while connecting hbase using java

publicclassHbaseConnectorClass{privateHTabletable;privatestaticfinalLoggerlog=LoggerFactory.getLogger(HbaseConnectorClass.class);publicstaticvoidmain(String[]args)throwsException{System.out.println("tryingtoconnect......");Configurationconf=HBaseConfiguration.create();conf.set("hbase.zookeeper.q

hadoop - 尼菲 : how to use fileFileter for fetching files from hadoop?

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭5年前。Improvethisquestion我想根据文件名从hadoop目录中获取文件,从逻辑上讲它看起来像这样${filename}.*(因为我有几个名称相似的文件,它们看起来像这样2011-01-01.1,2011-01-01.2等)我尝试使用listhdfs+fetchhdfs但它们不符合我的逻辑你能告诉我如何在nifi环境中完成它吗?是否可以通过ExecuteScript处理器中的常规代码来完成此任务?如何通过groovy代码连接hdfs目

python - MapReduce using hadoop streaming via python - 将列表从映射器传递到缩减器并将其作为列表读取

我想将列表作为值从映射器传递到缩减器阶段。目前,缩减器将列表作为字符串读取。有没有一种方法可以确保python可以将其解释为列表。 最佳答案 Hadoop流使用stdin和stdout进行通信;因此,进入每个后续作业的所有内容都将是一个字符串。您可以在表示中使用某种分隔符,例如逗号:the,items,in,my,list然后将它们拆分到你的reducer中:forlineinsys.stdin:data=line.split(',')如果你想让它成为一本字典:importastforlineinsys.stdin:dict=ast

hadoop - 错误 1070 : Could not resolve Pigstorage using imports: [, java.lang., org.apache.pig.builtin., org.apache.pig.impl.builtin.]

关闭。这个问题是notreproducibleorwascausedbytypos.它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topic在这里,这个问题的解决方式不太可能帮助future的读者。关闭5年前。Improvethisquestion当我尝试在pig中加载数据集时出现错误grunt>movies=LOAD'/home/cloudera/Documents/movies_data.csv'USINGPigstorage(',')as(id,name,year,rating,duration);

java - Hadoop - java.net.BindException : Address already in use

我的Hadoop安装工作正常,直到我尝试更改端口号。现在,当我运行任何hadoop程序时,我得到:java.net.BindException:Problembindingtolocalhost/127.0.0.1:9010:Addressalreadyinuse9010是在conf/mapred-site.xml中定义的JobTracker的端口号。我尝试更改它,但仍然出现相同的错误。我什至尝试通过bin/stop-all.sh停止Hadoop,然后通过netstat-nl|检查端口是否被使用|grep9010什么也没找到。感谢任何解决此问题的帮助。 最佳

hadoop - 接口(interface)错误 : TSocket read 0 bytes when using hue with hbase

这是我在hueconfig中的设置[hbase]#以逗号分隔的HBaseThrift服务器列表#集群,格式为“(name|host:port)”。hbase_clusters=(集群|MasterIP:ThriftPort)#在截断之前获取的每行的行数或列数的硬限制。##truncate_limit=500但是当我连接到hue网页并切换到Hbase选项卡时,它显示日志:[08/Dec/201319:30:13+0000]中间件信息处理异常:Api错误:TSocket读取0字节:回溯(最近调用最后):文件“/home/ubuntu/workspaces/hue/hue-master/bu

java - 错误 : "java.io.IOException: Type mismatch in key from map" on my MapReduce class (using Hadoop 2. 2.0)

我正在尝试通过Hadoop在本地主机上执行MapReduce程序。我写了一个程序来计算文本文件中的单词。源代码非常简单:importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg

hadoop - SecondaryNameNode 错误 - 锁定/app/hadoop/tmp/dfs/namesecondary/in_use.lock 由 nodename 获取

我刚开始使用Hadoop,在启动SecondaryNameNode(SNN)时遇到问题。我可以从日志中看到以下错误错误:2015-10-2800:26:58,495信息org.apache.hadoop.hdfs.server.common.Storage:锁定/app/hadoop/tmp/dfs/namesecondary/in_use.lock由nodename10496@sam-Notebook下面是我的配置文件,这是因为NameNode和SNN都试图访问/使用相同的tmp目录吗?hdfs-site.xmldfs.datanode.data.dirfile:/home/sam/

Spring Boot : Is it possible to use external application. 带有胖 jar 的任意目录中的属性文件?

是否可以有多个application.properties文件?(编辑:请注意,此问题已演变为标题中的问题。)我尝试了2个文件。第一个位于应用程序Jar的根文件夹中。第二个在类路径中指定的目录。2个文件都被命名为“application.properties”。是否可以“合并”两个文件的内容?(并且第二个的属性值覆盖第一个)或者,如果我有一个文件,那么另一个文件会被忽略?更新1:可以“合并”内容。昨天好像第一个被忽略了,但似乎是因为当时有什么东西坏了。现在效果很好。更新2:又回来了!同样,仅应用了两个文件中的一个。这很奇怪......它是在我使用SpringToolSuite构建应用程