草庐IT

READ_EXECUTE

全部标签

java - 安装 "cannot execute not a directory"时出现 Hadoop 错误

出于某些研究目的,我正在尝试在我的本地系统中安装Hadoop2.6.0,但是当我完成我的配置和java安装时,安装停止了。执行命令时遇到错误"hdfsnamenode-format"我得到的错误信息如下"usr/local/hadoop/bin/hdfs:line276:/usr/lib/jvm/java-7-oracle/jre/bin/java/bin/java:Notadirectory/usr/local/hadoop/bin/hdfs:line276:exec:/usr/lib/jvm/java-7-oracle/jre/bin/java/bin/java:cannotexe

java - 不使用 CachedRowSetImpl.execute() 复制 ResultSet

我正在尝试在执行查询后关闭连接。之前,我只是创建了一个CachedRowSetImpl实例,它会负责为我释放资源。但是,我正在使用Hadoop项目的Hive数据库驱动程序。它不支持CachedRowSetImpl.execute()。我想知道是否有任何其他方法可以让我复制ResultSet对象并关闭连接? 最佳答案 您可以从现有的ResultSet填充CachedRowSet:publicstaticRowSetexecuteQuery(Stringsql)throwsException{Connectioncon=null;Pre

hadoop - read data as "streaming fashion"是什么意思?

我正在阅读ApacheCrunchdocumentation我发现了以下句子:Dataisreadinfromthefilesysteminastreamingfashion,sothereisnorequirementforthecontentsofthePCollectiontofitinmemoryforittobereadintotheclientusingmaterialization.我想知道以流式方式从文件系统读取是什么意思,如果有人能告诉我与其他读取数据的方式有什么区别,我将不胜感激。我想说这个概念也适用于其他工具,例如Spark。 最佳答案

java - Hadoop MapReduce : Read a file and use it as input to filter other files

我想编写一个hadoop应用程序,它将一个文件和一个包含多个文件的输入文件夹作为输入。单个文件包含需要从文件夹中的其他文件中选择和提取其记录的key。我怎样才能做到这一点?顺便说一句,我有一个正在运行的hadoopmapreduce应用程序,它将文件夹路径作为输入,进行处理并将结果写到不同的文件夹中。我对如何使用文件获取需要从特定目录中的其他文件中选择和提取的key感到困惑。包含key的文件是一个大文件,因此不能直接放入主存中。我该怎么做?谢谢! 最佳答案 如果键的数量太多而无法放入内存,则考虑将键集加载到布隆过滤器(大小合适以产生

java - spring-xd如何使用source :file read line one by one

我有一个流,用于监视目录中多个文件的输出、处理数据并将其放入HDFS。这是我的流创建命令:streamcreate--namefileHdfs--definition"file--dir=/var/log/supervisor/--pattern=tracker.out-*.log--outputType=text/plain|logHdfsTransformer|hdfs--fsUri=hdfs://192.168.1.115:8020--directory=/data/log/appsync--fileName=log--partitionPath=path(dateFormat(

hadoop - 为什么Hadoop遵循WORM(write once read many times),不允许update?

Hadoop遵循WORM(一次写入多次读取)。为什么它不允许任何更新?谢谢 最佳答案 真正的问题是更新数据的动机是什么?我们将我们的实体存储在数据库中并在看到新信息时更新它们,但为什么呢?原因是当它最初被架构时,磁盘空间是昂贵的。快进到今天,磁盘空间很便宜,这意味着我们可以负担得起将数据更改反射(reflect)为新条目,例如实体在其生命周期中经历的更改日志。通过使用这种方法,数据的沿袭更加明显-我们只需重新访问同一实体的旧版本即可发现它的来源以及对其应用了哪些转换。此外,如果最新版本出现问题,一切都不会丢失。我们只需退回到旧版本,

java - 使用 java 使用语句类的单个 execute() 方法执行多个配置单元查询

我正在使用JavaAPI访问HiveServer2,我需要在单次调用语句类的execute()方法时执行多个配置单元查询。是否可以在对execute()方法的一次调用中提交多个配置单元查询。我有配置单元属性设置为:SEThive.exec.max.created.files=200000;SEThive.exec.compress.output=true;SETmapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;SEThive.exec.dynamic.partition=true;SETh

hadoop - Hortonworks HA Namenodes 给出错误 "Operation category READ is not supported in state standby"

我的hadoop集群HA事件名称节点(host1)突然切换到备用名称节点(host2)。我无法在hadoop日志(在任何服务器中)中找到任何错误来确定根本原因。切换名称节点后,hdfs日志中经常出现以下错误,并且应用程序无法读取HDFS文件。2014-07-1701:58:53,381WARNnamenode.FSNamesystem(FSNamesystem.java:getCorruptFiles(6769))-Getcorruptfileblocksreturnederror:OperationcategoryREADisnotsupportedinstatestandby一旦我

hadoop - 配置单元 : How to execute a query from a file and dump the output in hdfs

我可以从sql文件执行查询并将输出存储在本地文件中使用hive-f/home/Prashasti/test.sql>/home/Prashasti/output.csv此外,我可以使用以下方法将配置单元查询的输出存储在hdfs中:insertoverwritedirectory'user/output'select*fromfolders;有什么方法可以从sql文件运行查询并将输出也存储在hdfs中吗? 最佳答案 只需要修改sql文件,将insertoverwritedirectory'user/output'添加到查询的前面。

hadoop - HDFS 容量 : how to read "dfsadmin report"

我正在使用Hadoop2.6.0。当我运行“hdfsdfsadmin-report”时,我得到了这样的东西(简化):ConfiguredCapacity:3TBPresentCapacity:400GBDFSRemaining:300GBDFSUsed:100GB我想知道“配置容量”是什么,“当前容量”是什么。看起来“PresentCapacity”是有效的。我怎样才能增加这个? 最佳答案 配置容量是用于数据目录的磁盘/卷的总可用容量。例如:我在/Hadoop/sdb1、/Hadoop/sdc1、/Hadoop/sdd1上安装了三个