草庐IT

tsk_fs_open_img

全部标签

azure - HDInsight 和 Talend Open Studio for Big Data

我目前正在开展一个项目,我需要将TalendopenStudioforBigData(v6.3.1)连接到Azure的HDInsight(3.5)Hadoop集群。到目前为止,我正在尝试一个简单的例子,它包括创建一个Hive表。为此,我使用了下图:配置单元连接配置如下:...请在下面找到tHiveCreateTable_1节点的规范:通过运行这个过程:·创建了指定的容器和部署Blob(见下图)——这让我相信Windows存储配置一切正常·但是tHiveCreateTable_1节点有错误(见下图)·我坚信它与主机名和端口有关;·我尝试使用集群的主机名和我们可以在Ambari中找到的Hi

hadoop - Impala 扫描 MapR-FS 慢

我最近在3节点MapR集群上安装了Impala。当我运行一个简单的查询时。性能不如Impala+HDFS。这是查询:SELECT*FROMft_test,ft_waferWHEREft_test_parquet.id=ft_wafer_parquet.idandmonth=1andday=8andparam=2913;大约用了3秒。但是当使用相同的查询但使用HDFS时。30Gb的表大小需要不到1秒的时间。这是查询配置文件:QueryRuntimeProfile:Query(id=dc4c084615fbf9bb:4261466f00000000):Summary:SessionID:5

hadoop - CDH5 Hue Hive — 蜂蜡服务器 : Error opening session: Failed to validate proxy privilage of hue for admin

我通过Kerberos设置了一个具有安全性的Hadoop集群,Hive已经启用了Sentry。我对Hue-Hive(Beeswax)Editor有疑问。Hue无法在hive-server2日志中加载来自hive的数据和信息:2014-04-0311:36:39,814WARNthrift.ThriftCLIService(ThriftCLIService.java:GetSchemas(364))-Errorgettingcatalogs:org.apache.hive.service.cli.HiveSQLException:InvalidSessionHandle:SessionH

java - 无法从 Java 执行 hadoop fs -put 命令

我正在尝试执行hadoopfs-put来自Java代码。当我直接从终端执行这个命令时,它工作正常但是当我尝试使用从Java代码中执行这个命令时String[]str={"/usr/bin/hadoop","fs-put",source,dest};Runtime.getRuntime().exec(str);我收到错误Error:Couldnotfindorloadmainclassfs.我尝试执行一些非hadoop命令,例如来自Java的ls、mkdir命令,它们运行良好,但hadoop命令没有被执行,即使它们在终端上运行良好。这可能是什么原因,我该如何解决?JAVAAPITRY:我

hadoop - default.fs.name 和 hive.metastore.warehouse.dir 不冲突

嗨,当我尝试运行以下命令时LoaddataInpath'/data'intoTableTablename;在hiveshell中抛出以下错误Movefrom:hdfs://hadoopcluster/datato:file:/user/hive/warehouse/Tablenameisnotvalid.Pleasecheckthatvaluesforparams"default.fs.name"and"hive.metastore.warehouse.dir"donotconflict.我的default.fs.name属性在哪里fs.defaultFShdfs://hadoopcl

hadoop - PIG : Unable to open iterator for alias AliasName. 标量在输出中有多于一行

我是pig的新手,正在尝试自学。我编写了一个脚本来获取从words.txt文件中读取的单词的纪元时间。这是脚本。words=LOAD'words.txt'ASword:chararray;B=FOREACHAGENERATECONCAT(CONCAT(A.word,'_'),(chararray)ToUnixTime(CurrentTime());dumpB;但问题是,如果words.txt文件只有一个单词,它会给出正确的输出。如果它有多个词,比如word1word2word3word4然后它给出了以下错误ERROR1066:UnabletoopeniteratorforaliasBj

java - 在 Java 中尝试从 HDFS 复制 FromLocalFile 时出现 “Wrong FS… expected: file:///”

我正在尝试将abc.json从port/example_File/2017复制到HDFS中的另一个位置/port/example_File/2018,通过下面的代码StringexampleFile="hdfs://port/example_File/2017/abc.json"StringtargetFile="hdfs://port/example_File/2018"hdfs.copyFromLocalFile(newPath(exampleFile),newPath(targetFile))我正在低于异常org.jboss.resteasy.spi.UnhandledExcep

hadoop - 将文件从 NFS 或本地 FS 复制到 HDFS

我正在尝试将大量文件(超过100k,总大小为2TB)从NFS复制到HDFS。什么是有效的方法。将其安装到边缘节点后,我尝试了以下选项hdfsdfs-put:它因内存错误而失败,传输也很慢distcp:获取由以下原因引起的错误:org.apache.hadoop.tools.mapred.RetriableFileCopyCommand$CopyReadException:java.io.FileNotFoundException:但是文件存在。我在不使用NFS安装位置的情况下对本地文件进行了相同的尝试。我知道distcp的警告之一是必须分发目的地。它也适用于来源吗?或者它是一个错误并且

performance - 从数据库中导出数据并写入HDFS(hadoop fs)

现在我正在尝试从数据库表中导出数据,并将其写入hdfs。问题是:名称节点会成为瓶颈吗?机制如何,名称节点会缓存一个切片(64MB),然后将其提供给数据节点?有没有比编写hdfs更好的方法?因为我认为它没有利用并行机制。谢谢:) 最佳答案 您是否考虑过使用Sqoop。Sqoop可用于从任何支持JDBC的数据库中提取数据并将其放入HDFS。http://www.cloudera.com/blog/2009/06/introducing-sqoop/Sqoopimport命令获取要运行的map作业的数量(默认为1)。此外,在并行化工作(映

hadoop - 检查点在 HDFS 中是如何工作的?我想弄清楚 fs.checkpoint.period 和 fs.checkpoint.size

当它说时,辅助名称节点检查点每小时(fs.checkpoint.period以秒为单位)或如果编辑日志已达到64MB(fs.checkpoint.size以字节为单位)则更早?究竟是什么意思?据我了解,编辑日志存储在本地文件磁盘中。 最佳答案 HDFS元数据可以认为由两部分组成:基本文件系统表(存储在名为fsimage的文件中)和列出对基本表所做更改的编辑日志(存储在文件中称为edits)。检查点是协调fsimage与edits以生成新版本的fsimage的过程。这样做有两个好处:更新版本的fsimage和截断的编辑日志。fs.ch