草庐IT

hdfs_clusters

全部标签

java - 使用 Java 准确确定 HDFS 中的文件以加载到一个 Hbase 表中?

我是大数据和Hadoop的新手。我正在学习Hadoop和Hbase。我遇到了问题,但仍然不知道。你能帮帮我吗?我已将3个csv文件放入HDFS,包括:-文件1(Subscribe_info.txt):numID,active_date,status-文件2(Recharge.txt):numID,recharge_history_date,amount,method-文件3(Charge.txt):numID,charge_date,amount_charge所有这些都通过numID相互关联。我需要将上面的所有数据加载到一个Hbase表中,行键是numID并包含所有相关的列,如下所示:

hadoop - 从 oracle 到有条件的 hdfs 的增量 sqoop

我正在对hdfsoracle进行增量查询,给出类似的条件(LST_UPD_TMST>TO_TIMESTAMP('2016-05-31T18:55Z','YYYY-MM-DD"T"HH24:MI"Z"')ANDLST_UPD_TMST但它没有使用索引。我如何强制索引,以便通过仅考虑过滤记录来使sqoop更快。执行增量sqoop的最佳选择是什么。oracle中的表大小以TB为单位。表有数十亿行,在where条件下它有几百万 最佳答案 Youcanuse--whereor--querywithwhereconditioninselectt

hadoop - 无法将大于 100 MB 的文件加载到 HDFS

我的集群遇到了一个非常奇怪的问题。每当我尝试将任何大于100MB(104857600字节)的文件加载到HDFS时,它都会失败并出现以下错误:Alldatanodesarebad...Aborting.这真的很奇怪,因为100MB已成为文件大小的阈值。即使我尝试将文件大小增加1个字节(104857601字节),并尝试将其加载到HDFS中,它也会失败并显示一个长堆栈跟踪。主要是说“所有数据节点都坏了......正在中止”有没有人之前遇到过类似的情况?是否有可能是错误的配置更改导致了这种行为?如果是,是否有任何限制我可以更改的可摄取数据大小的配置?谢谢 最佳答案

java - Hadoop HDFS 以编程方式写入操作

我刚才问了一个类似的问题,但后来我不知道我在说什么。我将发布此问题并提供更多详细信息和重点查询。所以我已经设置了带有名称节点和2个数据节点的hadoop集群。我正在使用hadoop2.9.0。我运行了命令hdfsdfs-put"SomeRandomFile"它似乎工作正常。我在这里唯一的困惑是为什么它将我的文件存储到/user/hduser/路径?我没有在配置中的任何地方指定此路径,那么它如何在hdfs上构建此路径?此外,我创建了一个小的Java程序来做同样的事情。我创建了一个简单的eclipse项目并编写了以下几行:publicstaticbooleanfileWriteHDFS(I

hadoop - 如何在hadoop HDFS中拆分网络负载

我有2个服务器hadoop,一个是名称节点,另一个是辅助名称节点。两者都是数据节点,目前当我想使用namenode8020的端口读取文件时它可以工作,但是所有网络负载都转到该节点,是否没有办法划分网络负载以利用两个服务器?感谢你的帮助 最佳答案 对于你的情况,你无能为力。NamenodeHA存在,但它更多的是事件/备用而不是分布式。最接近您想要的东西称为federation但这更适用于10K个节点而不是2个节点的情况。您可以在这里阅读更多相关信息:HDFSFederationHDFSHighAvailabilityUsingtheQ

java - JSch:来自存储在 hdfs 上的私钥的 addIdentity

这个问题在这里已经有了答案:JSchtoaddprivatekeyfromastring(1个回答)关闭4年前。我需要从hadoop集群连接到sftp服务器。我想知道是否有办法从存储在hdfs中的私钥加载身份。实际上,JSch对象似乎只接受本地路径:try{StringprivateKeyPath="hdfs://namenode:8020/path/to/privatekey";//needthisonetobeanhdfspathJSchjsch=newJSch();jsch.addIdentity(privateKeyPath);//[..]}catch(Exceptionex)

hadoop - HDFS 复制不足的 block 到文件映射

HDFS文件系统显示,由于机架故障,集群上大约有600Kblock复制不足。在HDFS恢复之前,有没有办法知道如果这些block丢失,哪些文件会受到影响?我无法执行“fsck/”,因为集群非常大。 最佳答案 NamenodeUI列出了丢失的block,JMX日志列出了损坏/丢失的block。UI和JMX仅显示复制不足的block数。有两种方法可以查看复制不足的block/文件:使用fsck或WebHDFSAPI。使用WebHDFSRESTAPI:curl-i"http://:/webhdfs/v1/?op=LISTSTATUS"这将

hadoop - 是否可以在同一个 HDFS 目录结构中表示多个配置单元表?

是否可以在同一个HDFS目录结构中表示多个配置单元表?换句话说,有没有办法让多个配置单元表指向相同/重叠的HDFS路径?这是我的情况:我有一个名为“mytable”的表,位于hdfs:/tables/mytableCREATEEXTERNALTABLEmytable(idint,...[awholebunchofcolumns]...PARTITIONEDBY(lognameSTRING)STOREDAS[I-do-not-know-what-just-yet]LOCATION'hdfs:/tables/mytable';因此,HDFS将如下所示:hdfs:/tables/mytabl

scala - 从 HDFS 到 Spark 的文件处理不起作用

我正在尝试从SparkShell上的HDFS读取文件并收到如下错误。当我创建第一个RDD时它工作正常但是当我尝试依赖那个RDD时,它给我带来了一些连接错误。我有单节点hdfs设置,在同一台机器上,我有spark运行。请帮忙。当我在同一个盒子上运行“jps”命令以查看hadoop集群是否按预期工作时,我看到一切正常并看到下面的输出。[hadoop@idcrebalancedev~]$jps23606DataNode28245Jps23982TaskTracker26537Main23738SecondaryNameNode23858JobTracker23488NameNode下面是RD

java - Spark 流输出未保存到 HDFS 文件

我正在尝试将Spark流输出保存到HDFS上的文件中。现在,它没有保存任何文件。这是我的代码:StreamingExamples.setStreamingLogLevels();SparkConfsparkConf=newSparkConf().setAppName("MyTestCOunt");JavaStreamingContextssc=newJavaStreamingContext(sparkConf,newDuration(1000));JavaReceiverInputDStreamlines=ssc.socketTextStream(args[0],Integer.par