hdfs_clusters

java - 使用 Java 准确确定 HDFS 中的文件以加载到一个 Hbase 表中？

我是大数据和Hadoop的新手。我正在学习Hadoop和Hbase。我遇到了问题，但仍然不知道。你能帮帮我吗？我已将3个csv文件放入HDFS，包括:-文件1(Subscribe_info.txt):numID,active_date,status-文件2(Recharge.txt):numID,recharge_history_date,amount,method-文件3(Charge.txt):numID,charge_date,amount_charge所有这些都通过numID相互关联。我需要将上面的所有数据加载到一个Hbase表中，行键是numID并包含所有相关的列，如下所示:

hadoop - 从 oracle 到有条件的 hdfs 的增量 sqoop

我正在对hdfsoracle进行增量查询，给出类似的条件(LST_UPD_TMST>TO_TIMESTAMP('2016-05-31T18:55Z','YYYY-MM-DD"T"HH24:MI"Z"')ANDLST_UPD_TMST但它没有使用索引。我如何强制索引，以便通过仅考虑过滤记录来使sqoop更快。执行增量sqoop的最佳选择是什么。oracle中的表大小以TB为单位。表有数十亿行，在where条件下它有几百万最佳答案 Youcanuse--whereor--querywithwhereconditioninselectt

hadoop oracle code section 34 oracle11g hdfs sqoop

hadoop - 无法将大于 100 MB 的文件加载到 HDFS

我的集群遇到了一个非常奇怪的问题。每当我尝试将任何大于100MB(104857600字节)的文件加载到HDFS时，它都会失败并出现以下错误:Alldatanodesarebad...Aborting.这真的很奇怪，因为100MB已成为文件大小的阈值。即使我尝试将文件大小增加1个字节(104857601字节)，并尝试将其加载到HDFS中，它也会失败并显示一个长堆栈跟踪。主要是说“所有数据节点都坏了......正在中止”有没有人之前遇到过类似的情况？是否有可能是错误的配置更改导致了这种行为？如果是，是否有任何限制我可以更改的可摄取数据大小的配置？谢谢最佳答案

hadoop HDFS section unlimited size mapreduce data-ingestion

java - Hadoop HDFS 以编程方式写入操作

我刚才问了一个类似的问题，但后来我不知道我在说什么。我将发布此问题并提供更多详细信息和重点查询。所以我已经设置了带有名称节点和2个数据节点的hadoop集群。我正在使用hadoop2.9.0。我运行了命令hdfsdfs-put"SomeRandomFile"它似乎工作正常。我在这里唯一的困惑是为什么它将我的文件存储到/user/hduser/路径？我没有在配置中的任何地方指定此路径，那么它如何在hdfs上构建此路径？此外，我创建了一个小的Java程序来做同样的事情。我创建了一个简单的eclipse项目并编写了以下几行:publicstaticbooleanfileWriteHDFS(I

Hadoop java section hdfs

hadoop - 如何在hadoop HDFS中拆分网络负载

我有2个服务器hadoop，一个是名称节点，另一个是辅助名称节点。两者都是数据节点，目前当我想使用namenode8020的端口读取文件时它可以工作，但是所有网络负载都转到该节点，是否没有办法划分网络负载以利用两个服务器？感谢你的帮助最佳答案对于你的情况，你无能为力。NamenodeHA存在，但它更多的是事件/备用而不是分布式。最接近您想要的东西称为federation但这更适用于10K个节点而不是2个节点的情况。您可以在这里阅读更多相关信息:HDFSFederationHDFSHighAvailabilityUsingtheQ

hadoop 何在 section noreferrer networking hdfs namenode

java - JSch:来自存储在 hdfs 上的私钥的 addIdentity

这个问题在这里已经有了答案:JSchtoaddprivatekeyfromastring(1个回答)关闭4年前。我需要从hadoop集群连接到sftp服务器。我想知道是否有办法从存储在hdfs中的私钥加载身份。实际上，JSch对象似乎只接受本地路径:try{StringprivateKeyPath="hdfs://namenode:8020/path/to/privatekey";//needthisonetobeanhdfspathJSchjsch=newJSch();jsch.addIdentity(privateKeyPath);//[..]}catch(Exceptionex)

addIdentity java section notice JSch hadoop hdfs sftp

hadoop - HDFS 复制不足的 block 到文件映射

HDFS文件系统显示，由于机架故障，集群上大约有600Kblock复制不足。在HDFS恢复之前，有没有办法知道如果这些block丢失，哪些文件会受到影响？我无法执行“fsck/”，因为集群非常大。最佳答案 NamenodeUI列出了丢失的block，JMX日志列出了损坏/丢失的block。UI和JMX仅显示复制不足的block数。有两种方法可以查看复制不足的block/文件:使用fsck或WebHDFSAPI。使用WebHDFSRESTAPI:curl-i"http://:/webhdfs/v1/?op=LISTSTATUS"这将

hadoop block 34 section hdfs

hadoop - 是否可以在同一个 HDFS 目录结构中表示多个配置单元表？

是否可以在同一个HDFS目录结构中表示多个配置单元表？换句话说，有没有办法让多个配置单元表指向相同/重叠的HDFS路径？这是我的情况:我有一个名为“mytable”的表，位于hdfs:/tables/mytableCREATEEXTERNALTABLEmytable(idint,...[awholebunchofcolumns]...PARTITIONEDBY(lognameSTRING)STOREDAS[I-do-not-know-what-just-yet]LOCATION'hdfs:/tables/mytable';因此，HDFS将如下所示:hdfs:/tables/mytabl

中表配置单 code mytable hadoop hive hdfs

scala - 从 HDFS 到 Spark 的文件处理不起作用

我正在尝试从SparkShell上的HDFS读取文件并收到如下错误。当我创建第一个RDD时它工作正常但是当我尝试依赖那个RDD时，它给我带来了一些连接错误。我有单节点hdfs设置，在同一台机器上，我有spark运行。请帮忙。当我在同一个盒子上运行“jps”命令以查看hadoop集群是否按预期工作时，我看到一切正常并看到下面的输出。[hadoop@idcrebalancedev~]$jps23606DataNode28245Jps23982TaskTracker26537Main23738SecondaryNameNode23858JobTracker23488NameNode下面是RD

scala Spark apache hadoop java hdfs bigdata apache-spark

java - Spark 流输出未保存到 HDFS 文件

我正在尝试将Spark流输出保存到HDFS上的文件中。现在，它没有保存任何文件。这是我的代码:StreamingExamples.setStreamingLogLevels();SparkConfsparkConf=newSparkConf().setAppName("MyTestCOunt");JavaStreamingContextssc=newJavaStreamingContext(sparkConf,newDuration(1000));JavaReceiverInputDStreamlines=ssc.socketTextStream(args[0],Integer.par

Spark java code String Integer hadoop apache-spark

202 203 204205206 207 208