hdfs_rtp

hadoop - 除了SQOOP之外，还有什么方法可以从RDBMS传输到HDFS吗？

除了使用sqoop将RDBMS传输到HDFS之外，我想要其他方法请给我线索请任何人给我解释一下，hive和sqoop之间的关系是什么？最佳答案添加到devツ的答案中，您还有一个名为streamsets数据收集器的工具，它可以帮助您通过创建JDBC连接从mysql获取数据到HDFS。关于hadoop-除了SQOOP之外，还有什么方法可以从RDBMS传输到HDFS吗？，我们在StackOverflow上找到一个类似的问题： https://stackover

hadoop - CDH HDFS节点退役永无止境

我们有一个12台服务器的hadoop集群(CDH)，最近，我们想停用其中的三台，但是这个进程已经在那里运行了2天多了。但它永远不会结束，特别是在过去的24小时内，我看到三个数据节点上只有94G数据可用，但在过去的24小时内大小似乎没有变化。即使通过复制不足的block数也已经为零。hdfs中的所有数据的复制因子都是3。以下是hadoopfsck命令的结果:总大小:5789534135468B(打开文件总大小:94222879072B)目录总数:42458文件总数:5494378符号链接(symboliclink)总数:0(当前正在写入的文件:133)block总数(已验证):55065

hadoop HDFS block section strong cloudera-cdh fsck

hadoop - 使用 spark sql 加载到配置单元后无法看到 hdfs 文件

我正在尝试使用以下查询使用sparksql将文件从hdfs加载到配置单元中。hiveContext.sql("CREATEEXTERNALTABLEIFNOTEXISTSsrc(valueSTRING)")hiveContext.sql("LOADDATAINPATH'/data/spark_test/kv1.txt'INTOTABLEsrc")hiveContext.sql("FROMsrcSELECT*").collect().foreach(println)我发现，在第二条语句即加载文件之后，我在/apps/hive/warehouse/src/中看到该文件，但在/data/中找

配置单 hadoop code section hiveContext apache-spark-sql

hadoop - 在另一个盒子中移动 hadoop 主节点 : how to handle HDFS

我有一个带有一个主节点和一个从节点的小型hadoop集群，由于某种原因，必须将主节点移动到另一台机器上。虽然我可以很容易地重新配置节点，并且我有迁移配置单元元数据和其他内容的策略，但我担心的是HDFS。我是否必须在目标机器上移动hadoop_tmp(我的hdfs所在的位置)的文件？或者集群将通过从服务器复制文件来重建？我害怕登陆不一致的hdfs，什么是最好的？最佳答案 DistCP将是最好的方法。DistCP 关于hadoop-在另一个盒子中移动hadoop主节点:howtohandl

hadoop handle section stackoverflow hdfs

hadoop - HDFS 中的默认 block 大小不是最小文件大小吗？

HDFS的默认block大小为60MB。那么，这是否意味着HDFS中的文件的最小大小为60MB？即如果我们创建/复制一个大小小于60MB(比如5字节)的文件，那么我的假设是HDFS中的文件的实际大小是1个block，即60MB。但是，当我将一个5字节的文件复制到HDFS时，当我看到文件的大小时(通过ls命令)我仍然看到该文件的大小为5字节。不应该是60MB吗？或者ls命令显示文件中数据的大小而不是HDFS上文件的block大小？最佳答案 hdfsblock的默认大小并不意味着它将使用我们指定的所有空间，即60MB。如果数据大于60

hadoop block section HDFS mapreduce

python - Snakebite HDFS touchz 不工作

我想使用snakebite来检查hdfs目录中是否存在文件，如果不存在则创建。我正在关注touchzhere上的文档并像这样使用它:defcreateFile(client):ifclient.test("/user/test/sample.txt",exists=True):print"fileexists"else:print"filenotexist,createfile"printclient.touchz(["/user/test/sample.txt"])client=Client(remote_host,8020,use_trash=False)createFile(cl

Snakebite python code section touchz hadoop hdfs

hadoop - Hive 如何或为什么允许更改表？是不是违反了HDFS的一次写入多次读取

Hive在HDFS上运行。它的默认目的地是HDFS中的“/user/hive/warehouse”。使用Hive我们可以创建表和“ALTER”。更改表包括删除/修改表中的现有列(驻留在HDFS中的某处!!!)。写入HDFS的任何内容都无法修改。但是Hive的alter也在做同样的事情。这怎么可能？任何想法! 最佳答案您只更改表的元数据-而不是数据本身。另外，请注意hive中没有dropcolumn指令。关于hadoop-Hive如何或为什么允许更改表？是不是违反了HDFS的一次写入多

hadoop Hive section HDFS

hadoop - 如何为 Hive 的分区表指定 HDFS Location

我有一个hdfs目录，因为我有很多文件。这个目录正在获取连续数据。现在我正在尝试为该HDFS位置创建一个外部分区表，如下所示，createexternaltablesensor_data(sensor_namestring,alert_typestring,isvalid_alertboolean,valuestring,alert_generated_timebigint)partitionedby(mac_idstring)clusteredby(sensor_name)into13bucketsrowformatdelimitedfieldsterminatedby'|'line

何为 Location section code mac_id hadoop hive

hadoop - 根据文件大小滚动时，水槽需要时间将数据复制到 hdfs

我有一个用例，我想使用flume将远程文件复制到hdfs。我还希望复制的文件应与HDFSblock大小(128MB/256MB)对齐。远程数据的总大小为33GB。我正在使用avrosource和sink将远程数据复制到hdfs中。类似地，从接收器端我正在滚动文件大小(128,256)。但是为了从远程机器复制文件并将其存储到hdfs(文件大小128/256MB)中，flume平均需要2分钟。水槽配置:Avro源(远程机器)###Agent1-SpoolingDirectorySourceandFileChannel,AvroSink####Namethecomponentsonthisa

水槽 hadoop Agent1 Agent channel flume

java - 使用 FileUtil API 在同一个 hdfs 中复制文件需要太多时间

我有1个HDFS和我的本地系统，我从那里执行我的程序以在同一个hdfs系统中执行复制。比如:hadoopfs-cp/user/hadoop/SrcFile/user/hadoop/TgtFile我正在使用:FileUtil.copy(FileSystemsrcFS,FileStatussrcStatus,FileSystemdstFS,Pathdst,booleandeleteSource,booleanoverwrite,Configurationconf)但奇怪的事情发生了，当我从命令行复制时，复制只需要一点时间，但当我以编程方式执行时，复制190MB的文件需要10-15分钟。对我

FileUtil java hadoop section hdfs

109 110 111112113 114 115