hdfs_clusters

hadoop - 用于从 Netezza 到 HDFS 的数据传输的 Sqoop 作业

我编写了一个sqoop作业，用于将数据从Netezza中的表导入到HDFS。该作业已成功创建，并且在执行时也会启动MapReduce作业。作业一直运行到map100%reduce0%并卡住。作业永远不会完成，数据根本不会传输。没有观察到错误或异常。对于同一数据库的其他表，我几乎没有类似的工作。那些正确执行并传输数据。这种行为的可能原因是什么。以下是选项文件中给出的sqoop作业的配置。--直接-连接jdbc:netezza://url/database_name-用户名ABCD-密码xyz-table表名--拆分primary_key_column--目标目录hdfs_path-m

database - 将记录存储在 HDFS 或 HBase 中

我有以下场景:测量数据以文件形式通过网络服务上传这些文件随后被复制到HDFS每个测量包含一个或多个参数的许多特征(值)测量值的数量可能不同使用Hadoop上的机器学习算法处理测量值并非所有测量都进行了，而是针对特定用户在特定时间段进行的(例如，对用户X在Y-Z期间上传的文件进行处理)中间结果存储在HDFS，最终结果也是如此我的问题与第二点有关-这些文件后来被复制到HDFS-我担心存在大量小文件(例如1MB)可能是个问题。我的想法是将该文件存储在数据库中，这样我就可以避免小文件的问题，并且还能够查询数据(为用户选择一段时间的数据)。这是更好的方法吗？如果答案是肯定的，我可以使用哪些数据库

database HBase li section 量值 hadoop

hadoop - Spark 合并与 HDFS getmerge

我正在用Spark开发一个程序。我需要将结果放在一个文件中，因此有两种方法可以合并结果:合并(Spark):myRDD.coalesce(1,false).saveAsTextFile(pathOut);之后在HDFS中合并它:hadoopfs-getmergepathOutlocalPath哪个最有效、最快速？是否有任何其他方法可以合并HDFS中的文件(如“getmerge”)，将结果保存到HDFS，而不是将其保存到本地路径？最佳答案如果您确定您的数据适合内存，那么coalesce可能是最好的选择，但在其他情况下，为了避免OO

getmerge hadoop section apache apache-spark hdfs coalesce

分布在不同子网的Hadoop Cluster(Docker + Flannel)

我想使用Docker在多裸机集群中安装Hadoop2.3.0。我有一个主容器和一个从属容器(在第一个设置中)。当Master和Slave容器位于同一主机(因此位于同一Flannel子网)时，Hadoop可以完美运行。但是，如果主节点和从节点位于不同的裸机节点(因此，不同的法兰绒子网)，它根本不起作用(我收到连接被拒绝的错误)。两个容器都可以相互ping和ssh，因此不存在连接问题。出于某种原因，hadoop似乎需要集群中的所有节点都在同一个子网中。有没有办法规避这个？谢谢最佳答案我认为将节点置于单独的法兰绒子网中会引入一些与NA

Cluster Flannel section 容器法兰绒 hadoop docker

hadoop - [HDFS connector + Kafka]单机模式下如何写多个主题？

我正在使用Confluent的HDFS连接器将流式数据写入HDFS。我遵循了用户手册和quickstart并设置我的连接器。当我只使用一个主题时，它可以正常工作。我的属性文件看起来像这样name=hdfs-sinkconnector.class=io.confluent.connect.hdfs.HdfsSinkConnectortasks.max=1topics=test_topic1hdfs.url=hdfs://localhost:9000flush.size=30当我添加多个主题时，我看到它不断地提交偏移量，但我没有看到它写入已提交的消息。name=hdfs-sinkconne

connector hadoop hdfs connect confluent apache-kafka apache-kafka-connect confluent-platform

hadoop - Hadoop HDFS中 block 的概念

我对Hadoop中的block有一些疑问。我读到Hadoop使用HDFS，它会创建特定大小的block。第一个问题block是否物理存在于普通文件系统(如NTFS)的硬盘上，即我们可以看到托管文件系统(NTFS)上的block，还是只能使用hadoop命令才能看到？第二个问题hadoop是否在运行任务之前创建block，即只要有文件，block就从一开始就存在，或者hadoop仅在运行任务时创建block。第三个问题block是在拆分之前确定和创建的(即InputFormat类的getSplits方法)而不考虑拆分次数，还是在拆分之后根据拆分次数确定和创建block？第四个问题运行任务

hadoop strong block the hdfs

hadoop - 使用 Spark Sql 查询 hdfs

我在hdfs中有一个csv文件，我如何用sparkSQL查询这个文件？例如我想对特殊列进行选择请求并将结果再次存储到Hadoop分布式文件系统谢谢最佳答案可以通过创建Dataframe来实现。valdataFrame=spark.sparkContext.textFile("examples/src/main/resources/people.csv").map(_.split(",")).map(attributes=>Person(attributes(0),attributes(1).trim.toInt)).toDF()

hadoop Spark section attributes stackoverflow apache-spark hdfs apache-spark-sql

java - 在java中设置HDFS的空间配额

我正在尝试使用HadoopJavaAPI为HDFS设置空间配额，但是，我只能在ContentSummary类中找到getSpaceQuota方法。基本上我希望代码实现与sudo-uhdfshdfsdfsadmin-setSpaceQuota1k/quotasdir命令相同的功能。有没有设置空间配额方法的API？或者有什么更好的主意？提前致谢。最佳答案在ApacheHadoop代码库中，hdfsdfsadmin-setSpaceQuota命令的代码在DFSAdmin中类(class)。如果您通读该代码，您会发现它最终委托(dele

中设 java code hadoop section linux hdfs

hadoop - 运行存储在 HDFS 位置的配置单元脚本

我正在尝试运行存储在HDFS位置(hdfs://nameservice1/user/neeraj)中的配置单元脚本(.hql文件)，但我找不到正确的命令来执行它。有没有办法直接从HDFS位置运行它而不是将它移动到我的/home/位置？最佳答案 hive-f演示cat>my_script.sqlselect1+1asresult;hdfsdfs-putmy_script.sql/tmphive-fselect1+1asresult;OK2 关于hadoop-运行存储在HDFS位置的配置单

配置单 hadoop section my_script code hive hdfs

hadoop - sqoop 从 hdfs 导出到 mysql 失败，需要帮助来转义字符

我在hdfs中有一个文件并将其导出到sqoop表。请在下面找到日志详细信息:Causedby:java.lang.RuntimeException:Can'tparseinputdata:'characters'attags.__loadFromFields(tags.java:335)attags.parse(tags.java:268)atorg.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:89)...10moresqoop导出命令sqoopexport\--connect"**********

hadoop sqoop strong section input

42 43 444546 47 48