草庐IT

防丢失

全部标签

hadoop - Hortonworks HDP,心跳在 3 个节点之一中丢失

我在VM中安装了具有三个节点的HDPAmbari,之后我重新启动了三个节点之一,即datanode2,我从Ambari中的那个节点失去了心跳。我在所有三个节点中重新启动了ambari-agent,然后也没有工作。请给我一个解决方案。 最佳答案 好吧,提供的信息还不够,无论如何我会尝试告诉你我调试它的正常方法。首先检查是否所有的ambari-agents都在运行,使用命令ambari-agentstatus。检查ambari-agent和ambari-server的日志。通常,日志位于/var/log/ambari-agent和/va

java - 在Hbase中存储图片丢失Meta数据和Exif

使用Java程序将图像上传到hbase,在检索图像后我发现文件大小存在差异最终增加并且大部分Exif和Meta数据丢失(GPS位置数据、相机详细信息等。)代码:publicArrayListuploadImagesToHbase(MultipartFileuploadedFileRef){byte[]bytes=uploadedFileRef.getBytes();ByteArrayOutputStreamoutputStream=newByteArrayOutputStream();ImageIO.write(image,"jpg",outputStream);HBaseAdmina

hadoop - 如何在不丢失数据的情况下从hadoop集群中删除datanode

我想从我的hadoop集群中删除数据节点,但又不想丢失我的数据。是否有任何技术可以将我要删除的节点上的数据复制到扩孔数据节点? 最佳答案 您的hadoop集群的复制因子是多少?如果是默认的,一般是3,你可以直接删除datanode,因为数据会自动复制。这个过程一般由名称节点控制。如果你把集群的复制因子改成1,那么如果你删除这个节点,里面的数据就会丢失。您无法进一步复制它。 关于hadoop-如何在不丢失数据的情况下从hadoop集群中删除datanode,我们在StackOverflow

Hadoop Yarn 容器日志丢失

我们通常会在“/var/log/hadoop-yarn/containers”路径下看到yarn容器日志。虽然我能够看到成功作业的日志,但看不到失败作业的日志。节点管理器日志显示日志被删除。日志:2017-07-1314:16:04,170INFOorg.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor(DeletionService#1):Deletingpath:/var/log/hadoop-yarn/containers/application_1234567890_12345/container_11

hadoop - 如果我们使用小文件,HDFS 是否会丢失内存?

我在下面引用了Hadoop-权威指南:但是请注意,小文件占用的磁盘空间不会超过存储文件原始内容所需的空间。例如,以128MB的block大小存储的1MB文件使用1MB的磁盘空间,而不是128MB,这是我的问题1)以128MB的block大小存储的1MB文件使用1MB的磁盘空间,而不是128MB。)hdfs如何使用该block中剩余的127M?2)是否有机会在同一个block中存储另一个文件? 最佳答案 1MB文件存储在128MBblock中,有3个副本。然后文件将存储在3个block中,并且仅使用3*1=3MB而不是3*128=38

hadoop - 关闭hadoop HDFS后数据丢失?

您好,我正在学习hadoop,我有一个简单的愚蠢问题:在我关闭HDFS(通过调用hadoop_home/sbin/stop-dfs.sh)后,HDFS上的数据丢失了还是可以恢复? 最佳答案 如果您停止HDFS,数据不会丢失,前提是您将NameNode和DataNode的数据存储在使用属性指定的持久位置:dfs.namenode.name.dir->确定DFS名称节点应在本地文件系统上的何处存储名称表(fsimage)。如果这是一个以逗号分隔的目录列表,那么名称表将复制到所有目录中,以实现冗余。默认值:file://${hadoop.

apache-spark - Spark Dataframe 丢失分区

我在读取spark数据帧时发现了这个奇怪的问题。我将数据框重新分区为50k个分区。但是,当我读取数据帧并对其执行计数操作时,我发现当我使用spark2.0时,底层的rdd只有2143个分区。于是我去了我保存重新分区数据的路径,发现hfs-ls/repartitionedData/|wc-l50476因此它在保存数据时创建了50k个分区。但是对于spark2.0,vald=spark.read.parquet("repartitionedData")d.rdd.getNumPartitionsres4:Int=2143但是对于spark1.5,vald=spark.read.parque

hadoop - 您如何处理 Apache Pig 中的空输入文件或丢失的输入文件?

我们的工作流程使用AWSelasticmapreduce集群来运行一系列Pig作业,以将大量数据处理成聚合报告。不幸的是,输入数据可能不一致,并可能导致没有输入文件或0字节文件被提供给管道,甚至由管道的某些阶段生成。在LOAD语句期间,如果Pig找不到任何输入文件或任何输入文件为0字节,它就会失败。有什么好的方法可以解决这个问题(希望在Pig配置或脚本或Hadoop集群配置中,无需编写自定义加载器...)?(因为我们使用的是AWSelasticmapreduce,所以我们只能使用Pig0.6.0和Hadoop0.20。) 最佳答案

mysql - 查询期间丢失与 MySQL 服务器的连接?

这个问题在这里已经有了答案:关闭9年前。PossibleDuplicate:LostconnectiontoMySQLserverduringquery我正在将一些数据从大型csv导入mysql表。在将文件导入表的过程中,我失去了与服务器的连接。出了什么问题?错误代码是2013:LostconnectiontothemySqlserverduringthequery.我正在Windows服务器上从ubuntu机器远程运行这些查询。 最佳答案 尝试以下2件事...1)将此添加到[mysqld]部分中的my.cnf/my.ini中max

mysql - 查询期间丢失与 MySQL 服务器的连接?

这个问题在这里已经有了答案:关闭9年前。PossibleDuplicate:LostconnectiontoMySQLserverduringquery我正在将一些数据从大型csv导入mysql表。在将文件导入表的过程中,我失去了与服务器的连接。出了什么问题?错误代码是2013:LostconnectiontothemySqlserverduringthequery.我正在Windows服务器上从ubuntu机器远程运行这些查询。 最佳答案 尝试以下2件事...1)将此添加到[mysqld]部分中的my.cnf/my.ini中max