草庐IT

banner_data

全部标签

hadoop - HDFS 中的数据完整性 : Which Data Node(s) verifies the checksum?

根据Hadoop:TheDefinitiveGuide,SecondEditionA.Datanodesareresponsibleforverifyingthedatatheyreceivebeforestoringthedataanditschecksum.他们是否通过验证校验和来验证数据?B.Aclientwritingdatasendsittoapipelineofdatanodes(asexplainedinChapter3),andthelastdatanodeinthepipelineverifiesthechecksum.那么,这是否意味着每个数据节点都验证校验和(如A

Hadoop MapReduce : Is it possible to only use a fraction of the input data as the input to a MR job?

我的输入数据的关键类是WritableComparable,它以MapFile的形式存在。有没有什么方法可以设置最小和最大键值,并且只将记录传输到键值介于两者之间的映射器? 最佳答案 这是不可能的。因为对于map-reduce作业,我们只是指定输入。我们可以做的一件事是,在映射器中编写一个条件。如果键是黑白最小值和最大值,则只处理键值对并将输出发送到reducer。否则,什么都不做。但即使在这种情况下,我们的map阶段也会处理所有输入,而reduce阶段只会处理我们指定的键范围。更好的方法:当在给定输入上运行map-reduce作业

hadoop - 错误消息 : "offset (0) + length (4) exceed the capacity of the array: 2" while fetching data from HBase

由于上述错误,我基于tomcat的RESTAPI应用程序无法处理请求。我在尝试从HBase检索数据时遇到错误。我使用RESTFul网络服务作为我的界面。我正在使用包含HBase0.98.6的CDH5.3.1。有谁知道如何解决这个问题?在此处输入代码错误详情:错误信息:“偏移量(0)+长度(4)超出数组的容量:2” 最佳答案 也许您需要更改一些架构类型规范?我得到这个错误,除了offset(0)+length(4)exceedthecapacityofthearray:1。这是因为缺少相关列的值,我假设1个字节表示空值。在Java中使

hadoop - Apache hive : LOAD DATA vs INSERT OVERWRITE OUTPUT FILE SIZE

我正在使用ApacheHive,我不明白为什么如果我使用INSERTOVERWRITE与LOAD加载数据,表的大小会加倍。问题说明如下:我创建了一个表项从item.dat加载数据(大约28MB)在Azure中发生的是文件item.dat将被移动到hive/warehouse并且当然大小保持不变现在,如果我创建另一个与item相同的表item2,然后使用以下命令将数据从item加载到item2:INSERTOVERWRITETABLEitem2SELECT*FROMitem表item2的大小是item的两倍(大约55MB)为什么会这样?有什么办法可以避免吗?附言。这只是为了说明问题。在实

hadoop - hive 中出现 "LOAD DATA"时访问被拒绝

当我执行一些语句时,我对HDFS路径“XXX”具有读取权限“LOADDATAINPATH'XXX'到表YYY...”发生错误:ERROR:AuthorizationException:User'ZZZ'doesnothaveprivilegestoaccess:'XXX'为什么“LOADDATA”语句需要比“READ”更多的权限? 最佳答案 问题是LOADDATA命令将文件从您在INPATH中指定的路径物理移动到创建表时指定的位置。现在,如果它必须移动数据,它需要对源文件夹的RW权限,因此会出现错误。在这里搜索加载数据:Apache

java - 如何将 @Transactional 与 Spring Data 一起使用?

我刚开始从事Spring-data、Hibernate、MySQL、JPA项目。我切换到spring-data这样我就不必担心手动创建查询了。我注意到,当您使用spring-data时,不需要使用@Transactional,因为我也尝试了没有注释的查询。我应该/不应该使用@Transactional注释有什么具体原因吗?作品:@TransactionalpublicListlistStudentsBySchool(longid){returnrepository.findByClasses_School_Id(id);}同样有效:publicListlistStudentsBySch

java - 如何将 @Transactional 与 Spring Data 一起使用?

我刚开始从事Spring-data、Hibernate、MySQL、JPA项目。我切换到spring-data这样我就不必担心手动创建查询了。我注意到,当您使用spring-data时,不需要使用@Transactional,因为我也尝试了没有注释的查询。我应该/不应该使用@Transactional注释有什么具体原因吗?作品:@TransactionalpublicListlistStudentsBySchool(longid){returnrepository.findByClasses_School_Id(id);}同样有效:publicListlistStudentsBySch

r - 如何使用 SparkR 的 as.DataFrame() 将大型 R data.frames 加载到 Spark 中?

我的目标是将大型Rdata.frame加载到Spark中。data.frame的大小是500万。各种类型的行和7列。一旦加载到R中,这个data.frame占用大约。200MB内存。但是,当我尝试使用as.DataFrame()函数将其加载到Spark中时,Rsession永远被占用,它已经运行了1小时,我不得不取消该操作。详情如下:我正在创建以下数据集以在此示例中使用:n=5e6#setsamplesized上面创建了一个示例data.frame大小,大约200mb:paste0("size:",round(as.numeric(object.size(d))/1000000,1),

Hadoop 数据节点 : why is there a magic "number" for threshold of data blocks?

专家,我们可能会看到我们的hadoop集群中的block数增长。“太多”block会导致数据节点堆需求增加、执行速度下降、GC次数增多等后果。当block数超过某个“阈值”时,​​我们应该引起注意。我见过不同的阈值静态数字,例如200,000或500,000——“神奇”数字。它不应该是节点内存的函数(DataNode的Java堆大小,以字节为单位)吗?其他有趣的相关问题:高block数表示什么?一种。小文件太多?b.产能不足?是(a)还是(b)?如何区分两者?什么是小文件?大小小于block大小(dfs.blocksize)的文件?每个文件是否在磁盘上占用一个新的数据block?还是与

hadoop - 在Hive中执行LOAD DATA时,是否复制了数据?

当将存储在HDFS中的数据加载到HIVE中时,来自HDFS的数据是否被复制为HIVE使用的不同格式?还是使用原始文件存储/选择/插入/修改数据?上下文:LOADDATAINPATH'/home/user/sample.txt'OVERWRITEINTOTABLEemployee;HIVE是否总是使用/home/user/sample.txt来存储/选择/插入/修改数据,还是创建一个新文件占用HDFS/HBASE的新空间? 最佳答案 LOADDATAINPATH除了将HDFS文件移动到表的位置外什么都不做,我所说的“移动”是指HDFS