data_manager_草庐IT

hadoop - Hbase 与 Cassandra : Which is better for a timeseries data storage?

我使用我的API日志提取如下信息:这段时间内我的API有多少用户？或者在这段时间里，什么类型的服务被调用最多？我提取的几乎所有信息都取决于时间戳。实际上，我使用MongoDB并将时间戳添加为索引(对于80GB，索引大小为12GB)。有人向我推荐迁移到cassandra或Hbase。我想知道哪个更适合我的用例:时间序列数据分析。需要良好的写入和读取性能。可以使用hadoop进行数据分析。感谢您分享您的观点或经验。最佳答案 Cassandra的优势:Cassandra通常表现出更好的性能(尽管两者都非常出色)。从操作的角度来看，Cas

hadoop - java.lang.OutOfMemoryError : unable to create new native thread for big data set 错误

我运行的hive查询对于小型数据集运行良好。但我正在运行2.5亿条记录，我在日志中遇到的错误低于此FATALorg.apache.hadoop.mapred.Child:Errorrunningchild:java.lang.OutOfMemoryError:unabletocreatenewnativethreadatjava.lang.Thread.start0(NativeMethod)atjava.lang.Thread.start(Thread.java:640)atorg.apache.hadoop.mapred.Task$TaskReporter.startCommuni

OutOfMemoryError hadoop java apache hive

hadoop - "code moving to data"而不是数据转码的原理是什么？

在最近关于分布式处理和流的讨论中，我遇到了“代码移动到数据”的概念。有人可以帮忙解释一下吗？此短语的引用是MapReduceWay.在Hadoop方面，it'sstatedinaquestion但仍然无法以技术不可知的方式找出对原理的解释。最佳答案基本思想很简单:如果代码和数据在不同的机器上，则必须先将其中一个移动到另一台机器上，然后才能在数据上执行代码。如果代码小于数据，最好将代码发送到保存数据的机器，而不是相反，如果所有机器都同样快且代码兼容。[可以说您可以根据需要发送源代码和JIT编译]。在大数据的世界里，代码几乎总是比数

amp hadoop section stackoverflow noreferrer architecture mapreduce distributed-computing design-principles

Hadoop- hive : Delete data which is older than specified no of days

我正在从事一个电信项目，该项目使用Hadoop-hive进行数据分析。一天，我们将获得数百万条记录。在指定的天数之后，我们需要删除旧数据，因为我们没有存储容量。删除记录的最佳方法是什么？附加信息:这些配置单元表将有一个包含填充日期的列。最佳答案我认为您的用例非常适合在Hive表中使用“日”分区。如果“天”只是一列，那么维护和清理表格将变得困难。分区在Hive中的真正含义是每个“天”都有一个目录例如:createtablemytable(...)partitionedby(daystring)因此，当您添加数据时，您将在HDFS中

specified Hadoop code section mytable hive bigdata

sql - 配置单元中 `load data inpath ` 和 `location` 之间的区别？

在我的公司，我经常看到这两个命令，我想知道它们之间的区别，因为它们的功能对我来说似乎是一样的:1createtable(namestring,numberdouble);loaddatainpath'/directory-path/file.csv'into;2createtable(namestring,numberdouble);location'/directory-path/file.csv';它们都将数据从HDFS上的目录复制到HIVE上的表目录中。使用这些时是否应该注意差异？谢谢你。最佳答案是的，它们的用途完全不同。

配置单 location strong section code sql hadoop hive hdfs hiveql

hadoop - 了解 Spark : Cluster Manager, Master 和 Driver 节点

读完这篇question,我想再问一些问题:集群管理器是一个长期运行的服务，它在哪个节点上运行？主节点和驱动节点可能是同一台机器吗？我假设某处应该有一条规则说明这两个节点应该不同？如果Driver节点出现故障，谁负责重新启动应用程序？究竟会发生什么？即主节点、集群管理器和工作节点将如何参与(如果他们参与)，以及以什么顺序参与？与上一个问题类似:如果主节点发生故障，具体会发生什么情况以及谁负责从故障中恢复？最佳答案 1.TheClusterManagerisalong-runningservice,onwhichnodeitisru

Cluster Manager strong blockquote the hadoop apache-spark hadoop-yarn failover apache-spark-standalone

shell - get "ERROR: Can' t 从 ZooKeeper 获取主地址； znode data == null"使用 Hbase shell 时

我安装了Hadoop2.2.0和Hbase0.98.0，这是我所做的:$./bin/start-hbase.sh$./bin/hbaseshell2.0.0-p353:001>list然后我得到了这个:ERROR:Can'tgetmasteraddressfromZooKeeper;znodedata==null为什么我会收到这个错误？另一个问题:我需要在运行base之前运行./sbin/start-dfs.sh和./sbin/start-yarn.sh吗？另外，./sbin/start-dfs.sh和./sbin/start-yarn.sh有什么用？这是我的一些conf文档:hbas

amp shell code gt lt hadoop hbase

Blockchain for Internet of Energy management: Review, solutions, and challenges

本文是《BlockchainforInternetofEnergymanagement:Review,solutions,andchallenges》的中文翻译，只针对文字部分做翻译，图表部分请查看原文。能源管理互联网的区块链：回顾、解决方案和挑战摘要1.引言1.1本文的贡献1.2相关综述文章的回顾1.3组织2.能源互联网概述2.1能源互联网介绍2.2能源互联网的问题3.区块链在IoE中的适用性3.1区块链的基础3.2区块链在IoE中的应用4.共识算法4.0.1工作量证明（PoW）4.0.2股权证明（PoS）4.0.3委托股权证明（DPoS）4.0.4实用拜占庭容错（PBFT）4.0.5授权证

Blockchain challenges xff0c xff0 xff 区块链

hadoop - YARN 中 Application Manager 和 Application Master 的区别？

我了解MRv1的工作原理。现在我正在尝试了解MRv2..YARN中的ApplicationManager和ApplicationMaster有什么区别？最佳答案术语ApplicationMaster和ApplicationManager经常互换使用。实际上，ApplicationMaster是请求、启动和监控应用程序特定资源的主要容器，而ApplicationManager是ResourceManager中的一个组件。下面给出了有关应用程序管理器的更多详细信息。ApplicationsManager负责维护提交的集合应用程序。申

Application Manager section 的 hadoop mapreduce hadoop-yarn

hadoop/hdfs/name 处于不一致状态 : storage directory(hadoop/hdfs/data/) does not exist or is not accessible

我已经尝试了stackoverflow提供的关于这个主题的所有不同解决方案，但没有帮助再次询问具体日志和详细信息感谢任何帮助我的Hadoop集群中有一个主节点和5个从节点。ubuntu用户和ubuntu组是~/Hadoop文件夹的所有者~/hadoop/hdfs/data&~/hadoop/hdfs/name文件夹都存在两个文件夹的权限都设置为755在启动脚本start-all.sh之前成功格式化namenode脚本无法启动“名称节点”这些都在主节点上运行ubuntu@master:~/hadoop/bin$jps7067TaskTracker6914JobTracker7237Jps

hadoop hdfs namenode apache nodes