mysql - Hadoop 与关系数据库

coder 2024-01-06 原文

我是 Hadoop 的新手，想知道 Hadoop 在某个场景中的工作原理。

在创建 Dynamic Web 项目期间，我曾经通过从 Java/C# 发送查询来存储和从 MySQL 数据库获取数据。

我在我的项目中使用 Hadoop 服务，并且 hadoop 是否提供任何内置数据库系统，我们可以在其中存储数据并在需要时检索数据，而不是使用外部数据库。

提前致谢。

最佳答案

Hadoop 不提供任何内置数据库。这只是两件事:

分布式文件系统 (HDFS)
分布式处理框架(MapReduce。我简称为MR)

我假设您需要非常快速的响应，因为您正在处理 Web 服务。恕我直言，Hadoop(准确地说是 HDFS)或与此相关的任何其他 FS 在这种情况下都不是合适的选择。原因是 HDFS 缺乏随机/读取功能，这对于任何 Web 项目都非常重要。

Hive 也是如此。尽管它以类似于 RDBMS 的方式管理数据，但它实际上不是 RDBMS。底层存储机制仍然是HDFS 文件。此外，当您发出 Hive 查询以获取结果时，查询首先被转换为 MR 作业，然后生成导致响应缓慢的结果。

您最安全的选择是使用 HBase 。当您需要随机、实时读/写访问数据时，这绝对是更好的选择，就像您的情况一样。虽然它不是 Hadoop 平台的一部分，但它是为与 Hadoop 一起使用而构建的。在您现有的 HDFS 集群之上工作，可以直接通过不同的 HBase API(适合您的情况)或通过 MR(不适用于实时内容。适合您需要批量处理大量数据时)进行操作。易于设置和使用，无需额外的基础设施。

这里需要注意的一件重要事情是，HBase 是一个 NoSQL 数据库，不遵循 RDBMS 约定和术语。因此，您最初可能需要在设计上做一些工作。

除了 HBase 你还有一些其他的选择，比如 Cassandra ，这也是一个 NoSQL 数据库。

HTH

关于mysql - Hadoop 与关系数据库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19106255/

有关mysql - Hadoop 与关系数据库的更多相关文章

ruby - Rails 关联 - 同一个类的多个 has_one 关系 - 2
我的问题的一个例子是体育游戏。一场体育比赛有两支球队，一支主队和一支客队。我的事件记录模型如下:classTeam"Team"has_one:away_team,:class_name=>"Team"end我希望能够通过游戏访问一个团队，例如:Game.find(1).home_team但我收到一个单元化常量错误:Game::team。谁能告诉我我做错了什么？谢谢，最佳答案如果Gamehas_one:team那么Rails假设您的teams表有一个game_id列。不过，您想要的是games表有一个team_id列，在这种情况下
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
ruby-on-rails - 创建 ruby 数据库时惰性符号绑定(bind)失败 - 2
我正在尝试在Rails上安装ruby，到目前为止一切都已安装，但是当我尝试使用rakedb:create创建数据库时，我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
[工业相机] 分辨率、精度和公差之间的关系 - 2
📢博客主页：https://blog.csdn.net/weixin_43197380📢欢迎点赞👍收藏⭐留言📝如有错误敬请指正！📢本文由Loewen丶原创，首发于CSDN，转载注明出处🙉📢现在的付出，都会是一种沉淀，只为让你成为更好的人✨文章预览：一.分辨率（Resolution）1、工业相机的分辨率是如何定义的？2、工业相机的分辨率是如何选择的？二.精度（Accuracy）1、像素精度（PixelAccuracy）2、定位精度和重复定位精度（RepeatPrecision）三.公差（Tolerance）四.课后作业（Post-ClassExercises）视觉行业的初学者，甚至是做了1~2年
ruby - Rails -- :id attribute? 所需的数据库索引 - 2
因此，当我遵循MichaelHartl的RubyonRails教程时，我注意到在用户表中，我们为:email属性添加了一个唯一索引，以提高find的效率方法，因此它不会逐行搜索。到目前为止，我们一直在根据情况使用find_by_email和find_by_id进行搜索。然而，我们从未为:id属性设置索引。:id是否自动索引，因为它在默认情况下是唯一的并且本质上是顺序的？或者情况并非如此，我应该为:id搜索添加索引吗？最佳答案大多数数据库(包括sqlite，这是RoR中的默认数据库)会自动索引主键，对于RailsMigration
ruby-on-rails - 如何让 datamapper 与 postgresql 数据库一起工作？ - 2
我已经找到了几个使用datamapper的示例，并且能够让它们正常工作。不过，所有这些示例都是针对sqlite数据库的。我正在尝试将数据映射器与postgresql一起使用。我将datamapper中的调用从sqlite3更改为postgres，并且我已经安装了dm-postgres-adapter。但它仍然不起作用。我还需要做什么？最佳答案与SQLite不同，PostgreSQL不将数据库存储在单个文件中。在你拥有createdyourdatabase之后，尝试这样的事情:DataMapper.setup:default,{:
ruby-on-rails - 无法安装 mysql2 0.3.14 gem - 2
我看到其他人也遇到过类似的问题，但没有一个解决方案对我有用。0.3.14gem与其他gem文件一起存在。我已经完全按照此处指示完成了所有操作:https://github.com/brianmario/mysql2.我仍然得到以下信息。我不知道为什么安装程序指示它找不到include目录，因为我已经检查过它存在。thread.h文件存在，但不在ruby目录中。相反，它在这里:C:\RailsInstaller\DevKit\lib\perl5\5.8\msys\CORE\我正在运行Windows7并尝试在Aptana3中构建我的Rails项目。我的Ruby是1.9.3。$gemin
ruby-on-rails - rails 多态关联(遗留数据库) - 2
我使用的是遗留数据库，所以我无法控制数据模型。他们使用了很多多态链接/连接表，就像这样createtableperson(per_ident,name,...)createtableperson_links(per_ident,obj_name,obj_r_ident)createtablereport(rep_ident,name,...)其中obj_name是表名，obj_r_ident是标识符。因此链接的报告将按如下方式插入:insertintoperson(1,...)insertintoreport(1,...)insertintoreport(2,...)insertint
ruby-on-rails - 在现有数据库上进行 Rails 迁移 - 2
我正在创建一个新的Rails3.1应用程序。我希望这个新应用程序重用现有数据库(由以前的Rails2应用程序创建)。我创建了新的应用程序定义模型，它重用了数据库中的一些现有数据。在开发和测试阶段，一切正常，因为它在干净的表数据库上运行，但是当尝试部署到生产环境时，我收到如下消息:PGError:ERROR:column"email"ofrelation"users"alreadyexists***[err::localhost]:ALTERTABLE"users"ADDCOLUMN"email"charactervarying(255)DEFAULT''NOTNULL但是我在迁移中有这

mysql - Hadoop 与关系数据库

有关mysql - Hadoop 与关系数据库的更多相关文章

随机推荐