草庐IT

mongodb - 将数据从mongodb迁移到hdfs

我是数据工程的新手。我正在尝试为大数据项目设置环境。截至目前,我已经安装了hadoop、mongodb、hive和spark。现在我想尝试模拟以查看mongodb和hadoop之间的交互。我的mongodb中已经有数据。所以我想将数据迁移到hadoophdfs中。是否可以?我读了很多关于它的解释,但不明白迁移的想法。任何人都可以用简单的方式解释如何做吗?因为我是这个领域的初学者。 最佳答案 如果您已经在Mongo中有数据,我建议使用SparkSQLwithMongo加载您集合的DataFrame对象,我们称它为df。例如SparkS

hadoop - 将 Sqoop 数据从 HDFS 迁移到 Hive

当使用Sqoop将一堆大型MySQL表导入HDFS时,我忘记包含--hive-import标志。所以现在我已经将这些表放在HDFS中,并且想知道是否有一种简单的方法可以将数据加载到Hive中(无需自己编写LOADDATA语句)。我尝试使用sqoopcreate-hive-table:./bin/sqoopcreate-hive-table--connectjdbc:mysql://xxx:3306/dw--usernamexxx--passwordxxx--hive-import--tabletweets虽然这确实创建了正确的配置单元表,但它没有向其中导入任何数据。我觉得我在这里遗漏了

azure - 从 Azure HDInsight 迁移到 Amazon EMR?

需要大数据专家的帮助。我们目前已经开始构建一个具有大数据需求的产品,并且我们选择了Hadoop。我们目前在大数据方面没有太多经验。对于我们的云平台和Hadoop,我们试图在AzureHDInsight和AmazonAWSEMR之间做出选择。我们的产品将使用.Net构建,我们已经将Azure用于另一个现有产品。我们也有使用AWS的经验,但还没有使用Hadoop。现在,我们知道Azure不如EMR成熟,而AWS会是更好的选择,至少在未来几年是这样。但是,使用.Net在Azure上进行开发可能会更容易,并且还可以节省一些前期成本,因为我们已经在使用它。因此,我们正在考虑在Azure上构建产品

mysql - 如何从 MySQL 服务器迁移到大数据 Hadoop

我正在使用包含500GB空间的MySqlServer数据库,因此性能非常慢,需要15-20分钟才能显示搜索结果。请帮助我什么是在几秒钟内进行搜索的最佳解决方案。我可以使用BigDataHadoop或任何其他工具吗?请帮助我。谢谢 最佳答案 如果查询速度很重要,请查看列存储数据库。这可以有或没有hadoop。对于hadoop,选择正确的文件结构很重要。Parquet是一种流行的选择。查询这些文件:Cloudera黑斑羚Apache钻没有Hadoop:惠普垂直亚马逊红移青梅https://en.wikipedia.org/wiki/Co

java - 将计算迁移到云端

是否有任何自动工具可以将遗留的单处理器程序转换到云端,这意味着目标程序已准备好在云端执行(例如为Hadoop编写的程序)?如果没有,手动进行此类转换(可能完全重写)时的最佳做法是什么?另外,我如何知道/评估遗留程序(或编程任务)是否适合计算?示例:假设我有一个仅使用标准Java库(例如HashMap)编写的WordCount程序,如何将其转换为使用Hadoop编写的程序,就像Hadoop发行版示例代码中提供的那样? 最佳答案 IsthereanyautomatictoolthatIcantransformlegacyuniproce

hadoop - 如何将单个数据中心集群迁移到 cassandra 中的多个数据中心集群>

提供推荐配置以将数据从单数据中心cassandra集群迁移到多数据中心cassandra集群。Currenlty我有具有以下配置的单数据中心集群环境,i)节点数:3ii)复制因子:2iii)策略:SimpleStrategyiv)endpoint_snitch:SimpleSnitch现在我计划再添加2个位于不同位置的节点。所以我想通过以下确认转移到多数据中心集群。i)节点数:5ii)RF:dc1=2,dc2=2iii)策略:NetworkTopolofyStrategyiv).endpoint_snitch:PropertyFileSnitch(我有cassandra.topolof

hadoop - 如何将现有的 Hbase 数据迁移到新集群

我有一个存储超过10TB数据的Hbase集群,现在我必须将这些数据迁移到一个新的集群中,我该怎么做?我知道Hbase备份有完全关闭备份(Distcp)和实时集群备份(Replication、Export和CopyTable)。在我的例子中,我们不能容忍我们的Hbase集群定期完全关闭,而且我知道复制不能复制历史数据,所以这意味着我们只能使用Export或CopyTable吗?我有两个问题:1.我们应该使用Export还是CopyTable或其他?为什么?2.如果我们使用Export或CopyTable,由于集群已经启动,在复制过程中存在编辑遗漏的风险,如何避免?

apache - 升级\将 Apache Hadoop 1.x 迁移到 Apache Hadoop 2.x

我正在研究从ApacheHadoop1.x迁移\升级到ApacheHadoop2.x。我没有找到任何相同的文档\指南\博客。虽然有从Hadoop1.x到Hadoop2.x的CDH和HDP迁移\升级的指南\文档引用那些有用吗?我正在寻找ApacheHadoop1.x到ApacheHadoop2.x的类似指南\文档。不过我在slideshare上找到了一些东西。不确定这会有多大用处。我仍然需要验证这一点。http://www.slideshare.net/mikejf12/an-example-apache-hadoop-yarn-upgrade任何建议\评论都会有很大帮助。-谢谢

hadoop - 我们如何使用 SQoop 对从 RDBMS 迁移到 HDFS 的数据进行测试?

测试人员如何测试数据是否从RDBMS移动到HDFS?请仅从测试角度解释。将数据从RDBMS移动到HDFS和将数据从RDBMS移动到HIVE之间有什么区别?据我所知,HIVE不是数据库,那么为什么要将数据移动到HIVE? 最佳答案 话题有点大。我会尽量用通俗易懂的方式回答。HowatestertestifthedataismovedfromRDBMStoHDFS?Pleaseexplainonlyfromtestingperspective.这就是我们过去所做的。一旦迁移事件发生。我们编写了一堆测试脚本,其中我们使用大量随机记录轮询R

java - 将 Java 应用程序迁移到 Hadoop : Architecture/Design Roadblocks?

Alrite..所以..这是一种情况:我负责构建基于Java的ETL软件(更确切地说是EAI)的迁移。我必须将其迁移到Hadoop(apache版本)。现在,从技术上讲,这更像是重新启动而不是迁移——因为我没有要迁移的数据库。这是关于利用Hadoop,以便(“ETL”的)转换阶段是并行化的。这将使我的ETL软件,更快-转换并行化。可扩展-处理更多数据/大数据就是添加更多节点。可靠-Hadoop的冗余性和可靠性将增加我的产品的功能。我已经测试了这个配置-将我的转换算法更改为mapreduce模型,在高端Hadoop集群上对其进行了测试,并对性能进行了基准测试。现在,我正在尝试了解并记录所