移到

mongodb - 将数据从mongodb迁移到hdfs

我是数据工程的新手。我正在尝试为大数据项目设置环境。截至目前，我已经安装了hadoop、mongodb、hive和spark。现在我想尝试模拟以查看mongodb和hadoop之间的交互。我的mongodb中已经有数据。所以我想将数据迁移到hadoophdfs中。是否可以？我读了很多关于它的解释，但不明白迁移的想法。任何人都可以用简单的方式解释如何做吗？因为我是这个领域的初学者。最佳答案如果您已经在Mongo中有数据，我建议使用SparkSQLwithMongo加载您集合的DataFrame对象，我们称它为df。例如SparkS

hadoop - 将 Sqoop 数据从 HDFS 迁移到 Hive

当使用Sqoop将一堆大型MySQL表导入HDFS时，我忘记包含--hive-import标志。所以现在我已经将这些表放在HDFS中，并且想知道是否有一种简单的方法可以将数据加载到Hive中(无需自己编写LOADDATA语句)。我尝试使用sqoopcreate-hive-table:./bin/sqoopcreate-hive-table--connectjdbc:mysql://xxx:3306/dw--usernamexxx--passwordxxx--hive-import--tabletweets虽然这确实创建了正确的配置单元表，但它没有向其中导入任何数据。我觉得我在这里遗漏了

hadoop Sqoop section hive table hdfs

azure - 从 Azure HDInsight 迁移到 Amazon EMR？

需要大数据专家的帮助。我们目前已经开始构建一个具有大数据需求的产品，并且我们选择了Hadoop。我们目前在大数据方面没有太多经验。对于我们的云平台和Hadoop，我们试图在AzureHDInsight和AmazonAWSEMR之间做出选择。我们的产品将使用.Net构建，我们已经将Azure用于另一个现有产品。我们也有使用AWS的经验，但还没有使用Hadoop。现在，我们知道Azure不如EMR成熟，而AWS会是更好的选择，至少在未来几年是这样。但是，使用.Net在Azure上进行开发可能会更容易，并且还可以节省一些前期成本，因为我们已经在使用它。因此，我们正在考虑在Azure上构建产品

HDInsight Amazon section Azure hadoop amazon-web-services azure-hdinsight

mysql - 如何从 MySQL 服务器迁移到大数据 Hadoop

我正在使用包含500GB空间的MySqlServer数据库，因此性能非常慢，需要15-20分钟才能显示搜索结果。请帮助我什么是在几秒钟内进行搜索的最佳解决方案。我可以使用BigDataHadoop或任何其他工具吗？请帮助我。谢谢最佳答案如果查询速度很重要，请查看列存储数据库。这可以有或没有hadoop。对于hadoop，选择正确的文件结构很重要。Parquet是一种流行的选择。查询这些文件:Cloudera黑斑羚Apache钻没有Hadoop:惠普垂直亚马逊红移青梅https://en.wikipedia.org/wiki/Co

大数 Hadoop section li https mysql database performance bigdata

java - 将计算迁移到云端

是否有任何自动工具可以将遗留的单处理器程序转换到云端，这意味着目标程序已准备好在云端执行(例如为Hadoop编写的程序)？如果没有，手动进行此类转换(可能完全重写)时的最佳做法是什么？另外，我如何知道/评估遗留程序(或编程任务)是否适合计算？示例:假设我有一个仅使用标准Java库(例如HashMap)编写的WordCount程序，如何将其转换为使用Hadoop编写的程序，就像Hadoop发行版示例代码中提供的那样？最佳答案 IsthereanyautomatictoolthatIcantransformlegacyuniproce

java 将 Hadoop section blockquote refactoring cloud mapreduce

hadoop - 如何将单个数据中心集群迁移到 cassandra 中的多个数据中心集群>

提供推荐配置以将数据从单数据中心cassandra集群迁移到多数据中心cassandra集群。Currenlty我有具有以下配置的单数据中心集群环境，i)节点数:3ii)复制因子:2iii)策略:SimpleStrategyiv)endpoint_snitch:SimpleSnitch现在我计划再添加2个位于不同位置的节点。所以我想通过以下确认转移到多数据中心集群。i)节点数:5ii)RF:dc1=2,dc2=2iii)策略:NetworkTopolofyStrategyiv).endpoint_snitch:PropertyFileSnitch(我有cassandra.topolof

数据中心 cassandra section hadoop cassandra-2.0

hadoop - 如何将现有的 Hbase 数据迁移到新集群

我有一个存储超过10TB数据的Hbase集群，现在我必须将这些数据迁移到一个新的集群中，我该怎么做？我知道Hbase备份有完全关闭备份(Distcp)和实时集群备份(Replication、Export和CopyTable)。在我的例子中，我们不能容忍我们的Hbase集群定期完全关闭，而且我知道复制不能复制历史数据，所以这意味着我们只能使用Export或CopyTable吗？我有两个问题:1.我们应该使用Export还是CopyTable或其他？为什么？2.如果我们使用Export或CopyTable，由于集群已经启动，在复制过程中存在编辑遗漏的风险，如何避免？

新集 hadoop section CopyTable strong hbase hdfs

apache - 升级\将 Apache Hadoop 1.x 迁移到 Apache Hadoop 2.x

我正在研究从ApacheHadoop1.x迁移\升级到ApacheHadoop2.x。我没有找到任何相同的文档\指南\博客。虽然有从Hadoop1.x到Hadoop2.x的CDH和HDP迁移\升级的指南\文档引用那些有用吗？我正在寻找ApacheHadoop1.x到ApacheHadoop2.x的类似指南\文档。不过我在slideshare上找到了一些东西。不确定这会有多大用处。我仍然需要验证这一点。http://www.slideshare.net/mikejf12/an-example-apache-hadoop-yarn-upgrade任何建议\评论都会有很大帮助。-谢谢

Apache Hadoop section

hadoop - 我们如何使用 SQoop 对从 RDBMS 迁移到 HDFS 的数据进行测试？

测试人员如何测试数据是否从RDBMS移动到HDFS？请仅从测试角度解释。将数据从RDBMS移动到HDFS和将数据从RDBMS移动到HIVE之间有什么区别？据我所知，HIVE不是数据库，那么为什么要将数据移动到HIVE？最佳答案话题有点大。我会尽量用通俗易懂的方式回答。HowatestertestifthedataismovedfromRDBMStoHDFS?Pleaseexplainonlyfromtestingperspective.这就是我们过去所做的。一旦迁移事件发生。我们编写了一堆测试脚本，其中我们使用大量随机记录轮询R

hadoop SQoop section RDBMS blockquote testing hdfs bigdata

java - 将 Java 应用程序迁移到 Hadoop : Architecture/Design Roadblocks?

Alrite..所以..这是一种情况:我负责构建基于Java的ETL软件(更确切地说是EAI)的迁移。我必须将其迁移到Hadoop(apache版本)。现在，从技术上讲，这更像是重新启动而不是迁移——因为我没有要迁移的数据库。这是关于利用Hadoop，以便(“ETL”的)转换阶段是并行化的。这将使我的ETL软件，更快-转换并行化。可扩展-处理更多数据/大数据就是添加更多节点。可靠-Hadoop的冗余性和可靠性将增加我的产品的功能。我已经测试了这个配置-将我的转换算法更改为mapreduce模型，在高端Hadoop集群上对其进行了测试，并对性能进行了基准测试。现在，我正在尝试了解并记录所

Architecture Roadblocks Hadoop section 的 java

56 57 585960 61 62