移到废纸篓

hadoop - 如何将 On Prem Hadoop 迁移到 GCP

我正在尝试将我们组织的hadoop作业迁移到GCP...我对GCP数据流和数据处理感到困惑...我想重新使用我们已经创建的Hadoop作业，并尽可能减少集群的管理。我们还希望能够在集群生命周期之外保留数据...谁能推荐一下最佳答案我将从DataProc开始，因为它与您所拥有的非常接近。查看DataProc初始化操作，https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions，创建一个简单的集群并感受一下。DataFlow是完全

hadoop - 如何将数据从 CDH3 集群迁移到(不同的)CDH4 集群？

我想将数据从CDH3复制到CDH4(在不同的服务器上)。我的CDH4服务器设置为无法看到CDH3，因此我必须将数据从CDH3上游推送到CDH4。(这意味着我无法从CDH4运行distcp命令来复制数据)。如何通过在较低版本的CDH3hadoop上运行命令将我的数据传输到CDH4的HDFS，或者这不可能吗？最佳答案理想情况下，您应该能够使用distcp将数据从一个HDFS集群复制到另一个。hadoopdistcp-p-update"hdfs://A:8020/user/foo/bar""hdfs://B:8020/user/foo

CDH hadoop section CDH4 hdfs cloudera

mongodb - 将数据从mongodb迁移到hdfs

我是数据工程的新手。我正在尝试为大数据项目设置环境。截至目前，我已经安装了hadoop、mongodb、hive和spark。现在我想尝试模拟以查看mongodb和hadoop之间的交互。我的mongodb中已经有数据。所以我想将数据迁移到hadoophdfs中。是否可以？我读了很多关于它的解释，但不明白迁移的想法。任何人都可以用简单的方式解释如何做吗？因为我是这个领域的初学者。最佳答案如果您已经在Mongo中有数据，我建议使用SparkSQLwithMongo加载您集合的DataFrame对象，我们称它为df。例如SparkS

mongodb hdfs section code apache-spark hadoop hive

hadoop - 将 Sqoop 数据从 HDFS 迁移到 Hive

当使用Sqoop将一堆大型MySQL表导入HDFS时，我忘记包含--hive-import标志。所以现在我已经将这些表放在HDFS中，并且想知道是否有一种简单的方法可以将数据加载到Hive中(无需自己编写LOADDATA语句)。我尝试使用sqoopcreate-hive-table:./bin/sqoopcreate-hive-table--connectjdbc:mysql://xxx:3306/dw--usernamexxx--passwordxxx--hive-import--tabletweets虽然这确实创建了正确的配置单元表，但它没有向其中导入任何数据。我觉得我在这里遗漏了

hadoop Sqoop section hive table hdfs

azure - 从 Azure HDInsight 迁移到 Amazon EMR？

需要大数据专家的帮助。我们目前已经开始构建一个具有大数据需求的产品，并且我们选择了Hadoop。我们目前在大数据方面没有太多经验。对于我们的云平台和Hadoop，我们试图在AzureHDInsight和AmazonAWSEMR之间做出选择。我们的产品将使用.Net构建，我们已经将Azure用于另一个现有产品。我们也有使用AWS的经验，但还没有使用Hadoop。现在，我们知道Azure不如EMR成熟，而AWS会是更好的选择，至少在未来几年是这样。但是，使用.Net在Azure上进行开发可能会更容易，并且还可以节省一些前期成本，因为我们已经在使用它。因此，我们正在考虑在Azure上构建产品

HDInsight Amazon section Azure hadoop amazon-web-services azure-hdinsight

mysql - 如何从 MySQL 服务器迁移到大数据 Hadoop

我正在使用包含500GB空间的MySqlServer数据库，因此性能非常慢，需要15-20分钟才能显示搜索结果。请帮助我什么是在几秒钟内进行搜索的最佳解决方案。我可以使用BigDataHadoop或任何其他工具吗？请帮助我。谢谢最佳答案如果查询速度很重要，请查看列存储数据库。这可以有或没有hadoop。对于hadoop，选择正确的文件结构很重要。Parquet是一种流行的选择。查询这些文件:Cloudera黑斑羚Apache钻没有Hadoop:惠普垂直亚马逊红移青梅https://en.wikipedia.org/wiki/Co

大数 Hadoop section li https mysql database performance bigdata

java - 将计算迁移到云端

是否有任何自动工具可以将遗留的单处理器程序转换到云端，这意味着目标程序已准备好在云端执行(例如为Hadoop编写的程序)？如果没有，手动进行此类转换(可能完全重写)时的最佳做法是什么？另外，我如何知道/评估遗留程序(或编程任务)是否适合计算？示例:假设我有一个仅使用标准Java库(例如HashMap)编写的WordCount程序，如何将其转换为使用Hadoop编写的程序，就像Hadoop发行版示例代码中提供的那样？最佳答案 IsthereanyautomatictoolthatIcantransformlegacyuniproce

java 将 Hadoop section blockquote refactoring cloud mapreduce

hadoop - 如何将单个数据中心集群迁移到 cassandra 中的多个数据中心集群>

提供推荐配置以将数据从单数据中心cassandra集群迁移到多数据中心cassandra集群。Currenlty我有具有以下配置的单数据中心集群环境，i)节点数:3ii)复制因子:2iii)策略:SimpleStrategyiv)endpoint_snitch:SimpleSnitch现在我计划再添加2个位于不同位置的节点。所以我想通过以下确认转移到多数据中心集群。i)节点数:5ii)RF:dc1=2,dc2=2iii)策略:NetworkTopolofyStrategyiv).endpoint_snitch:PropertyFileSnitch(我有cassandra.topolof

数据中心 cassandra section hadoop cassandra-2.0

hadoop - 如何将现有的 Hbase 数据迁移到新集群

我有一个存储超过10TB数据的Hbase集群，现在我必须将这些数据迁移到一个新的集群中，我该怎么做？我知道Hbase备份有完全关闭备份(Distcp)和实时集群备份(Replication、Export和CopyTable)。在我的例子中，我们不能容忍我们的Hbase集群定期完全关闭，而且我知道复制不能复制历史数据，所以这意味着我们只能使用Export或CopyTable吗？我有两个问题:1.我们应该使用Export还是CopyTable或其他？为什么？2.如果我们使用Export或CopyTable，由于集群已经启动，在复制过程中存在编辑遗漏的风险，如何避免？

新集 hadoop section CopyTable strong hbase hdfs

apache - 升级\将 Apache Hadoop 1.x 迁移到 Apache Hadoop 2.x

我正在研究从ApacheHadoop1.x迁移\升级到ApacheHadoop2.x。我没有找到任何相同的文档\指南\博客。虽然有从Hadoop1.x到Hadoop2.x的CDH和HDP迁移\升级的指南\文档引用那些有用吗？我正在寻找ApacheHadoop1.x到ApacheHadoop2.x的类似指南\文档。不过我在slideshare上找到了一些东西。不确定这会有多大用处。我仍然需要验证这一点。http://www.slideshare.net/mikejf12/an-example-apache-hadoop-yarn-upgrade任何建议\评论都会有很大帮助。-谢谢

Apache Hadoop section

56 57 585960 61 62