master-data-management

hadoop - 部署 HBase Master 和 hadoop namenode

我想知道是否有关于根据HadoopNamenodes安装HBasemaster的一般建议。最佳答案您应该使用zookeeper在3个节点上设置HBasemaster以实现高可用性。在生产环境中，您不应该在运行名称节点的节点上运行任何东西。Namenode是HDFS最关键的组件，如果它宕机，集群上就没有其他可用的组件了。因此，最好有完全独立的节点来尽可能地缓解问题。关于hadoop-部署HBaseMaster和hadoopnamenode，我们在StackOverflow上找到一个类

spring - 您如何在 Spring 容器之外使用 Spring Data JPA？

我正在尝试手动连接SpringDataJPA对象，以便我可以生成DAO代理(又名存储库)-而不使用Springbean容器。不可避免地，有人会问我为什么要这样做:这是因为我们的项目已经在使用GoogleGuice(并且在UI上使用带有GWT的Gin)，并且我们不想维护另一个IoC容器配置，或拉入所有生成的依赖项。我知道我们或许可以使用Guice的SpringIntegration，但这是最后的手段。似乎所有东西都可以手动连接对象，但由于没有很好的文档记录，我遇到了困难。根据SpringData用户指南，使用repositoryfactoriesstandalone是可能的。不幸的是，该

Spring 何在 code JpaRepositoryFactory jpa jakarta-ee spring-data spring-data-jpa

spring - 您如何在 Spring 容器之外使用 Spring Data JPA？

我正在尝试手动连接SpringDataJPA对象，以便我可以生成DAO代理(又名存储库)-而不使用Springbean容器。不可避免地，有人会问我为什么要这样做:这是因为我们的项目已经在使用GoogleGuice(并且在UI上使用带有GWT的Gin)，并且我们不想维护另一个IoC容器配置，或拉入所有生成的依赖项。我知道我们或许可以使用Guice的SpringIntegration，但这是最后的手段。似乎所有东西都可以手动连接对象，但由于没有很好的文档记录，我遇到了困难。根据SpringData用户指南，使用repositoryfactoriesstandalone是可能的。不幸的是，该

Spring 何在 code JpaRepositoryFactory jpa jakarta-ee spring-data spring-data-jpa

java - 架构 : Data Persistency , 搜索和推荐系统

我正在计划一个涉及数据持久性、搜索功能和推荐功能(协同过滤)的项目。如图所示，我在想:1)有一组微服务来处理将持久保存在NoSQL存储(可能是MongoDb)中的实体2)对于搜索功能，我将使用Slor，来自微服务的消息将用于更新Slor索引。3)对于建议，我正在考虑使用ApacheMahout并使用消息队列来更新Mahout中使用的Slor索引我的问题是:1)这是处理此类问题的正确架构吗？2)它是否需要3个数据存储:用于数据持久化的MongoDB，用于搜索的Slor(Lucene索引)和mahout用于推荐的Solr(Lucene索引)？3)由于Slor也是一种NoSQL解决方案，那么

Persistency java section Mahout MongoDB hadoop solr architecture

hadoop - N 个 hadoop 节点中哪个节点正在运行 Cloudera Manager？

我有一个大型hadoop集群(24个节点)。我可以通过CLI访问这些节点。前几个没有运行ClouderaManager(cloudera-scm-server)。如何找出哪个节点正在运行ClouderaManager？感谢任何帮助。最佳答案 ClouderaManager将有两个服务。一个是服务器，另一个是代理。正如您所说，您可以通过CLI访问所有节点。因此，在所有节点上运行以下命令以查找哪个是服务器并打开(服务器将仅在一台机器上运行)sudoservicecloudera-scm-serverstatus另一种简单的查找CDHS

hadoop 点中 section Cloudera Manager hadoop2 cloudera-cdh cloudera-manager

hadoop - Hadoop集群如何访问master的50070端口？

我已经安装了基于CentOS7的Hadoop2.7.2，一主三从。问题是我只能通过访问主机上的localhost:50070来获取Hadoop集群的状态。而且访问master:50070或者192.168.199.139:50070都不起作用，192.168.199.139是master的IP地址。同时，slaves也无法访问192.168.199.139:50070。访问50070是否需要更多指定的配置？在master中运行ifconfig:eno16777736:flags=4163mtu1500inet192.168.199.139netmask255.255.255.0broa

hadoop code section 50070 centos7

hadoop - Cloudera Manager Yarn 和 Spark UI 不工作

我已经安装了CDH5.5.2，它在ClouderaManager中看起来没问题，直到我单击SparkHistoryServerUI链接或YarnHistoryServerUI链接。那些不起作用。不工作，我的意思是他们根本无法从浏览器访问。我在文件spark-defaults.conf中添加了以下几行spark.eventLog.dir=hdfs://name-node-1:8020/user/spark/applicationHistoryspark.eventLog.enabled=truespark.yarn.historyServer.address=http://name-no

Cloudera Manager name-node node allow hadoop apache-spark hadoop-yarn cloudera-cdh

hadoop - 配置单元 hadoop : selecting data from table getting error

我在Hive中创建了一个外部表后，我想知道推文的数量，所以我写了下面的查询，但是我得到了这个错误，请问如何解决这个问题，这是mapred-site.xml的配置mapred.job.trackerlocalhost:8021hive>selectcount(*)fromtweet;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.reducers.

配置单 hadoop Cumulative reduce Stage hive hadoop-streaming hadoop-partitioning flume-twitter

hadoop - 运行 sqoop 导入时出错 - ERROR manager.OracleManager : Failed to rollback transaction

我正在使用sqoop将数据从oracledb加载到hive规范:CDH-5.5.1Sqoop1.4.2初始化:exportSQOOP_HOME=/opt/cloudera/parcels/CDH-5.5.1-1.cdh5.5.1.p0.11/lib/sqoopexportHIVE_HOME=/opt/cloudera/parcels/CDH-5.5.1-1.cdh5.5.1.p0.11/lib/hiveexportHADOOP_CLASSPATH=/opt/cloudera/parcels/CDH-5.5.1-1.cdh5.5.1.p0.11/lib/sqoop/lib/ojdbc7.

入时 OracleManager apache java sqoop hadoop hive

hadoop - 将作业从 talend DI 导出到 talend big data

我是talendETL工具的新手。我已经在talendDI(数据集成)工具中创建了作业工作流，现在我想使用hadoop切换/实现相同的作业，因为我正在使用talend大数据工具。谁能解释我如何实现这一目标。TalendDI到Talend大数据集成。最佳答案根据我的理解，DI和大数据Talend工具的库是不同的，可能是因为这种导入是不可能的。关于hadoop-将作业从talendDI导出到talendbigdata，我们在StackOverflow上找到一个类似的问题：

talend hadoop section 大数 etl data-integration bigdata