手动

hadoop - 如何在没有互联网连接的情况下手动安装 Cloudera with Parcels？

我正在尝试在RedHat6上安装Cloudera5.7。在ClouderaManager向导GUI中，在“选择存储库”屏幕上，我选中“用户包(推荐)”。但是我看不到“选择CDH版本”的选项。我没有互联网连接。我不想使用包。我应该怎么做才能安装Parcels？我无法使用Parcels继续安装。最佳答案您可以在此处找到5.7的说明:https://www.cloudera.com/documentation/enterprise/5-7-x/topics/cm_ig_create_local_parcel_repo.html对于最新

何在 Cloudera section cm_ig_create_local_parcel_repo documentation hadoop redhat

spring - 如何使用 Spring 安全手动注销用户？

可能答案很简单:如何在SpringSecurity中手动注销当前登录的用户？打电话就够了:SecurityContextHolder.getContext().getAuthentication().setAuthenticated(false);? 最佳答案我很难确定您的代码是否足够。但是标准Spring-security的注销实现是不同的。如果你看看SecurityContextLogoutHandler你会看到他们这样做:SecurityContextHolder.clearContext();此外，它们还可以选择使Http

spring section code SecurityContextLogoutHandler spring-security logout

spring - 如何使用 Spring 安全手动注销用户？

spring section code SecurityContextLogoutHandler spring-security logout

hadoop - 我可以使用 hadoop 发行版而不是手动安装吗？

我打算用大约5台机器实现一个hadoop集群。通过一些背景研究，我了解到我需要在每台机器上安装hadoop才能实现集群。之前我打算在每台机器上安装一个Linux发行版，然后分别安装hadoop，并配置每台机器并行工作。最近我浏览了一些Hadoop发行版，例如Cloudera和Hortonworks。我的问题是，我应该在每台机器上安装Cloudera或Hortonworks等发行版，还是应该像我之前描述的那样单独安装hadoop？与纯hadoop安装相比，使用发行版是否会使我的任务更容易，或者需要更多的知识来处理它们？最佳答案我也

hadoop 我可以 section Cloudera mapreduce cluster-computing bigdata

file - Hadoop - 在 HDFS 中手动拆分文件

我提交了一个大小为1GB的文件，我想将该文件拆分为大小为100MB的文件。我怎样才能从命令行做到这一点。我正在搜索如下命令:hadoopfs-split--bytes=100m/user/foo/one_gb_file.csv/user/foo/100_mb_file_1-11.csv有没有办法在HDFS中做到这一点？最佳答案在HDFS中，我们不能指望unix中可用的所有功能。当前版本的hadoopfs实用程序不提供此功能。也许我们可以期待future。您可以提出一个错误(apacheJira中的改进)以将此功能包含在hdfs中

Hadoop file section stackoverflow questions split hdfs

java - 为文件输入定义手动拆分算法

我是Spark和Hadoop生态系统的新手，并且已经爱上了它。现在，我正在尝试将现有的Java应用程序移植到Spark。此Java应用程序的结构如下:用BufferedReader一个一个地读取文件使用自定义解析器类对输入数据进行大量计算。每个输入文件的大小为1到最大2.5GB。将数据存储在内存中(在HashMap>>中)将内存数据存储写成JSON。这些JSON文件较小。我编写了一个Scala应用程序，它确实由一个工作人员处理我的文件，但这显然不是我可以从Spark中获得的最大性能优势。现在解决我将其移植到Spark的问题:输入文件是基于行的。我通常每行一条消息。但是，某些消息依赖于前

java 为 strong section 自定 scala hadoop apache-spark rdd

hadoop - 手动修复Hbase表重叠(多区域具有相同的启动键)

我是通过Java客户端将数据插入到Hbase中的。但是，区域服务器突然崩溃了。所以我重新启动了hbase，之后hmaster就不运行了。当我运行修复工具-hbaseorg.apache.hadoop.hbase.util.hbck.OfflineMetaRepair时，我得到了以下原因：ERROR:(regionTABLE_NAME,rowkey_value,region_name_1)Multipleregionshavethesamestartkey:rowkey_valueERROR:(regionTABLE_NAME,rowkey_value,region_name_2)Mul

hadoop Hbase namenode hdfs bigdata

hadoop - Hbase memstore 手动刷新

根据Hbase的设计，Hbase使用memstore来存储写入，最终当memstore达到大小限制时，它会将其刷新到HDFS。这个冲洗练习是在主题后面自动发生的。在我的例子中，我想做一个hdfs迁移，从一个集群迁移到另一个集群，我需要确保在我关闭源集群中的hbase进程之前内存中没有任何东西。无论如何我们可以手动强制刷新，即使memstore没有达到限制。==已添加问题==进一步的问题:你怎么知道flush完成了？通过指标？最佳答案在shell中你可以做flush'tableName'刷新内存库。但是如果你想通过hdfs备份/h

memstore hadoop section code tableName hbase hdfs

hadoop - 手动重新平衡 hadoop hdfs 磁盘后，DataNode 不会重启

我在40台机器的集群中使用Hadoophadoop-2.0.0-mr1-cdh4.1.2。每台机器有12个磁盘供hadoop使用。一台机器上的一些磁盘不平衡，我决定按照这篇文章中提到的手动重新平衡:rebalanceindividualdatanodeinhadoop我停止了该服务器上的DataNode，移动了block文件对，在一些磁盘之间移动了整个子目录。我一停止DataNode，NameNode就通过在UI中显示以下消息来提示缺少block:警告:缺少2002个block。请检查日志或运行fsck以确定丢失的block。然后，我尝试重启DataNode。它拒绝成功启动，并不断记录

hadoop DataNode block

hadoop - Hive 无法手动设置 reducer 的数量

我有以下配置单元查询:selectcount(distinctid)astotalfrommytable;自动生成:1408映射器1reducer我需要手动设置reducer的数量，我尝试了以下方法:setmapred.reduce.tasks=50sethive.exec.reducers.max=50但这些设置似乎都没有得到遵守。查询需要永远运行。有没有办法手动设置reducer或者重写查询以便产生更多的reducer？谢谢! 最佳答案像这样在配置单元中编写查询:SELECTCOUNT(DISTINCTid)....将始终只使

reducer hadoop section code mapreduce hive

104 105 106107108 109 110