草庐IT

help-system

全部标签

hadoop - 查询预处理 : Hadoop or distributed system

我正在尝试通过预处理所有结果来优化搜索引擎的性能。我们有大约5万个搜索词。我计划事先搜索这50k个术语并将其保存在内存中(memcached/redis)。在我的案例中,搜索所有50k术语需要一天多的时间,因为我们进行了深度语义搜索。所以我计划将搜索(预处理)分布在多个节点上。我正在考虑使用hadoop。我的输入尺寸非常小。即使总搜索词超过50k,也可能不到1MB。但是搜索每个术语都会占用一分钟时间,即更多的是面向计算而不是面向数据。所以我在想是该用Hadoop还是自己搭建分布式系统。我记得读过hadoop主要是在输入非常大的情况下使用。请建议我如何去做。我读到hadoop以block

hadoop - reducer 类不能启动吗?在 reducer 日志中看不到 System.out.println 语句

我有一个驱动程序类、映射器类和reducer类。mapreduce作业运行良好。但是期望的结果并没有出现。我已将System.out.println语句放入reducer中。我查看了mapper和reducer的日志。我放在映射器中的System.out.println语句可以在日志中看到,但在日志中看不到reducer中的println语句。reducer有没有可能根本就没有启动?这是来自reducer的日志。 最佳答案 我假设这个问题是基于你之前问题中的代码:mapreducecompositeKeysample-doesn't

java - 使用 Windows 10 和命令行 : ERROR the system cannot find the file hadoop 启动 Hadoop 2.7.1

我正在尝试使用命令行在我的计算机(Windows10)上安装和启动Hadoop2.7.1,为此我遵循了来自不同网站的步骤。我配置了系统变量和Hadoop(编辑etc文件夹中的一些文件:Hadoop-env.cmd、core-site.xml、mapred-site.xml,yarn-site.xml,hdfs-site.xml)并下载一个新的bin文件夹。我目前正在尝试启动Hadoop,并且已成功执行命令hdfsnamenode-format。但是,当在命令提示符下指向sbin文件夹并尝试执行start-dfs.cmd时,我收到一条错误消息:系统找不到文件hadoop.任何人都知道我应

java - Hadoop Library导入但无法在File System中设置 "get"方法

我正在尝试设置对HDFS的调用以使用文件系统从中获取文件:FileSystemfs=newFileSystem.get(newURI.create(uri),conf);但我还是遇到了这两个错误,所以我调用了所有的库Error:(46,39)java:cannotfindsymbolsymbol:classgetlocation:classorg.apache.hadoop.fs.FileSystemError:(46,47)java:cannotfindsymbolsymbol:methodcreate(java.lang.String)location:classorg.apach

linux - Hadoop HDFS : DateNode directory on system partition?

我们用这种方式设置的Hadoop集群空间不足:1x1TBHDD/3个1.5TBHDD/data1/data2/data3系统分区几乎不用(97%空闲),不会用于与hadoop无关的任务。将系统分区作为HDFS数据目录添加到DataNode配置中是否安全?我担心Hadoop会填满分区并使系统无法使用。最好的方法可能是设置单独的lvm卷或重新分区磁盘。但我会避免走这条路。hadoop是否遵守unix配额?例如。如果我从系统分区添加一个目录并通过配额限制hadoop用户只能使用例如0.5TB会有帮助吗? 最佳答案 是的,Hadoop使用通

java - 亚马逊电子病历 : Passing java system property to custom jar

AmazonEMR是否允许将系统属性传递给自定义jar,例如hadoopjar-Dkey=valuemyjob.jar?(上面的key,value在应用程序本身的初始化期间使用,而不是属于hadoop的Configuration对象。)相关话题Howtospecifymapredconfigurations&javaoptionswithcustomjarinCLIusingAmazon'sEMR?讨论了仅通过引导操作将系统属性传递给hadoop守护进程的方法,显然,这不允许对java入口点类执行相同的操作。 最佳答案 如果您不想将

java - 如何让 system.out.println() 在 hadoop 中工作

我正在尝试在hadoop中进行调试。我想使用System.out.println()将一些变量打印到终端,但没有任何内容输出到终端。我检查了下的作业历史记录/日志http://serverurl:19888/jobhistory/app但那里仍然只有INFO,没有println()。此外,我修改了log4j.properties,改了hadoop.root.logger=INFO,console到hadoop.root.logger=ALL,console但还是不行。有人有什么想法吗?非常感谢。 最佳答案 为什么不定义一个记录器并通

java - 在 Reducer 中使用 System.setProperty()

我正在尝试在我的Reducer中设置一个Java系统属性java.util.Arrays.useLegacyMergeSort,以强制系统使用JDK6实现的Arrays.sort方法,而不是JDK8。packagescoring.devicestatus;importjava.io.IOException;importjava.text.SimpleDateFormat;importjava.util.ArrayList;importjava.util.Collections;importjava.util.Date;importjava.util.LinkedHashMap;impo

java - 在 Hadoop 上运行 MapReduce 字数统计会给出异常消息 : The system cannot find the path specified

这是我的第一个StackOverflow问题。我已经在伪分布式模式下设置了我的hadoop(2.9.2)单节点集群。当我尝试运行hadoopjarC:/MapReduceClient.jarwordcount/input_dir/output_dir时,我得到以下错误日志19/01/1620:19:17INFOclient.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:803219/01/1620:19:18INFOinput.FileInputFormat:Totalinputfilestoprocess:119/01/1620:19:1

hadoop - org.apache.hadoop.security.AccessControlException : Permission denied: user=test-user, access=EXECUTE, inode ="system":hadoop:test-user:rwx------

以前测试用户曾经驻留在连接丢失的边缘服务器上。因此,我们重建了边缘服务器并一直在尝试启动并运行它,但我一直收到以下错误。Jobinitializationfailed:org.apache.hadoop.security.AccessControlException:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=test-user,access=EXECUTE,inode="system":hadoop:test-user:rwx------atsun.reflect.GeneratedC