Hadoop2

java - 如何在 Hadoop 上的 OpenNLP 中训练意大利语模型？

我想在Hadoop上为意大利语实现一个自然语言处理算法我有两个问题；如何找到意大利语的词干提取算法？如何集成到hadoop中？这是我的代码StringpathSent=...taggedsentences...;StringpathChunk=....chunkedtrainpath....;FilefileSent=newFile(pathSent);FilefileChunk=newFile(pathChunk);InputStreaminSent=null;InputStreaminChunk=null;inSent=newFileInputStream(fileSent);in

意大利语利语 new 34 section java hadoop nlp opennlp linguistics

hadoop - 无法在 WebHdfs 中创建目录或文件

HortonworksSandbox文件浏览器显示WebHdfsException，并且在CLI中我无法创建目录或文件。怎么了？WebHdfsExceptionat/filebrowser/RequestMethod:GETRequestURL:http://127.0.0.1:8000/filebrowser/DjangoVersion:1.2.3ExceptionType:WebHdfsExceptionExceptionValue:异常位置:/usr/lib/hue/desktop/libs/hadoop/src/hadoop/fs/webhdfs.pyin_stats,line

WebHdfs hadoop lib site-packages 39 hdfs hortonworks-data-platform

hadoop - Hiveserver2 未启动

我已经在CentOS5.8上安装了Hadoop和Hive。Hadoop工作正常，但我无法启动hiveserver2。运行命令$HIVE_HOME/bin/hiveserver2没有输出。我也检查过，没有进程在监听默认端口10000。可能的原因是什么？最佳答案问题是我的名称节点进入了安全模式。关闭安全模式解决了这个问题。关于hadoop-Hiveserver2未启动，我们在StackOverflow上找到一个类似的问题： https://stackover

Hiveserver2 Hiveserver section stackoverflow hadoop hive

hadoop - 并行 hadoop 作业不会通过

我正在运行一个本地hadoop集群并尝试同时提交两个作业，但我的第一个作业通过了，第二个没有，并且一直处于未分配状态，直到第一个作业完成。我预感内存有问题，但我不太明白。这是我为容器、映射器、reduce、jvm等设置的值。yarn.nodemanager.resource.memory-mb=40960yarn.scheduler.minimum-allocation-mb=4096yarn.scheduler.maximum-allocation-mb=10240mapreduce.map.java.opts=-Xmx5120mmapreduce.reduce.java.opts=

hadoop 并行 section mapreduce scheduler hadoop2

hadoop - 我的资源管理器没有开放端口 8032 是什么意思？

我的YARN资源管理器与我的名称节点在不同的节点上，我可以看到某事正在运行，我认为它是资源管理器。绑定(bind)了端口8031和8030，但未绑定(bind)我的客户端尝试连接的端口8032。我是CDH5.3.1，下面是lsof-i的部分输出java12478yarn230uIPv4613250t0TCPhadoop2.adastragrp.com:48797->hadoop2.adastragrp.com:8031(ESTABLISHED)java13753yarn159uIPv4613020t0TCPhadoop2.adastragrp.com:8031(LISTEN)java1

hadoop 8032 adastragrp section hadoop-yarn cloudera-cdh

java - Reduce 任务被 Hadoop 多节点 (10x) 集群中的太多获取失败消息停止

我将Hadoop1.0.3用于一个10桌面集群系统，每个系统都有Ubuntu12.04LTS32位操作系统。JDK是7u75。每台机器有2GBRAM和core2-duo处理器。对于一个研究项目，我需要运行一个类似于“字数统计”的hadoop作业。我需要对大量数据集运行此操作，例如至少1GB的大小。我正在尝试使用hadoop的示例jarhadoop-examples-1.0.3.jar来计算输入数据集的单词数。不幸的是，我无法运行任何输入数据超过5-6MB的实验。对于输入，我使用来自https://www.gutenberg.org的纯文本共振峰故事书.我还使用了来自https://ww

Reduce Hadoop gt lt property java linux ubuntu distributed

maven - 使用 Maven 编译 Hadoop 需要运行 surefire 测试？

我正在尝试使用Java7使用maven3.1.1在ubuntu14上编译Hadoop2.6.0>因为我想实现一个新的调度程序。我在stackoverflow上找到了ThomasJungblut的答案，建议跳过surefire测试(mvnpackage-DskipTests)并且有效。我的问题是跳过测试是否有缺点。这是测试的错误:"Failedtoexecutegoalorg.apache.maven.plugins:maven-surefire-plugin:2.16:test(default-test)onprojecthadoop-common:Therearetestfailur

surefire Hadoop section code stackoverflow maven

hadoop - Inputsplit、RecordReader & Map 实例和 Mapper 之间的数据流

如果我有一个包含1000行的数据文件......并且我在我的字数统计程序的map方法中使用了TextInputFormat。因此，数据文件中的每一行都将被视为一个拆分。RecordReader会将每一行(或拆分)作为(Key,Value)对提供给map()方法。根据我的理解..1000次map()方法应该为每一行或记录执行。表示将运行多少个Mappers？抱歉，在这里混淆了。map()方法只是mapper的一个实例，对吧。那么每个Mapper任务有多少个map实例是根据什么决定的？？？注意:当我为1000行数据执行WordCountMapReduce程序时。我看到Mappers的数量为

RecordReader Inputsplit code 射器 section hadoop mapreduce

azure - Hadoop 与 MSSQL 报告的可能性

我一直在azureHDInsight上评估Hadoop，以便为我们的报告应用程序找到大数据解决方案。此技术评估的关键部分是我需要与MSSQLReportingServices集成，因为这是我们的应用程序已经使用的。我们的开发人员资源非常短缺，所以我越能将其纳入工程实践中越好。到目前为止我尝试了什么使用从MSSQL映射到HDInsight上的Hive的ODBC连接。在HDInsight上使用HBASE从MSSQL使用ODBC连接。在AzureHDInsight远程桌面上本地使用SPARKQL我发现HBASE和Hive在我们的报告中使用起来要慢得多。对于测试数据，我使用了一个60k行的表，

Hadoop azure section HDInsight hive hbase azure-hdinsight

java - getstrings方法hadoop中的空指针异常

在Driver类conf.getstrings()方法中获取Null指针异常。这个驱动程序类是从我的自定义网站调用的。下面是Driver类的详细信息@SuppressWarnings("unchecked")publicvoiddoGet(HttpServletRequestrequest,HttpServletResponseresponse)throwsServletException,IOException{Configurationconf=newConfiguration();//conf.set("fs.default.name","hdfs://localhost:543

getstrings hadoop 34 job conf java mapreduce

147 148 149150151 152 153