apache-karaf

scala - 使用 apache spark 自动运行任务

我是apachespark的新手，我正在尝试使用spark运行测试应用程序。我面临的问题是，当我使用要处理的数据集合创建RDD时，它会被创建但它不会开始处理它，除非我调用RDD类中存在的.collect方法.这样，我必须等待spark来处理RDD。有什么方法可以让spark在我形成RDD后立即自动处理集合，然后我可以随时调用.collect方法来获取处理后的数据，而不必等待spark？还有什么方法可以使用spark将处理后的数据放入数据库而不是返回给我？我使用的代码如下:objectappMainextendsApp{valspark=newSparkContext("local","

macos - Apache Sqoop 未在 Mac OS 中正确安装

我正在我的MAC操作系统中设置sqoop，发现sqoop帮助抛出-bash:commandnotfound问题。我将在此处简要介绍我所做的-设置Hadoop，运行相同并且它工作正常，为此我也在bash_profile中设置HADOOP_HOME设置HIVE并设置相同的HIVE_HOME首先对于ApacheSqoop，我对SqoopServer和Sqoopclient感到困惑，因为我在单节点集群(我的macbook)上工作，所以我只使用了ApacheSqooptarball的CDH5版本，解压相同的压缩包，然后设置SQOOP_HOME.bash_profile文件中的路径。然后我认为预期

Apache macos sqoop section 中设 hadoop

java - 如何在 Apache Mahout 中对数值数据进行分类？

我有一个格式为class,unigramcount,bigramcount,sentiment的数值数据集。我浏览了一些ApacheMahout文档，它们都是关于文本数据的。我知道我需要执行3个步骤来分类:转换为序列文件、向量化序列文件、将其传递给训练朴素贝叶斯分类器。但是我很难理解在Mahout中对文本数据集进行分类与对数值数据集进行分类之间的区别。在我的情况下我需要做些什么不同的事情？如果有任何帮助，我将不胜感激。最佳答案您可能知道，mahout不能使用文本数据来训练模型。如果您从数值数据集开始，分类会更容易，因为象夫处理的

何在 Apache section 贝叶朴素 java hadoop machine-learning classification mahout

hadoop - java.lang.ClassCastException : org. apache.hadoop.hbase.client.Result 无法转换为 org.apache.hadoop.hbase.client.Mutation

将值从一个hbase表转移到另一个时出错INFOmapreduce.Job:TaskId:attempt_1410946588060_0019_r_000000_2,Status:FAILEDError:java.lang.ClassCastException:org.apache.hadoop.hbase.client.Resultcannotbecasttoorg.apache.hadoop.hbase.client.Mutationatorg.apache.hadoop.hbase.mapreduce.TableOutputFormat$TableRecordWriter.wri

hadoop apache java mapreduce hbase

apache - Accumulo -- 添加一个新节点

我正在努力学习Accumulo。但我有几个问题无法直接找到:首先，我们能否在不停机的情况下向现有的Accumulo系统添加新服务器？如果是，则新节点将由master安排其共享(DB数据)；正确的？由于它具有故障恢复功能，我相信这将是自动的。我们能否定义复制的数量或整个数据与某个故障恢复系统共享？如何了解复制和数据分发过程的详细信息？非常感谢:) 最佳答案是的，您可以随时动态添加/删除工作节点。他们只需要为他们提供相同的配置选项，以便他们可以加入集群(共享key、zookeeperquorum等...基本上，与您使用的相同的accu

Accumulo apache section stackoverflow hadoop bigtable

java - 在 org.apache.hadoop.util.ReflectionUtils.setJobConf 配置对象时出错

关于此错误，我遇到了很多问题，但找不到任何可以解决我的问题的解决方案。在这里，我正在使用Hadoop对Twitter数据实现情绪分析。主类:publicclassSentimentAnalysisextendsConfiguredimplementsTool{privatestaticFilefile;publicstaticclassMapextendsMapReduceBaseimplementsMapper{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();Classifycl

时出 ReflectionUtils java hadoop ubuntu mapreduce runtimeexception

apache - 如何配置 Apache Flume 1.4.0 从 Twitter 获取数据并放入 HDFS(Apache Hadoop 2.5 版)？

我使用的是Ubuntu14.04我的配置文件如下:TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.TwitterSourceTwitterAgent.sources.Twitter.channels=MemChannelTwitterAgent.sources.Twitter.consumerKey=Q5JF4gVmrahNk93C913GjgJgBT

Apache 放入 java TwitterAgent hadoop twitter hdfs flume

java - 使用 Apache Lucene 进行搜索优化

我正在开展一个项目，使用ApacheLucene对Twitter数据实现大规模索引以优化搜索。Lucene提供了倒排索引来过滤掉符合指定选择条件的block。要实现这个项目，我应该怎么做-我应该安装Cloudera虚拟机并继续吗？还是应该在Ubuntu平台上从Apache部署Hadoop？我问这个的原因是因为我无法确认Cloudera是否已经使用Lucene来优化搜索。请指教。最佳答案 Cloudera为您提供用于自动安装和集群管理的debian软件包和软件。而已。Hadoop堆栈中没有关于搜索(及其优化)的内容。因此，您可以为项

Apache Lucene section Cloudera java hadoop

hadoop - Apache Mesos 从站无法连接到主站

我一直在尝试设置apachemesos，有两台机器，一台作为从机，另一台作为主机和从机。为此，我一直在使用mesosphere包。master机器(james-pc)上的slave连接正常，但另一台机器上的slave似乎连接不上。在下方记录消息。这些是样本。时间戳可能不匹配。我运行了相同的命令并大量阅读了og文件:(谢谢!!奴隶I101513:44:40.09845816485main.cpp:126]Build:2014-09-2305:36:09byrootI101513:44:40.09852016485main.cpp:128]Version:0.20.1I101513:44:

hadoop Apache I1015 1015 slave apache-spark mesos mesosphere

java - 如何允许 apache hive 处理多个客户端查询

我已经通过hive从hbase创建了一个外部表。当有人登录到shell并部署一些查询时，没有其他人可以运行任何查询。当有人尝试运行查询时，会出现以下错误。失败:元数据错误:java.lang.RuntimeException:无法实例化org.apache.hadoop.hive.metastore.HiveMetaStoreClient失败:执行错误，从org.apache.hadoop.hive.ql.exec.DDLTask返回代码1当第一个shell退出时，查询可以很容易地运行。所以这意味着我的配置单元a无法处理多个客户端。如何使其能够处理多个客户端

apache java section strong hadoop client-server hive

319 320 321322323 324 325