草庐IT

独立团

全部标签

hadoop - 在独立的 Hadoop 2.5.1 之上安装 Hue

我试图让Hue在独立的Hadoop2.5.1(Ubuntu14.04)上运行,但在运行服务器时遇到了问题。我遵循了本教程:http://gethue.com/how-to-build-hue-on-ubuntu-14-04-trusty/.当尝试wgethttp://localhost:8000我得到:hduser@ip-172-31-11-6:~/hue$wgetlocalhost:8000--2014-11-0100:40:45--http://localhost:8000/Resolvinglocalhost(localhost)...127.0.0.1Connectingtol

java - 如何在没有 ConnectionRefused 异常的情况下以本地(独立)模式运行 Hadoop?

按照“Hadoop:设置单节点集群”教程(https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#YARN_on_Single_Node),我尝试在本地(独立)模式下运行Hadoop,但我收到了ConnectionRefused异常。当我尝试运行此命令时:bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jargrepinputoutput'dfs[a-z.]+'我收到以下消息

hadoop - PIG 和 HIVE 可以称为独立的编程模型吗?

这个问题可能听起来很烦人,实际上可能与真正的编程没有任何关系。这是我与我的一位同事进行的一场小型辩论的衍生产品。他一直坚持认为HIVE和PIG可以称为单独的“编程模型”,因为当您在其中编写MapReduce作业时,您实际上不需要在MapReduce中思考-特别是如果您在HIVE中编程。从程序员的角度来看,MapReduce部分是完全抽象的。它完全类似于SQL。但我有点不同意,因为用这些语言编写的脚本最终最终会转换为多个mapreduce作业。因此,这些可以称为更高级别的编程语言来为同一模型编程。并且应该从等待处理的基础数据的角度而不是程序员的角度来看待编程模型这个词。你怎么看?

hadoop - 独立处理大量小文件

任务是独立处理大量(大约10,000,000)个小文件(每个大约1MB)(即处理文件F1的结果独立于处理F2的结果)。有人为我的任务建议使用Map-Reduce(在Amazon-EMRHadoop上)。但是,我对MR有严重的怀疑。原因是在我的案例中,处理文件是独立的。据我了解MR,当输出依赖于许多单独的文件(forexamplecountingthefrequencyofeachword,givenmanydocuments,因为一个词可能包含在输入文件的任何文档中)时,它的效果最好。但就我而言,我只需要很多独立的CPU/核心。我想知道您对此有何建议。旁注:还有一个问题是MR最适合“大

python - Spark 1.5.2 + Hadoop 2.6.2 spark-submit 和 pyspark 不使用独立的所有节点

我在独立模式下运行spark-submit或pyspark时遇到问题,如下所示:spark/bin/pyspark--masterspark://:这通常会使用所有节点(至少在以前的版本中)在UI中创建一个正在运行的Spark应用程序。出于某种原因,这样做只会在主节点上运行它,尽管UI显示所有节点都连接到主节点。从节点上的日志中没有错误。任何人都知道可能出了什么问题?作为引用,我的spark-env.sh具有以下配置:exportHADOOP_CONF_DIR=/mnt/hadoop/etc/hadoopexportSPARK_PUBLIC_DNS=exportSPARK_MASTER

hadoop - 如何使用 PIG 统计独立用户数

以下代码并没有准确返回我要计算的内容;唯一用户的数量。有什么想法吗?data=LOAD'input_initial'AS(user_id,item_id,rating,timestamp);data=FOREACHdataGENERATEuser_id,item_id;STOREdataINTO'input_final';data_users=FOREACHdataGENERATEuser_id;group_users=GROUPdata_usersBYuser_id;count_users=FOREACHgroup_usersGENERATECOUNT(data_users);STO

hadoop - 我在哪里运行 spark - 独立、Hadoop 或 Mesos

我正在学习Spark,但如果我必须在Hadoop/Yarn或Mesos上运行spark,我会感到困惑。如果我在Hadoop/Mesos上运行是否有任何性能提升?现在,我在4节点集群上独立运行。有经验的用户可以在这里提供一些指导吗? 最佳答案 根据您的用例的详细信息,您可能会发现与其他配置相比,任何给定配置的性能都有所起伏。然而,Hadoop和Mesos为您提供了除性能之外的其他优势。每种情况都有很多,例如:哈多普HDFS作为弹性分布式文件存储。使用Hadoop中现有的元数据访问数据集,例如通过HiveContext将Spark处理与

java - 在独立的 Java 应用程序中使用 Spring 3 Autowiring

这是我的代码:publicclassMain{publicstaticvoidmain(String[]args){Mainp=newMain();p.start(args);}@AutowiredprivateMyBeanmyBean;privatevoidstart(String[]args){ApplicationContextcontext=newClassPathXmlApplicationContext("META-INF/config.xml");System.out.println("mybeansmethod:"+myBean.getStr());}}@Service

java - 在独立的 Java 应用程序中使用 Spring 3 Autowiring

这是我的代码:publicclassMain{publicstaticvoidmain(String[]args){Mainp=newMain();p.start(args);}@AutowiredprivateMyBeanmyBean;privatevoidstart(String[]args){ApplicationContextcontext=newClassPathXmlApplicationContext("META-INF/config.xml");System.out.println("mybeansmethod:"+myBean.getStr());}}@Service

hadoop - 如何在独立的 hadoop 设置(伪分布式)上启动多个数据节点进程

我是Hadoop新手。我在运行Ubuntu13.03的单个VM上配置了独立的hadoop设置。使用start-all.sh启动hadoop进程后,jps命令显示775DataNode1053JobTracker962SecondaryNameNode1365Jps1246TaskTracker590NameNode据我了解,Hadoop从1个名称节点和1个数据节点开始。我想创建多个数据节点进程,即数据节点的多个实例。有什么办法可以做到吗? 最佳答案 如何安装和配置Hadoop有多种可能性。本地(独立)模式-这意味着所有Hadoop组