草庐IT

独立显卡

全部标签

java - 如何编写可以使用 "hadoop -jar"运行的独立 YARN 应用程序?

我必须在Hadoop集群中运行一些无法用Map/Reduce表达的东西。我想到了为它编写一个YARN应用程序。我发现了SpringYarn对于spring-boot并遵循入门指南(请参阅链接)。到目前为止,这是有效的,但存在一些缺陷:在教程中生成了三个JAR(一个用于客户端,一个用于appmaster,一个用于容器),在提交应用程序时它们必须位于特定的文件夹结构中我必须在application.yml中对HDFSURI和资源管理器主机/端口进行硬编码,或者将它们作为命令行参数提供由于它是基于SpringBoot,应用程序是用java-jar启动的,所以创建的JAR文件非常大,里面基本上

maven - 使用 Local Runner 在独立模式下运行 Hadoop 2.4.0 作业的单元测试

在使用以前版本的Hadoop时,我通常会为整个作业(映射器和缩减器)构建junit测试,并通过调用maven或直接从IDE本身运行测试。系统上的任何地方都没有安装hadoop。我使用以下属性来确保使用本地进程内运行器:config.set("mapred.job.tracker","local");config.set("fs.default.name","file:///test-fs");这些测试运行成功。我升级到较新版本的Hadoop(2.4.0)以利用新的API。我希望能够像以前一样用我的单元做同样的事情。我现在使用的属性是:config.set("fs.default.nam

java - hbase 独立快速启动失败可通过 maven 项目重复

我必须向私有(private)hadoop集群启动一个hbase进程,并且需要简单地演示最低限度的功能;演示不需要安装hadoop。按照QuickStartapachehbase文档通过shell失败,我已经能够使用自包含的maven项目复制失败。/etc/hosts不是问题。我找到了一个maven项目,它似乎是为deomnstrate这个相同的功能而构建的,并更新了deps。该项目在这里:hbase-demo要重复我的结果需要shell和安装了maven的两行:gitclonehttps://github.com/jnorthrup/hbase-democdhbase-demo$mv

hadoop - 在独立的 Hadoop 2.5.1 之上安装 Hue

我试图让Hue在独立的Hadoop2.5.1(Ubuntu14.04)上运行,但在运行服务器时遇到了问题。我遵循了本教程:http://gethue.com/how-to-build-hue-on-ubuntu-14-04-trusty/.当尝试wgethttp://localhost:8000我得到:hduser@ip-172-31-11-6:~/hue$wgetlocalhost:8000--2014-11-0100:40:45--http://localhost:8000/Resolvinglocalhost(localhost)...127.0.0.1Connectingtol

java - 如何在没有 ConnectionRefused 异常的情况下以本地(独立)模式运行 Hadoop?

按照“Hadoop:设置单节点集群”教程(https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#YARN_on_Single_Node),我尝试在本地(独立)模式下运行Hadoop,但我收到了ConnectionRefused异常。当我尝试运行此命令时:bin/hadoopjarshare/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jargrepinputoutput'dfs[a-z.]+'我收到以下消息

hadoop - PIG 和 HIVE 可以称为独立的编程模型吗?

这个问题可能听起来很烦人,实际上可能与真正的编程没有任何关系。这是我与我的一位同事进行的一场小型辩论的衍生产品。他一直坚持认为HIVE和PIG可以称为单独的“编程模型”,因为当您在其中编写MapReduce作业时,您实际上不需要在MapReduce中思考-特别是如果您在HIVE中编程。从程序员的角度来看,MapReduce部分是完全抽象的。它完全类似于SQL。但我有点不同意,因为用这些语言编写的脚本最终最终会转换为多个mapreduce作业。因此,这些可以称为更高级别的编程语言来为同一模型编程。并且应该从等待处理的基础数据的角度而不是程序员的角度来看待编程模型这个词。你怎么看?

hadoop - 独立处理大量小文件

任务是独立处理大量(大约10,000,000)个小文件(每个大约1MB)(即处理文件F1的结果独立于处理F2的结果)。有人为我的任务建议使用Map-Reduce(在Amazon-EMRHadoop上)。但是,我对MR有严重的怀疑。原因是在我的案例中,处理文件是独立的。据我了解MR,当输出依赖于许多单独的文件(forexamplecountingthefrequencyofeachword,givenmanydocuments,因为一个词可能包含在输入文件的任何文档中)时,它的效果最好。但就我而言,我只需要很多独立的CPU/核心。我想知道您对此有何建议。旁注:还有一个问题是MR最适合“大

python - Spark 1.5.2 + Hadoop 2.6.2 spark-submit 和 pyspark 不使用独立的所有节点

我在独立模式下运行spark-submit或pyspark时遇到问题,如下所示:spark/bin/pyspark--masterspark://:这通常会使用所有节点(至少在以前的版本中)在UI中创建一个正在运行的Spark应用程序。出于某种原因,这样做只会在主节点上运行它,尽管UI显示所有节点都连接到主节点。从节点上的日志中没有错误。任何人都知道可能出了什么问题?作为引用,我的spark-env.sh具有以下配置:exportHADOOP_CONF_DIR=/mnt/hadoop/etc/hadoopexportSPARK_PUBLIC_DNS=exportSPARK_MASTER

hadoop - 如何使用 PIG 统计独立用户数

以下代码并没有准确返回我要计算的内容;唯一用户的数量。有什么想法吗?data=LOAD'input_initial'AS(user_id,item_id,rating,timestamp);data=FOREACHdataGENERATEuser_id,item_id;STOREdataINTO'input_final';data_users=FOREACHdataGENERATEuser_id;group_users=GROUPdata_usersBYuser_id;count_users=FOREACHgroup_usersGENERATECOUNT(data_users);STO

hadoop - 我在哪里运行 spark - 独立、Hadoop 或 Mesos

我正在学习Spark,但如果我必须在Hadoop/Yarn或Mesos上运行spark,我会感到困惑。如果我在Hadoop/Mesos上运行是否有任何性能提升?现在,我在4节点集群上独立运行。有经验的用户可以在这里提供一些指导吗? 最佳答案 根据您的用例的详细信息,您可能会发现与其他配置相比,任何给定配置的性能都有所起伏。然而,Hadoop和Mesos为您提供了除性能之外的其他优势。每种情况都有很多,例如:哈多普HDFS作为弹性分布式文件存储。使用Hadoop中现有的元数据访问数据集,例如通过HiveContext将Spark处理与