草庐IT

mini-program-iconfont-cli

全部标签

functional-programming - 原始函数式语言中的 MapReduce 的可扩展性如何?

Map-Reduce编程模型源于map和reduce函数,这些函数存在于函数式语言(如Lisp和Scheme)中可以追溯到很多年前。我记得大学时(90年代初),甚至在那时我就被告知Map-Reduce在可扩展性方面具有优势。目前我们都知道Hadoop及其从Google复制而来的原始版本。我想知道的是,“旧”函数式语言中存在哪些选项可以在至少几个计算节点上执行Map-Reduce?或者这是那些在纸面上看起来不错但在Google做到之前没有人真正开始构建的功能之一? 最佳答案 Map/Reduce是dataparallelism的特例.

django - 启动 Hue Server,CLI 显示 8000,配置显示 8888,实际上是 : Nothing

我已经启动了一个在EC2实例上运行的Hue服务器,该实例具有HDFS的伪分布式设置。当我启动服务器时,CLI指出服务器正在localhost:8000上运行:0errorsfoundDjangoversion1.6.10,usingsettings'desktop.settings'Startingdevelopmentserverathttp://127.0.0.1:8000/QuittheserverwithCONTROL-C.但是,配置告诉它在localhost:8888上启动:###hue.inisample#Webserverlistensonthisaddressandpo

hadoop - 为什么通过 Hive CLI 提交的查询不会显示在 ResourceManager 中,但通过 Hue Beeswax 界面提交的查询会显示?

我有一个运行Yarn框架的ClouderaHadoop安装(CDH4),我也安装了Hue。我注意到,当我通过Hue(Beeswax)界面提交Hive查询时,生成的mapreduce作业会显示在资源管理器WebUI以及Hue“作业浏览器”界面中。但是,如果我在任何节点上运行hivecli应用程序并从那里运行相同的查询,它似乎不会命中任何节点管理器,尽管它确实返回了正确的结果。我能想到的唯一区别是,Hue作业以我登录Hue的用户身份运行,而hivecli作业以启动hivecli的用户身份运行,这是一个不同的用户。我希望通过配置单元CLI提交的查询显示在资源管理器中。他们有什么理由不这样吗?

hadoop - HbaseTestingUtility : could not start my mini-cluster

我正在尝试使用HbaseTestingUtility测试我的Hbase代码。每次我使用下面的代码片段启动我的迷你集群时,我都会遇到异常。publicvoidstartCluster(){FileworkingDirectory=newFile("./");Configurationconf=newConfiguration();System.setProperty("test.build.data",workingDirectory.getAbsolutePath());conf.set("test.build.data",newFile(workingDirectory,"zooke

azure - 通过 Web UI 或跨平台 CLI 创建示例 Azure Hadoop 作业?

我正在尝试使用HDInsight在Azure上使用Hadoop,但对如何在我新创建的集群上运行Hadoop作业感到有点困惑。到目前为止,我已经创建了一个HDInsight群集并为其附加了一个存储帐户。我还在我的本地OSX机器上安装了azure-cli。有一个AzuretutorialonlaunchingHadoopjobs,但它使用PowerShell,我认为它不能通过Azurecross-platformCLI获得.除了启动WindowsVirtualBox之外,是否可以通过AzureWebUI(例如像AmazonEMR提供的那样)或通过一些其他与OSX兼容的命令行参数来创建作业?

java - 通过 Java Program 传递 Hadoop 程序命令

任何人都可以让我知道是否有任何方法可以将hadoop命令从java程序传递到hdfs(例如:创建删除目录和文件“hadoopfs-mkdir/test”)?我正在尝试通过java程序在hdfs中创建和删除目录和文件。还有什么方法可以通过java程序检查hdfs中文件/目录的大小。我正在尝试检查hdfs中目录的大小,如果大小为0,那么我想删除该文件。我需要通过java程序来完成所有这些事情。请帮忙。 最佳答案 看FileSystem,它允许您创建、删除文件等。创建文件并打印其大小的简单类:importorg.apache.hadoop

hadoop - 如何在配置单元 cli/beeline 中将 textinputformat.record.delimiter 重置为其默认值?

将textinputformat.record.delimiter设置为非默认值,对于加载多行文本很有用,如下面的演示所示。但是,我无法在不退出cli并重新打开它的情况下将此参数设置回其默认值。以下选项均无效(其他一些试验也无效)settextinputformat.record.delimiter='\n';settextinputformat.record.delimiter='\r';settextinputformat.record.delimiter='\r\n';settextinputformat.record.delimiter='';reset;有什么想法吗?谢谢演示

java - Hadoop NoSuchMethodError apache.commons.cli

我正在使用hadoop-2.7.2,我用IntelliJ做了一个MapReduceJob。在我的工作中,我正在使用apache.commons.cli-1.3.1并将lib放入jar中。当我在我的Hadoop集群上使用MapReduceJob时,我有一个NoSuchMethodError:Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.commons.cli.Option.builder(Ljava/lang/String;)Lorg/apache/commons/cli/Option$Builder;我不明白

java - 如何使用亚马逊的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项?

我想知道如何在使用自定义jar运行流作业时指定mapreduce配置,例如ma​​pred.task.timeout、mapred.min.split.size等。当我们使用外部脚本语言如ruby或python运行时,我们可以使用以下方式来指定这些配置:rubyelastic-mapreduce-j--stream--step-name"mystream"--jobconfmapred.task.timeout=0--jobconfmapred.min.split.size=52880--mappers3://somepath/mapper.rb--reducers3:somepath

hadoop - 以编程方式读取 Hadoop Mapreduce Program 的输出

这可能是一个基本问题,但我无法在Google上找到答案。我有一个map-reduce作业,它在其输出目录中创建多个输出文件。我的Java应用程序在远程hadoop集群上执行此作业,作业完成后,它需要使用org.apache.hadoop.fs.FileSystemAPI以编程方式读取输出。可能吗?应用程序知道输出目录,但不知道map-reduce作业生成的输出文件的名称。似乎没有办法以编程方式列出hadoop文件系统API中目录的内容。如何读取输出文件?这似乎是一个司空见惯的场景,我相信它有一个解决方案。但我遗漏了一些非常明显的东西。 最佳答案