some-program_草庐IT

python - Spark : pyspark crash for some datasets - ubuntu

我正在使用Ubuntu和本地Spark安装(spark-2.0.2)。我的数据集很小，我的代码运行在我有一个小数据。如果我用更多行增加数据集(txt文件)，则会发生错误。我在安装了Hadoop的ClouderaVM上尝试了完全相同的代码，并且运行良好。所以，这一定是我的Ubuntu机器上的一些内存问题或限制。还有一些其他类似的问题，例如:ApacheSpark:pysparkcrashforlargedataset但在我的情况下它没有帮助。我没有Hadoop集群，只有Spark、python2.7和java1.8。它工作正常，只是当有一些更复杂的计算或数据集更大时它崩溃了。有什么线索吗

shell - 将目录传递给 hadoop streaming : some help needed

上下文是我正在尝试在AmazonEMR(WebUI)上使用我运行的bash脚本运行流式作业:-inputs3://emrdata/test_data/input-outputs3://emrdata/test_data/output-mappers3://emrdata/test_data/scripts/mapperScript.sh-reducerNONE输入目录中有子目录，这些子目录中有gzip数据文件。mapperScript.sh失败的相关部分是:forfilenamein"$input"/*;dodir_name=`dirname$filename`fname=`basen

streaming 传递子目子目录 section shell hadoop amazon emr

functional-programming - 原始函数式语言中的 MapReduce 的可扩展性如何？

Map-Reduce编程模型源于map和reduce函数，这些函数存在于函数式语言(如Lisp和Scheme)中可以追溯到很多年前。我记得大学时(90年代初)，甚至在那时我就被告知Map-Reduce在可扩展性方面具有优势。目前我们都知道Hadoop及其从Google复制而来的原始版本。我想知道的是，“旧”函数式语言中存在哪些选项可以在至少几个计算节点上执行Map-Reduce？或者这是那些在纸面上看起来不错但在Google做到之前没有人真正开始构建的功能之一？最佳答案 Map/Reduce是dataparallelism的特例.

functional-programming 言中 noreferrer noopener nofollow hadoop scalability mapreduce parallel-processing

java - 通过 Java Program 传递 Hadoop 程序命令

任何人都可以让我知道是否有任何方法可以将hadoop命令从java程序传递到hdfs(例如:创建删除目录和文件“hadoopfs-mkdir/test”)？我正在尝试通过java程序在hdfs中创建和删除目录和文件。还有什么方法可以通过java程序检查hdfs中文件/目录的大小。我正在尝试检查hdfs中目录的大小，如果大小为0，那么我想删除该文件。我需要通过java程序来完成所有这些事情。请帮忙。最佳答案看FileSystem，它允许您创建、删除文件等。创建文件并打印其大小的简单类:importorg.apache.hadoop

传递 Program hadoop section apache java mapreduce hdfs bigdata

hadoop - 以编程方式读取 Hadoop Mapreduce Program 的输出

这可能是一个基本问题，但我无法在Google上找到答案。我有一个map-reduce作业，它在其输出目录中创建多个输出文件。我的Java应用程序在远程hadoop集群上执行此作业，作业完成后，它需要使用org.apache.hadoop.fs.FileSystemAPI以编程方式读取输出。可能吗？应用程序知道输出目录，但不知道map-reduce作业生成的输出文件的名称。似乎没有办法以编程方式列出hadoop文件系统API中目录的内容。如何读取输出文件？这似乎是一个司空见惯的场景，我相信它有一个解决方案。但我遗漏了一些非常明显的东西。最佳答案

Mapreduce Program section SequenceFile IntWritable hadoop hdfs

Hadoop java.io.IOException : Mkdirs failed to create/some/path 异常

当我尝试运行我的作业时，出现以下异常:Exceptioninthread"main"java.io.IOException:Mkdirsfailedtocreate/some/pathatorg.apache.hadoop.util.RunJar.ensureDirectory(RunJar.java:106)atorg.apache.hadoop.util.RunJar.main(RunJar.java:150)其中/some/path是hadoop.tmp.dir。但是，当我在/some/path上发出dfs-lscmd时，我可以看到它存在并且数据集文件存在(在午餐工作之前复制)。

IOException Hadoop section code hdfs

sorting - Map Reduce Programming中reducer中洗牌和排序阶段的目的是什么？

在MapReduce编程中，reduce阶段有洗牌、排序和reduce作为其子部分。排序是一项代价高昂的事情。在MapReduce编程中，reducer中的洗牌和排序阶段的目的是什么？最佳答案首先shuffling是将数据从mappers传输到reducers的过程，所以我认为这对reducers来说是必要的，否则他们将无法有任何输入(或来自每个映射器的输入)。洗牌甚至可以在映射阶段完成之前开始，以节省一些时间。这就是为什么本地图状态尚未达到100%时，您会看到减少状态大于0%(但小于33%)的原因。排序为reducer节省时间

牌和 Programming section reduce code sorting hadoop mapreduce hdfs shuffle

php - 应该 require_once "some file.php"；出现在文件顶部以外的任何地方？

以下示例是否适合PHP的require_once构造？functionfoo($param){require_once"my_file.php";////dosomethinghere}还是只在文件开头有require_once结构更合适？即使被包含的文件只在函数的上下文中有用，为了可读性和可维护性，将include放在顶部不是更好吗？最佳答案这归结为编码风格和观点的问题。就我个人而言，我将所有的require_once语句都放在我的文件的最顶部，这样我就可以很容易地看到哪些文件被包含在什么地方，没有什么比一些埋藏的includ

何地 require_once section require php

Jenkins 的 PHP 构建失败，出现 'Cannot run program "phploc"'

尝试运行我的构建脚本时出现以下错误。/var/lib/jenkins/jobs/IPS(trunk)/workspace/build.xml:62:Executefailed:java.io.IOException:Cannotrunprogram"phploc":java.io.IOException:error=2,Nosuchfileordirectory我尝试切换到jenkins用户并且能够顺利运行脚本。我还检查了$PATH并尝试重新安装。运气不好!CentOS5/6PHP5.4(Zend服务器)Jenkins1.477PHPQA组件(最新) 最佳答

amp Jenkins code section li php continuous-integration centos

php - 'echo' or drop out of 'programming' write HTML then start PHP code again

在大多数情况下，当我想显示一些要实际呈现的HTML代码时，我会使用“关闭PHP”标记，编写HTML，然后再次打开PHP。例如HTMLthatIwantdisplayed但我见过很多人只会使用echo来代替，所以他们会像上面那样做HTMLthatIwantdisplayed");//morephpcode?>他们会因为这样的退出和返回而影响性能吗？我假设不会，因为PHP引擎必须以任何一种方式处理整个文件。当你以一种看起来不像函数的方式使用echo函数时会怎样，例如echo"HTMLthatIwantdisplayed"我希望这纯粹是个人喜好问题，但我想知道我是否遗漏了什么。我个人认为第一

amp 39 section code HTML php performance echo