apache-spark-2.3

hadoop - 是否有相当于 "SHOW TABLES"的 apache pig？

我有一个要在Pig中访问的Hadoop数据存储，但没有很多关于它的文档，而且我是Pig的新手，所以我正在寻找与“SHOWTABLES”等效的Pig。当我连接到MySQL数据库时，我可以执行此操作并大致了解其中的数据；我找到了几个教程，但没有任何内容。如果不是，是否有其他方法可以让我自己定位到我一无所知的Hadoop数据存储？预计到达时间:这将是在交互模式下运行Pig时，而不是加载脚本。可能很明显，但我想我应该提一下。最佳答案我能看到的最接近“显示表”的是“历史”命令，它有效地列出了所有创建的别名。grunt>history1a=

amp 相当 section double stackoverflow hadoop apache-pig

hadoop - 线程 "main"java.lang.NoClassDefFoundError : org/apache/hadoop/util/Tool 中的异常

Igetbelowerrorwhenipackage(jar)andrunmydefaulthadoopjob.Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/util/Toolatjava.lang.ClassLoader.defineClass1(NativeMethod)atjava.lang.ClassLoader.defineClassCond(ClassLoader.java:631)atjava.lang.ClassLoader.defineClass(ClassLoader.

hadoop NoClassDefFoundError java URLClassLoader ClassLoader mapreduce

scala - 用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 或 HAWQ？

我在Greenplum数据库中有数TB的结构化数据。我需要对我的数据运行本质上是MapReduce作业。我发现自己至少重新实现了MapReduce的功能，以便这些数据适合内存(以流方式)。然后我决定到别处寻找更完整的解决方案。我查看了PivotalHD+Spark，因为我使用的是Scala，而Spark基准测试是一个令人惊叹的因素。但我相信这背后的数据存储HDFS的效率将低于Greenplum。(注意“我相信”。我很高兴知道我错了，但请提供一些证据。)因此，为了与Greenplum存储层保持一致，我查看了Pivotal的HAWQ，它基本上是在Greenplum上使用SQL的Hadoop

结构化 Greenplum HAWQ MapReduce scala hadoop apache-spark

hadoop - 具有 gzip 格式的大文本文件的 Spark 作业

我正在运行一个Spark作业，它花费了很长时间来处理输入文件。输入文件为6.8GBGzip格式，包含1.1亿行文本。我知道它是Gzip格式，所以它不可拆分，并且只有一个执行程序将用于读取该文件。作为调试过程的一部分，我决定只看看将gzip文件转换为parquet需要多长时间。我的想法是，一旦我转换为parquet文件，然后如果我在该文件上运行我的原始Spark作业，在这种情况下它将使用多个执行程序并且输入文件将被并行处理。但即使是小工作也比我预期的要花更长的时间。这是我的代码:valinput=sqlContext.read.text("input.gz")input.write.pa

大文本文 li 的 Spark hadoop apache-spark amazon-s3 spark-dataframe parquet

java - EOFException 在 org.apache.hadoop.io.SequenceFile$Reader.init(SequenceFile.java :1508)

我试图运行Norstadt先生在以下链接下提供的矩阵乘法示例http://www.norstad.org/matrix-multiply/index.html.我可以使用hadoop0.20.2成功运行它，但我尝试使用hadoop1.0.3运行它，但出现以下错误。是我的hadoop配置问题还是作者用hadoop0.20编写的代码中的兼容性问题。另外请指导我如何解决这两种情况下的错误。这是我遇到的错误。inthread"main"java.io.EOFExceptionatjava.io.DataInputStream.readFully(DataInputStream.java:180

SequenceFile java TestMatrixMultiply hadoop mapreduce

hadoop - 在 Cognos BI 环境中使用 Apache Hadoop

这可能是一个愚蠢的问题，因为我还没有完全理解CognosBI的工作原理。另外，我尝试在StackExchange上发布这个，但没有成功(放置标签时出错)。我的问题是-ApacheHadoop能否用于提高CognosBI的运行速度？或者，Cognos是否在做与Hadoop相同的事情(MapReduce功能)？我开始工作的地方使用SybaseIQ(内容存储)之上的CognosBI套件。ApacheTomcat是Web服务器。有时会发生的情况是，如果数据集很大，Cognos会花费很多时间(几乎死掉)来生成报告。那么，ApacheHadoop能否通过介于Cognos和Sybase之间来帮助Co

hadoop Cognos section sap-iq

java - 错误 : java. io.IOException : wrong value class: class org. apache.hadoop.io.Text 不是类 Myclass

我的映射器和缩减器如下。但是我遇到了一些奇怪的异常。我不明白为什么会抛出这种异常。publicstaticclassMyMapperimplementsMapper{@Overridepublicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{Texttext=newText("someText")//processoutput.collect(text,infoObjeject);}}publicstaticclassMyReducerimplemen

class java Text conf hadoop elastic-map-reduce

scala - Spark : sc. WholeTextFiles 执行时间过长

我有一个集群，我执行了wholeTextFiles，它应该提取大约一百万个文本文件，总计大约10GB我有一个NameNode和两个DataNode，每个都有30GBRAM，每个有4个内核。数据存储在HDFS中。我没有运行任何特殊参数，作业仅读取数据就需要5个小时。这是预期的吗？是否有任何参数可以加快读取速度(spark配置或分区、执行程序数量？)我才刚刚起步，之前从未需要优化工作编辑:此外，有人可以准确解释wholeTextFiles函数的工作原理吗？(不是如何使用它，而是它是如何编程的)。我非常有兴趣了解分区参数等。编辑2:基准评估所以我尝试在wholeTextFile之后重新分区，

WholeTextFiles scala code section strong hadoop optimization configuration apache-spark

hadoop - 使用 Apache Hadoop Pig 内部连接两个数据集

我有两个数据集(1M唯一字符串)和(1B唯一字符串)；我想知道有多少字符串在两个集合中是通用的，并且想知道使用ApachePig获取数字的最有效方法是什么？最佳答案您可以先加入两个文件，如下所示:A=LOAD'/joindata1.txt'AS(a1:int,a2:int,a3:int);B=LOAD'/joindata2.txt'AS(b1:int,b2:int);X=JOINABYa1,BBYb1;然后你可以计算行数:grouped_records=GROUPXALL;count_records=FOREACHgrouped

hadoop Apache section records code apache-pig

hadoop - Google Cloud Dataproc - Spark 和 Hadoop 版本

在GoogleCloudDataproc测试版中，Spark和Hadoop的版本是什么？Spark是为哪个版本的Scala编译的？最佳答案根据officialannouncement:Today,wearelaunchingwithclustersthathaveSpark1.5andHadoop2.7.1. 关于hadoop-GoogleCloudDataproc-Spark和Hadoop版本，我们在StackOverflow上找到一个类似的问题： ht

Dataproc hadoop section Spark apache-spark google-cloud-platform google-cloud-dataproc

220 221 222223224 225 226