草庐IT

apache-datafu

全部标签

hadoop - Apache Pig 中的连接错误

我正在使用Hadoop2.0.5运行ApachePig.11.1。我在Pig中运行的大多数简单作业都运行良好。但是,每当我尝试在大型数据集上使用GROUPBY或LIMIT运算符时,我都会收到以下连接错误:2013-07-2913:24:08,591[main]INFOorg.apache.hadoop.mapred.ClientServiceDelegate-Applicationstateiscompleted.FinalApplicationStatus=SUCCEEDED.Redirectingtojobhistoryserver013-07-2911:57:29,421[mai

hadoop - Apache Spark 如何知道 HDFS 数据节点?

假设我对托管在HDFS中的文件执行一些Spark操作。像这样:varfile=sc.textFile("hdfs://...")valitems=file.map(_.split('\t'))...因为在Hadoop世界中,代码应该放在数据所在的地方,对吗?所以我的问题是:Sparkworkers如何知道HDFS数据节点?Spark如何知道在哪些数据节点上执行代码? 最佳答案 Spark重用Hadoop类:当您调用textFile时,它会创建一个TextInputFormat它有一个getSplits方法(拆分大致是一个分区或blo

apache-spark - 如何读取 Spark 中的嵌套集合

我有一个Parquet表,其中一列是,array>可以使用LATERALVIEW语法在Hive中针对此表运行查询。如何将此表读入RDD,更重要的是如何在Spark中过滤、映射此嵌套集合?在Spark文档中找不到对此的任何引用。提前感谢您提供任何信息!附言。我觉得在桌面上提供一些统计数据可能会有所帮助。主表中的列数~600。行数~200m。嵌套集合中的“列”数~10。嵌套集合中的平均记录数约为35。 最佳答案 嵌套集合没有什么神奇之处。Spark将以相同的方式处理RDD[(String,String)]和RDD[(String,Seq

hadoop - Apache Pig 和 Apache Hive 有什么区别?

Pig和Hive之间的确切区别是什么?我发现两者具有相同的功能意义,因为它们用于完成相同的工作。唯一不同的是实现方式。那么什么时候使用什么技术呢?是否有任何规范可以清楚地表明两者在适用性和性能方面的差异? 最佳答案 ApachePig和Hive是两个位于Hadoop之上的项目,它们为使用Hadoop的MapReduce库提供了更高级的语言。ApachePig提供了一种脚本语言来描述读取、过滤、转换、连接和写入数据等操作——这正是MapReduce最初设计的目的。Pig不是用直接使用MapReduce的数千行Java代码来表达这些操作

apache-spark - 如何在没有 hive-site.xml 的情况下将 Spark SQL 连接到远程 Hive Metastore(通过节俭协议(protocol))?

我将HiveContext与SparkSQL一起使用,并且我正在尝试连接到远程Hive元存储,设置Hive元存储的唯一方法是在类路径中包含hive-site.xml(或将其复制到/etc/spark/conf/).有没有办法在不包含hive-site.xml的情况下以编程方式在java代码中设置此参数?如果是这样,要使用什么Spark配置? 最佳答案 对于Spark1.x,您可以设置:System.setProperty("hive.metastore.uris","thrift://METASTORE:9083");finalSp

java - 映射 : expected org. apache.hadoop.io.Text 中的键类型不匹配,收到 org.apache.hadoop.io.LongWritable

我正在尝试在java中运行map/reducer。以下是我的文件WordCount.javapackagecounter;publicclassWordCountextendsConfiguredimplementsTool{publicintrun(String[]arg0)throwsException{Configurationconf=newConfiguration();Jobjob=newJob(conf,"wordcount");job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.cl

hadoop - apache hadoop 版本 2.0 与 0.23

有太多的Hadoop版本和不同的发行版,这让我很困惑。我有几个问题。ApacheHadoop1.x来自0.20.205?ApacheHadoop2.0是0.22还是0.23? 最佳答案 根据这个blogpost来自Cloudera:Thereisnexttonofunctionaldifferencebetween0.20.205and1.0.Thisisjustarenumbering.Hadoop的Yarn网站状态:MapReducehasundergoneacompleteoverhaulinhadoop-0.23andwen

php - Apache/PHP 到 Nginx/Tornado/Python

按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭10年前。我们的网站有实时更新的需求,我们正在考虑各种comet/long-polling解决方案。经过研究,我们决定将nginx作为4个tornado实例(托管在AmazonEC2上)的反向代理。我们目前正在使用传统的LAMP堆栈,并且已经用PHP编写了大量代码。我们愿意将我们的PHP代码转换为Python以更好地支持此解决方案。这是我的问题:假设是四核处理器,

php - 在 apache 2.0 中找不到我的 php.ini 文件的 "extensions"部分,它在哪里?

我正在尝试在我的Ubuntu、Apache2、phpbox上添加对GD扩展的支持。然而,我的php.ini文件似乎与大多数版本的INI文件不同,而且它们似乎没有扩展注释或占位符。这是搬到哪里去了?他们是添加扩展程序的新位置还是新方法?我很茫然,我只找到了2个php.ini文件。一个用于Apache2,一个用于命令行界面。最终我问这个问题是因为错误的正常修复Undefinedoffset:1in[...]images.phponline50Fatalerror:Calltoundefinedfunctionimagecreatefrompng()in[...]第309行的function

PHP apache_request_headers() 与现实不符(经 Firebug 确认): why?

我用PHP编写了一个使用Ajax请求的网络应用程序(使用YUI.util.Connect.asyncRequest制作)。大多数时候,这工作正常。发送请求时带有X-Requested-With值XMLHttpRequest。我的PHPController代码使用apache_request_headers()来检查传入请求是否为Ajax,并且一切正常。但并非总是如此。间歇性地,我遇到了发送Ajax请求的情况(并且Firebug向我确认请求中的header包含XMLHttpRequest的X-Requested-With)但是apache_request_headers()没有在其列表中