hadoop-examples

python - 为什么 Windows7 中的 hadoop 会引发 RuntimeException : Error in configuring object

我试图在windows7中以伪分布式模式运行hadoop程序，但出现了RuntimeException。我不知道为什么以及如何解决它。我使用python进行mapreduce工作，而不是使用hadoop-streaming实用程序(https://hadoop.apache.org/docs/current/hadoop-streaming/HadoopStreaming.html)的java。我运行了hadoopjar%HADOOP_HOME%\share\hadoop\tools\lib\hadoop-streaming-2.6.2.jar-mappermapper.py-redu

hadoop - Pig Latin 语法错误

我有以下数据:AGE,EDU,SEX,SALARY67,10th,Male,50K35,Assoc-voc,Male,50K42,Bachelors,Male,>50K30,Bachelors,Male,>50K23,Bachelors,Female,======================================================我的PigLatin脚本是:sensitive=LOAD'/mdsba'usingPigStorage(',')as(AGE,EDU,SEX,SALARY);--FilteredthedatabythecityData_filter

hadoop Latin section Male Data_filter apache-pig

hadoop - 从 Spark 作业创建 FS 的快照

我想在运行spark作业时创建底层HDFS的快照。特定步骤涉及删除某些Parquet文件的内容。我想创建快照执行删除操作，验证操作结果并继续执行后续步骤。但是，我找不到从我的spark作业访问HDFSAPI的好方法。我要创建快照的目录在HDFS中被标记/标记为可快照。创建快照的命令行方法有效，但是我需要以编程方式执行此操作。我在CDH5.5上运行Spark1.5。关于如何执行此操作的任何提示线索？谢谢内存开发最佳答案我还没有验证这一点，但至少我没有遇到编译错误，理论上这个解决方案应该有效。这是Scala代码:valsc=newS

hadoop Spark section stackoverflow snapshotPath apache-spark hdfs java

hadoop - 在 HIVE 中创建 View

我想在分区的配置单元表上创建一个View。我的View定义如下:createviewschema.V1asselectt1.*fromscehma.tab1ast1innerjoin(selectrecord_key,max(last_update)aslast_updatefromscehma.tab1groupbyrecord_key)ast2ont1.record_key=t2.record_keyandt1.last_update=t2.last_update我的tab1表是按quarter_id分区的。当我在View上运行任何查询时它给出错误:FAILED:SemanticE

中创 hadoop section last_update record_key hive hadoop-partitioning

hadoop - 使用 yarn 的 hive 问题

我在yarn上运行hivesql，它在连接条件下抛出错误，我能够创建外部表和内部表但是在使用命令时无法创建表createtableasASSELECTnamefromstudent.当通过hivecli运行相同的查询时它工作正常但是使用springjog它会抛出错误2016-03-2804:26:50,692[Thread-17]WARNorg.apache.hadoop.hive.shims.HadoopShimsSecure-Can'tfetchtasklog:TaskLogServletisnotsupportedinMR2mode.Taskwiththemostfailures

hadoop yarn section hive 1458863269455 hadoop-yarn

hadoop - 如何优化我的配置单元查询以从多个表中查找记录计数总和

我必须生成一份报告，该报告将为我提供表A、B和C中使用Hive存储的事件的计数总和，并且我的S3存储桶已按Organization_id分区例如:表A–有约翰(和其他员工)每天上类的记录表B–记录了约翰(和其他员工)在工作中调用或接听的每个电话表C–记录了约翰(和其他员工)在工作中提交的每笔费用基本上，我想要约翰(employee_id)在上个月来自A、B和C的计数总和。如果在3个表A、B或C中的任何一个中都有记录，则应该每个日期只有一个记录(如果一个或多个表中有一个日期的记录，则对计数求和)表)。所以我的输出是:EmployeeidEmployeeNameDateCount123Jo

配置单 hadoop employee employee_id employee_name amazon-s3 hiveql qubole

hadoop - Spark Streaming 可以选择特定文件吗

我的程序不断从hadoop文件夹(例如/hadoopPath/)读取流。它从上述文件夹中挑选所有文件。我可以只为这个文件夹拍摄特定的文件类型吗(比如:/hadoopPath/*.log)我还有一个与Spark和流相关的问题:Issparkstreamingworkswithboth"cp"and"mv" 最佳答案几个小时以来，我一直在为同一个问题苦苦挣扎，虽然它看起来很简单，但我在网上找不到任何相关信息。最后，我找到了适合我的情况的解决方案。我把它放在这里是为了为遇到同样问题的其他人节省一些时间。假设您只想读取具有“path-to

Streaming hadoop section spark code apache-spark spark-streaming

hadoop - 替换 ZooKeeper 服务器

我想用3个新的ZooKeeper服务器替换当前的3个ZooKeeper服务器。我已经添加:Ambari的新动物园，将新动物园添加到变量中:hbase.zookeeper.quorumha.zookeeper.quorumzookeeper.connecthadoop.registry.zk.quorumyarn.resourcemanager.zk-地址重新启动服务，重新启动RM，当我关闭所有旧的Zoo服务器时，仍然无法连接到任何新的Zoo。zookeeper-client-serverzoo-new1我收到以下错误:“无法从服务器sessionid0x0读取附加数据，可能服务器已关闭

ZooKeeper hadoop section apache-zookeeper hortonworks-data-platform ambari bigdata

Hadoop IO 错误 : Type mismatch in key from map : expected org. apache.hadoop.io.Text，收到 RegexMatcher.CustomKey

我收到以下错误:java.lang.Exception:java.io.IOException:Typemismatchinkeyfrommap:expectedorg.apache.hadoop.io.Text,receivedRegexMatcher.CustomKeyatorg.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)atorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)Caused

RegexMatcher CustomKey Text class apache hadoop mapreduce hdfs

hadoop - Pig 中的包和元组模式

我试图为我尝试使用JsonLoader加载的一些数据指定模式，我要上传的数据的格式为Features:["Speedy","New","Automatic",..]对于每条记录，特征的数量不是固定的，它可以不同。我在模式中将其表示为:Features:bag{a:tuple(t:chararray)}但是它不起作用。有人可以用正确的语法帮助我并指出我错在哪里吗？最佳答案字段名称规范是不必要的，因为您有没有任何字段名称的简单数组。试试这个:a=load'a.json'usingJsonLoader('value:int,featu

hadoop Pig section 34 code tuples schema apache-pig cloudera

164 165 166167168 169 170