Hadoop

hadoop - 在没有任何 hadoop 依赖项的情况下构建 spark

我找到了一些对-Phadoop-provided标志的引用，用于在没有hadoop库的情况下构建spark，但找不到如何使用它的好例子。我如何从源代码构建spark并确保它不会添加任何它自己的hadoop依赖项。看起来当我构建最新的spark时，它包含了一堆2.8.xhadoop的东西，这与我的集群hadoop版本冲突。最佳答案 Spark具有“使用用户提供的Hadoop预构建”的下载选项，因此以spark-VERSION-bin-without-hadoop.tgz命名如果你真的想构建它，那么从项目根目录运行它./build/m

regex - 如何使用 RegexSerDe 将日志文件加载到 Hive 表中？

我有一个具有以下格式的日志文件，我想从中提取ip、datetime和uri并加载到表中。64.242.88.10--[07/Mar/2004:17:09:01-0800]"GET/twiki/bin/search/Main/SearchResult?scope=text&search=Joris%20*Benschop[^A-Za-z]HTTP/1.1"2004284我可以通过将日志文件行作为单个字符串加载到表中并使用regexp_extract来做到这一点。创建表日志(行字符串)；将数据本地inpath'.../mylog.log'加载到表日志中；选择regexp_extract(l

RegexSerDe regex code section regexp_extract hadoop hive

hadoop - Oozie Hadoop 流媒体

我正在尝试编写一个简单的maponlyhadoopstreamingjob从hdfs读取数据并将其推送到vertica。我写了几个shell脚本如下加载.shhadoopjarhadoop-streaming-2.7.3.2.5.3.0-37.jar-input$INPUT_DIR-mapper/user/oozie/adhoc_data_load/scripts/export.sh-output$OUTPUT_DIR导出.sh./vsql-c"copy$TABLEfromstdindelimiterE'\t'directnull'\\N';"-U$DBUSER-w$DBPWD-h$D

流媒流媒体 argument gt lt hadoop oozie hadoop-streaming

hadoop - oozie distcp 操作中的正则表达式

我正在尝试将所有符合特定条件的文件复制到一个文件夹中${NAME_NODE}${PATH_COMVERSE}${CURRENT_DATE_NO_DASH}_*/*mta.gz${NAME_NODE}${PATH_MTA}/${CURRENT_DATE_NO_DASH}_*中的符号*代表A或B或C等。它搜索所有文件夹。如果我使用${CURRENT_DATE_NO_DASH}_A，它只会搜索1个文件。我怎样才能让它从所有文件夹中只取出2个？我尝试执行(A|B)，但这没有用。最佳答案我假设这将是一个bash扩展，因为您的变量看起来像b

hadoop distcp code section CURRENT_DATE_NO_DASH oozie

java - 在 org.apache.hadoop.mapred.MapTask$NewOutputCollector 关闭期间忽略异常

我创建了一个hadoop自定义可写对象，如下所示publicclassResultTypeimplementsWritable{privateTextxxxx;privateTextyyyy;privateTextzzzz;publicResultType(){}publicResultType(Textxxxx,Textyyyy,Textzzzz){this.xxxx=xxxx;this.yyyy=yyyy;this.zzzz=zzzz;}publicTextgetxxxx(){returnthis.xxxx;}publicTextgetyyyy(){returnthis.yyyy;

NewOutputCollector MapTask Text ResultType java hadoop mapreduce writable

hadoop - 抑制命令行输出 hadoop fs 命令

我正在使用Python程序运行hadoopmapreduce作业，该程序创建不同的输入路径作为mapreduce作业的参数。在将这些输入路径传递到mapreduce之前，我目前正在使用以下命令检查hadoopfs路径是否存在:hadoopfs-test-e'filename'然后我的Python程序与命令行通信并确定文件是否存在(当文件存在时-test返回0，否则返回一个大于1的整数)。由于Python程序正在检查路径是否存在并将所有不存在的路径输出到单独的.txt文档，因此我不需要知道哪些路径不存在作为命令行警告。我想知道如何抑制(或忽略)自动hadoopfs输出:test:'fil

hadoop 抑制 section code command-line mapreduce suppress-warnings

hadoop - Hive 中的 CRUD 操作

我正在尝试在Hive中执行CRUD操作并能够成功运行插入查询，但是当我尝试运行更新和删除时出现以下异常。失败:SemanticException[错误10294]:尝试使用不支持这些操作的事务管理器进行更新或删除。我运行的查询列表CREATETABLEstudents(nameVARCHAR(64),ageINT,gpaDECIMAL(3,2))CLUSTEREDBY(age)INTO2BUCKETSSTOREDASORC;INSERTINTOTABLEstudentsVALUES('fredflintstone',35,1.28),('barneyrubble',32,2.32);C

hadoop Hive 39 section 时出 hql crud

scala - 如何将 RDD[List[String]] 转换为 String 并将其拆分

我有以下情况，当我需要从列表中获取行并将其拆分时。scala>varnonErroniousBidsMap=rawBids.filter(line=>!(line(2).contains("ERROR_")||line(5)==null||line(5)==""))nonErroniousBidsMap:org.apache.spark.rdd.RDD[List[String]]=MapPartitionsRDD[108]atfilterat:33scala>nonErroniousBidsMap.take(2).foreach(println)List(0000002,15-04-0

String 并将 code 34 nonErroniousBidsMap scala hadoop apache-spark

hadoop - 用于查找每个部门薪水的最大值、最小值、平均值、总和的 Pig 脚本

按部门编号对数据进行分组后，我卡住了。我遵循的步骤grunt>A=load'/home/cloudera/naveen1/hive_data/emp_data.txt'usingPigStorage(',')as(eno:int,ename:chararray,job:chararray,sal:float,comm:float,dno:int);grunt>B=groupAbydon;grunt>describeB;B:{group:int,A:{(eno:int,ename:chararray,job:chararray,sal:float,comm:float,dno:int)}

薪水 hadoop section sal chararray apache-pig

arrays - Hive Array<Struct<>>插入显示null

我创建了一个包含结构数组的临时表createtabletemp(regionkeysmallint,namestring,commentstring,nationsarray>)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'|'COLLECTIONITEMSTERMINATEDBY',';然后我将数据加载到表中LOADDATALOCALINPATH'/DataSets/region.csv'INTOTABLEtemp;什么时候需要的输出select*fromtemp;是4EUROPELowsaleBusinessRegion[{"n_nationkey":2

amp arrays 34 code comment hadoop struct hive

79 80 818283 84 85