草庐IT

spark-hive

全部标签

hadoop - Spark 作业失败,因为 HDFS 正在缓存 jar

我将Scala/Sparkjar上传到HDFS以在我们的集群上测试它们。运行后,我经常意识到需要做出一些改变。所以我在本地进行更改,然后将新的jar推送回HDFS。然而,当我这样做时,hadoop经常(并非总是)抛出一个错误,本质上是说这个jar与旧jar不同(duh)。我尝试清除我的回收站、.staging和.sparkstaging目录,但这没有任何作用。我尝试重命名jar,这有时会起作用,有时却不起作用(这仍然很荒谬,我必须首先这样做)。有谁知道为什么会发生这种情况以及如何防止这种情况发生?谢谢你的帮助。如果有帮助,这里有一些日志(编辑了一些路径):Applicationappl

spark.driver.maxResultSize限制 Spark 驱动程序(driver)在向客户端返回结果时的最大大小

org.apache.kyuubi.KyuubiSQLException:org.apache.kyuubi.KyuubiSQLException:ErroroperatingExecuteStatement:org.apache.spark.SparkException:Jobabortedduetostagefailure:Totalsizeofserializedresultsof3tasks(1290.4MiB)isbiggerthanspark.driver.maxResultSize(1024.0MiB)atorg.apache.spark.scheduler.DAGSchedul

hadoop - Hive Split 函数选择最后一组

我想拆分URL结构并且只对拆分的最后一部分感兴趣。例如www.example.com/subdirect/mainpage.aspxwww.example.com/mainpage4.aspxwww.example.com/subdirect/subdiret/subdirect2/mainpage2.aspx这里我只想要aspx页面而不是之前的东西,即我只想返回下面的文本mainpage.aspxmainpage4.aspxmainpage2.aspx我尝试使用split,但我不确定如何动态地只返回URL结构的最后一部分。有任何想法吗?这是我正在尝试的脚本selectsplit(UR

apache - 我正在使用 Hadoop 2.7.2 安装 Hive 2.0.0

我正在尝试使用Hadoop2.7.2安装Hive2.0.0但是我不知道我的执行有什么问题parallels@ubuntu:/usr/local/apache-hive-2.0.0-bin$./bin/hiveSLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/usr/local/apache-hive-2.0.0-bin/lib/hive-jdbc-2.0.0-standalone.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J:Fo

hadoop - 将 Dataframe 存储到 spark 中的配置单元分区表

我正在尝试将从kafka主题传入的数据流存储到配置单元分区表中。我能够将dstream转换为数据帧并创建一个配置单元上下文。我的代码看起来像这样valhiveContext=newHiveContext(sc)hiveContext.setConf("hive.exec.dynamic.partition","true")hiveContext.setConf("hive.exec.dynamic.partition.mode","nonstrict")newdf.registerTempTable("temp")//newdfismydataframenewdf.write.mode

hadoop - 如何使用 Spark SQL 创建分区表

我知道我们可以通过以下方式创建一个自动分区发现表CREATETABLEmy_tableUSINGcom.databricks.spark.avroOPTIONS(path"/path/to/table");但这需要将数据路径更改为partition_key=partition_value格式/path/to/table/dt=2016-10-09/path/to/table/dt=2016-10-10/path/to/table/dt=2016-10-11但是数据结构是这样的:/path/to/table/2016-10-09/path/to/table/2016-10-10/path

xml - XML 文件的 "Hive Runtime Error while processing row"

我正在尝试读取一个简单的xml文件并从中提取数据。下面是文件来源:b1b2我已经在hive中创建了src表,如下所示:Createtablesrc(linestring);然后我加载了这张表如下:loaddatalocalinpath'/home/hduser/Desktop/batch/hiveip/src'intotablesrc;我正在尝试使用以下查询提取as数据:selectxpath(line,'//@id')fromsrc;DiagnosticMessagesforthisTask:Error:java.lang.RuntimeException:org.apache.ha

r - 来自 Hive UDF/UDAF 的 JRI

我在一些数据节点上安装了R,可以编写Mapreduce作业以通过JRI调用R。接下来,为了通过配置单元查询调用R,我重写了GenericUDAFEvaluator中的终止方法并在那里创建Rengine对象。旧的mapred作业需要我执行-Dmapred.child.env="R_HOME=/usr/lib64/R"才能工作。当我在配置单元中执行此操作(通过setmapred.child.env="R_HOME=/usr/lib64/R";)然后运行查询时,作业在设置时失败。更一般地说,这是从hive成功的:selectcount(*)fromsome_tablelimit10;但这失败

hadoop - 为什么 Hive "create external table"在 S3 上将数据存储在子文件夹 "-ext-10000"下?

下面的Hive代码突然开始在一个额外的子文件夹下存储数据;DROPTABLEIFEXISTSfolder_test;CREATEEXTERNALTABLEIFNOTEXISTSfolder_test(col1STRING,col2INT,col3INT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY","LOCATION's3n://bucket_name/folder_name';insertoverwritetablefolder_testselectcol1,col2,col3fromdata_tablelimit10;因此,数据不是存储在“s3n://

Hadoop 和 Hive 中的 Hadoop LZO 和 SnappyCodec 错误

我正在使用Ubuntu-12.04,Hadoop-1.0.2,Hive-0.10.0从hive中读取大约100万条记录的数据时出现以下查询错误select*fromraw_poslimit10000;WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable所以我在$HADOOP_HOME/lib文件夹中安装了SnappyforHadoop,它生成文件libsnappy.a、libsnappy.la、libsnapp