草庐IT

spark-hive

全部标签

r - R 如何使用 RJDBC 连接到 Hive?

我使用的是hadoop-2.2.0和hive-0.12。我按照以下步骤尝试连接到Rstudio中的Hive:library("DBI")library("rJava")library("RJDBC")for(linlist.files('/PATH/TO/hive/lib/')){.jaddClassPath(paste("/PATH/TO/hive/lib/",l,sep=""))}for(linlist.files('/PATH/TO/hadoop/')){.jaddClassPath(paste("/PATH/TO/hadoop/",l,sep=""))}options(java

hadoop - 将数据从 S3 加载到位于 EMR 中 S3 的外部 Hive 表时出现 "Path is not legal"错误

我有一个运行Hive的EMR集群。我在S3上有一个这样定义的外部表:+-----------------------------------------------------------------+|CREATEEXTERNALTABLE`blah`(||`blah1`string,||`blah2`string)||PARTITIONEDBY(||`blah3`string,||`blah4`string,||ROWFORMATDELIMITED||FIELDSTERMINATEDBY'\t'||STOREDASINPUTFORMAT||'org.apache.hadoop.ma

java - 自定义 InputFormat.getSplits() 从未在 Hive 中调用

我正在编写自定义InputFormat(具体来说,org.apache.hadoop.mapred.FileInputFormat的子类)、OutputFormat和SerDe,用于通过ApacheHive读取的二进制文件。并非二进制文件中的所有记录都具有相同的大小。我发现Hive的默认InputFormatCombineHiveInputFormat没有将getSplits委托(delegate)给我的自定义InputFormat的实现,这会导致所有输入文件按常规128MB边界拆分。这样做的问题是这个拆分可能在记录的中间,所以除了第一个之外的所有拆分很可能看起来有损坏的数据。我已经找

scala - Spark - 使用 BytesWritable 类型按键排序

我想使用hadoop示例RandomWriter进行基准测试并生成文件。键和值的类型都是BytesWritable。那么我该如何使用Spark对这个文件进行排序呢?看来我不能直接调用sortByKey()。 最佳答案 您要做的是在RDD中使用.sortBy方法。,正确的?这就是为什么您找不到OrderedRDDFunctions的.sortByKey方法的原因。正如@JustinPihony指出的那样,这需要对key进行隐式排序,在本例中(AFAIK)将定义为:implicitvalrandomWriterOrdering=newO

hadoop - Hive 脚本运行时间过长

我正在尝试对大量数据运行配置单元查询。Geocode查找表有一个ip-from和ip-to范围,我必须将其与一个180万行的表进行比较。hive脚本:select*fromip_addressa,ip_lookupbwherea.AddressInt>=b.ip_fromanda.AddressInt在awsEMR上,我正在运行一个c3.xlarge集群,在运行期间它停留在67%超过1天,但这是第1阶段的Hadoop作业信息:Warning:ShuffleJoinJOIN[4][tables=[a,b]]inStage'Stage-1:MAPRED'isacrossproductSta

hadoop - Hive 中的数据集标准化

我需要进行数据标准化,即将我的数据集转换为均值0和标准差1的列。我的数据驻留在配置单元中。hive中是否存在任何函数可以像R中的scale(dataset)一样为我做同样的事情。 最佳答案 据我所知,没有Hive等价于这样的操作。您可以查看此列表HiveoperatorsandUser-DefinedFunctions.如果不存在,您可以创建自己的关于所需操作的UDF;它在链接的末尾进行了描述。 关于hadoop-Hive中的数据集标准化,我们在StackOverflow上找到一个类似的

hadoop - 根据时间戳从 Hive 访问 HBase 表数据

我通过提及默认版本10创建了一个HBasecreate'tablename',{NAME=>'cf',VERSIONS=>10}并插入两行(row1和row2)put'tablename','row1','cf:id','row1id'put'tablename','row1','cf:name','row1name'put'tablename','row2','cf:id','row2id'put'tablename','row2','cf:name','row2name'put'tablename','row2','cf:name','row2nameupdate'put'tabl

hadoop - 带有自定义 Hadoop 文件系统的 Spark

我已经有一个带有Yarn的集群,配置为使用core-site.xml中的自定义Hadoop文件系统:fs.custom.implpackage.of.custom.class.CustomFileSystem我想在这个Yarn集群上运行一个Spark作业,它从这个CustomFilesystem读取一个输入RDD:finalJavaPairRDDfiles=sparkContext.wholeTextFiles("custom://path/to/directory");有什么方法可以在不重新配置Spark的情况下做到这一点?即,我能否将Spark指向现有的core-site.xml,

scala - Apache-Spark 内部作业调度

我在Spark中发现了这个功能,它允许您在spark上下文中安排不同的任务。我想在一个程序中实现这个特性,在这个程序中我映射我的输入RDD(fromatextsource)到一个键值RDD[K,V]随后生成一个复合键值RDD[(K1,K2),V]和一个包含一些特定值的过滤RDD。进一步的管道涉及在RDD和join操作上从MLlib调用一些统计方法,然后将结果外部化到磁盘。我正在尝试了解spark的内部公平调度程序将如何处理这些操作。我尝试阅读作业调度文档,但对pools、users和tasks的概念感到更加困惑。pools到底是什么,它们是特定的'tasks'可以组合在一起还是它们是l

hadoop - 您如何验证 Hive Metastore uri

作为应用程序的一部分,我需要验证用户为其Hive输入的Hive元存储Uris。我想知道可以对String执行哪些所有验证以验证它是否是正确的HiveMetastoreURI任何建议。谢谢 最佳答案 hive.metastore.uris指定的MetaStoreuri通常采用以下格式:thrift://n.n.n.n:9083file:///var/metastore/metadb/所以我建议您编写一个正则表达式来匹配可能性,同时请记住hive.metastore.uris属性采用逗号分隔值,以便匹配多次出现。完成基本验证后,您还可以