草庐IT

sparking

全部标签

apache-spark - 一旦写入最终完成,如何处理 HDFS 目录中的新文件?

在我的场景中,我将CSV文件连续上传到HDFS。一旦上传了新文件,我想用SparkSQL处理新文件(例如,计算文件中字段的最大值,将文件转换为parquet)。即我在每个输入文件和转换/处理的输出文件之间有一个一对一的映射。我正在评估SparkStreaming以监听HDFS目录,然后使用Spark处理“流文件”。但是,为了处理整个文件,我需要知道“文件流”何时完成。我想将转换应用于整个文件,以保留文件之间端到端的一对一映射。我怎样才能转换整个文件而不是它的微批处理?据我所知,SparkStreaming只能将转换应用于批处理(DStreams映射到RDD),而不能一次应用于整个文件(

hadoop - Janusgraph spark Guava 版

这是我的问题:我们正在使用带有java1.8.0_74的cloudera5.7.0,我们有spark1.6.0、janusgraph0.1.1、hbase1.2.0。我在gremlinshell中运行以下代码::loaddata/call-janusgraph-schema-groovywriteGraphPath='conf/my-janusgraph-hbase.properties'writeGraph=JanusGraphFactory.open(writeGraphPath)defineCallSchema(writeGraph)writeGraph.close()readG

hadoop - 使用 Spark 对 Parquet 文件进行计数操作

我在HDFS中有两组相同的Parquet格式数据。一组按col1排序,另一组未排序。sorted_table约为127GB,unsorted_table约为117GB。大小在这里无关紧要。我使用SparkSQL运行了以下两个查询:selectcol1,count(*)fromsorted_tablewherecol1=someIntgroupbycol1selectcol1,count(*)fromunsorted_tablewherecol1=someIntgroupbycol1我在sparkUI上分析了这些查询,我发现对sorted_table的查询只读取了127MB的数据,而对u

hadoop - Hive on spark 读取文件

我在Spark上使用Hive。我在Hadoop中压缩了日志文件。它们的平均大小为40MB,而block大小为128MB。我相信如果我以某种方式连接日志文件,我将拥有更少的block,并且数据读取时间也会减少。例如。我每小时都有日志文件(每天24个文件->24个block)。聚合后,我在6个block中有1个文件(24小时)。我已经使用Hive运行了基准测试,并注意到连接后的读取时间和查询执行时间比之前增加了6倍。问题:我对Spark上的Hadoop-Hive的看法有什么问题? 最佳答案 Gzippedtextfilesarenots

hadoop - hive 在 Spark 上。读取 Parquet 文件

我正在尝试将parquet文件读入Spark上的Hive。所以我发现我应该做这样的事情:CREATETABLEavro_testROWFORMATSERDE'org.apache.hadoop.hive.serde2.avro.AvroSerDe'STOREDASAVROTBLPROPERTIES('avro.schema.url'='/files/events/avro_events_scheme.avsc');CREATEEXTERNALTABLEparquet_testLIKEavro_testSTOREDASPARQUETLOCATION'/files/events/parqu

Hadoop:两个数据节点,但 UI 显示一个和 Spark:两个工作人员 UI 显示一个

我在SO和Quora以及许多网站上看到了很多答案。当他们为从属IP配置防火墙时,一些问题得到了解决,有人说这是一个UI故障。我很迷惑。我有两个datanode:一个是纯datanode,一个是Namenode+datanode。问题是我什么时候做:50075它只显示一个数据节点(也有名称节点的机器)。但是我的hdfsdfsadmin-report显示我有两个数据节点,在我的主机上启动hadoop之后,如果我这样做了jps在我的pure-datanode-machineorslavemachine我可以看到数据节点正在运行。两台机器上的防火墙都关闭了。sudoufwstatusverbo

hadoop - 使用 sqlcontext spark 执行 sql join

这个问题在这里已经有了答案:UseSparkSession.sql()withJDBC(1个回答)关闭4年前。我尝试运行查询以使用sqlcontext等联接查询Oracle数据库,valsql="selectafromb,cwhereb.join=c.join"valdataframe=sqlcontext.read.jdbc(url,sql,connection_properties)我收到无效的表名错误。但是,如果我尝试像下面这样查询表,它就可以正常工作。valdf1=sqlcontext.read.jdbc(url,"b",connection_properties)valdf2

java - SPARK 驱动程序在读取多个 S3 文件时内存不足

情况我是SPARK的新手,我在EMR中运行SPARK作业,它读取一堆S3文件并执行Map/reduce作业。总共有200个S3位置,平均包含400个文件。在最后的示例中,textFile(...)API使用逗号分隔的S3路径和通配符(*)调用:sc.textFile("S3://FilePath1/\*","S3://FilePath2/\*"....."S3://FilePath200/\*")该作业在驱动程序中花费了大量时间,最终内存不足并出现以下错误。Container[pid=66583,containerID=container_1507231957101_0001_02_0

hadoop - hadoop和spark现在支持ipv6了吗?

我想在纯IPv6环境上构建Hadoop和Spark集群。我已经在IPv4上构建了,如何配置才能在IPv6环境下运行?hadoop和spark现在支持IPv6吗? 最佳答案 事实并非如此。截止到今天HADOOP-11890跟踪IPv6支持进度的,仍未解决。 关于hadoop-hadoop和spark现在支持ipv6了吗?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/4705495

hadoop - Spark 中的分解结构

我有具有以下架构的DataFrame:|--data:struct(nullable=true)||--asin:string(nullable=true)||--customerId:long(nullable=true)||--eventTime:long(nullable=true)||--marketplaceId:long(nullable=true)||--rating:long(nullable=true)||--region:string(nullable=true)||--type:string(nullable=true)|--uploadedDate:long(n