apache-spark-2.3

hadoop - 是否可以使用 Apache Spark 读取 pdf/音频/视频文件(非结构化数据)？

是否可以使用ApacheSpark读取pdf/音频/视频文件(非结构化数据)？例如，我有数千张pdf发票，我想从中读取数据并对其进行一些分析。我必须执行哪些步骤来处理非结构化数据？最佳答案是的，是的。使用sparkContext.binaryFiles以二进制格式加载文件，然后使用map将值映射到其他格式-例如，使用ApacheTika或ApachePOI解析二进制文件。伪代码:valrawFile=sparkContext.binaryFiles(...valready=rawFile.map(hereparsingwitho

hadoop - 在 EMR 上运行 Spark 作业时 AWS 连接超时

我正在尝试在AmazonEMR集群中提交一个简单的Spark作业。我的集群有5个M4.2xlarge实例(1个主实例、4个从实例)，每个实例有16个vCPU和32GB内存。这是我的代码:defmain(args:Array[String]):Unit={valsparkConfig=newSparkConf().set("hive.exec.dynamic.partition","true").set("hive.exec.dynamic.partition.mode","nonstrict").set("hive.s3.max-client-retries","50").set("h

hadoop Spark apache java apache-spark amazon-s3 apache-spark-sql emr

hadoop - 错误 : org. apache.hadoop.hbase.MasterNotRunningException: null+hbase+hadoop

我最近用两台机器(在ubuntu上)配置了hadoop集群。到目前为止它工作正常。但是当我尝试在上面的hadoop集群上配置hbase时，它显示错误。这是我所做的，我有两台机器。192.168.1.110Hadoop主机192.168.1.111Hadoop从机conf/hbase-env.sh导出JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.22exportHBASE_CLASSPATH=/home/hadoop/hadoop-0.20.2/conf导出HBASE_MANAGES_ZK=truehbase-site.xmlhbase.master

hadoop MasterNotRunningException hbase section

java - 找到接口(interface) org.apache.hadoop.mapreduce.TaskAttemptContext

到目前为止还没有找到解决我的特定问题的方法。它至少不起作用。这让我很疯狂。这个特殊的组合在谷歌空间中似乎并不多。据我所知，我的错误发生在作业进入映射器时。该作业的输入是avro模式的输出，虽然我也尝试过未压缩，但它是用deflate压缩的。阿夫罗:1.7.7Hadoop:2.4.1我收到此错误，但我不确定原因。这是我的工作，mapper和reduce。映射器进来时发生错误。示例未压缩的Avro输入文件(StockReport.SCHEMA以这种方式定义){"day":3,"month":2,"year":1986,"stocks":[{"symbol":"AAME","timestam

TaskAttemptContext interface hadoop java 34 mapreduce avro

hadoop - Spark 作业只是挂起大数据

我正在尝试从s3查询(15天的数据)。我尝试分别(每天)查询它们，效果很好。它也可以正常工作14天。但是当我查询15天时，作业一直运行(挂起)并且任务#没有更新。我的设置:我正在使用51节点集群r3.4xlarge，启用了动态分配和最大资源。我所做的只是=valstartTime="2017-11-21T08:00:00Z"valendTime="2017-12-05T08:00:00Z"valstart=DateUtils.getLocalTimeStamp(startTime)valend=DateUtils.getLocalTimeStamp(endTime)valdays:In

大数 hadoop section code li apache-spark hadoop-yarn emr amazon-emr

hadoop - 通过 ODBC 连接到 Spark SQL

根据此页面:https://spark.apache.org/sql/您可以通过ODBC或JDBC将现有的BI工具连接到SparkSQL:我不是说鲨鱼，因为这基本上是EOL:ItisforthisreasonthatweareendingdevelopmentinSharkasaseparateprojectandmovingallourdevelopmentresourcestoSparkSQL,anewcomponentinSpark.BI工具(如Tableau)如何通过ODBC连接到sharksql？最佳答案随着Spark

hadoop Spark section sql odbc apache-spark shark-sql

java.lang.ClassNotFoundException : org. apache.hadoop.conf.配置

我一直收到这个错误。我已经在类路径中包含了hadoopcommons和核心库，但我仍然收到这个错误。非常感谢您的帮助最佳答案这是解决问题的方法:查看您正在执行的jar内部，看看该类文件是否确实存在:jartvftarget/my-jar-with-dependencies.jar|grephadoop/conf/Configuration.class如果不是，则需要将其添加到类路径或更改jar的打包方式。您使用的是Maven还是类似的构建工具？您可能有一个带有“范围”的依赖项，这意味着它只会在特定情况下编译到您的jar中。org

ClassNotFoundException apache section hadoop jar java filesystems

hadoop - Spark 作业未在 Hive 数据库中找到表

我在Hive的默认数据库中有一个表，并且可以在命令行中成功地从该表中获取记录:>hive:select*frommy_table;但是当我在Spark中创建一个作业来运行时，它只会抛出这样的异常:INFOmetastore.HiveMetaStore:0:get_table:db=defaulttbl=my_table16/01/0403:41:42INFOHiveMetaStore.audit:ugi=etlip=unknown-ip-addrcmd=get_table:db=defaulttbl=my_tableExceptioninthread"main"org.apache.s

hadoop Spark section table strong apache-spark hive

hadoop - 使用 HBASE 的 Spark 与使用 HDFS 的 Spark

我知道HBASE是一个列式数据库，将表的结构化数据按列而不是按行存储到HDFS中。我知道Spark可以从HDFS读取/写入，并且有一些用于Spark的HBASE连接器现在也可以读写HBASE表。问题:1)在HBASE之上分层Spark而不是单独使用HBASE带来了哪些附加功能？这仅取决于程序员的能力，或者是否有任何性能理由这样做？有没有Spark可以做而HBASE不能做的事情？2)源于上一个问题，什么时候应该在HDFS和SPARK之间添加HBASE而不是直接使用HDFS？最佳答案 1)Whataretheaddedcapabili

Spark hadoop HBASE section apache-spark hdfs

hadoop - 如何在 Hadoop/Spark 中重命名大量文件？

我有一个包含超过100,000个文件的输入文件夹。我想对它们进行批量操作，即以某种方式重命名它们，或者根据每个文件名中的信息将它们移动到新路径。我想使用Spark来做到这一点，但不幸的是，当我尝试以下代码时:finalorg.apache.hadoop.fs.FileSystemghfs=org.apache.hadoop.fs.FileSystem.get(newjava.net.URI(args[0]),neworg.apache.hadoop.conf.Configuration());org.apache.hadoop.fs.FileStatus[]paths=ghfs.lis

何在命名 section hadoop apache parallel-processing bigdata apache-spark