主键Spark_草庐IT

scala - Spark 上下文抛出 'error: identifier expected but ' [' found.'

我正在读一本书，上面说我应该能够输入sc.[\t]并得到响应。我看到的是...scala>sc.[\t]:1:error:identifierexpectedbut'['found.sc.[\t]^:1:error:identifierexpectedbut']'found.sc.[\t]这是spark1.6.1连接到hadoop2.7.2sc命令似乎有效...scala>scres1:org.apache.spark.SparkContext=org.apache.spark.SparkContext@3cead673附言我一生中从未使用过Scala。最

amp 39 code section scala hadoop apache-spark

java - 创建 spark 客户端失败 : Hive on spark exception

我已将Hive执行引擎更改为SPARK。在执行任何DML/DDL时，我都会遇到异常。hive>selectcount(*)fromtablename;QueryID=jibi_john_20160602153012_6ec1da36-dcb3-4f2f-a855-3b68be118b36Totaljobs=1LaunchingJob1outof1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.reducers.bytes.per.reducer=Inordertolimitthemaximumnumberof

spark exception section number java hadoop apache-spark

hadoop - hive 到 Hbase : wrong use case for Spark?

我最近遇到了一个关于将数据从Hive迁移到Hbase的问题。我们项目在cdh5.5.1集群上使用Spark(7个节点在SUSELinuxEnterprise上运行，具有48个内核，每个256GBRAM，hadoop2.6)。作为初学者，我认为使用Spark从Hive加载表数据是个好主意。我正在使用正确的Hive列/HbaseColumnFamily和列映射在HBase中插入数据。我找到了一些关于如何将数据批量插入Hbase的解决方案，例如我们可以使用hbaseContext.bulkPut或rdd.saveAsHadoopDataset(我测试了两者的结果相似).结果是一个功能正常的程

hadoop Hbase section field apache-spark hive

hadoop - spark 独立模式下 50-60 gb 的数据

我正在尝试分析大约50-60GB的数据。我想过使用spark来做到这一点，但我无权访问集群中的多个节点。这种级别的处理可以使用spark独立模式完成吗？如果是，我想知道处理数据所需的估计时间。谢谢! 最佳答案简短的回答:是的。Spark会将此文件分成许多较小的block。在您的情况下，一次只会执行几个block。这几个block应该适合内存(您需要使用配置来获得正确的结果)总而言之，您将能够做到，但如果您有更多的内存/核心，那么您可以并行处理更多事情，速度会更快。关于hadoop-s

hadoop spark section stackoverflow block apache-spark machine-learning statistics bigdata

hadoop - 如何将 Amazon Glacier/S3 与 hadoop map reduce/spark 结合使用？

我需要使用Hadoop/EMR处理存储在AmazonS3和AmazonGlacier中的数据，并将输出数据保存在RDBMS中，例如。垂直我完全是大数据的菜鸟。我只看过一些关于mapreduce和sparx的在线类(class)和ppts。并创建了一些虚拟mapreduce代码用于学习目的。到目前为止，我只有一些命令可以让我将数据从S3导入AmazonEMR中的HDFC，并在处理后将它们存储在HDFS文件中。所以这是我的问题:在执行mapreduce之前是否真的必须先将数据从S3同步到HDFC，或者是否有直接使用S3的方法。`如何让hadoop访问AmazonGlacier数据`最后是如

hadoop Glacier section Amazon apache-spark amazon-s3 emr amazon-glacier

scala - Spark DataFrame 并行性

下面是我使用ApacheSpark的用例1)我在HDFS上有大约2500个Parquet文件，文件大小因文件而异。2)我需要处理每个parquet文件并构建一个新的DataFrame并将一个新的DataFrame写入orc文件格式。3)我的Spark驱动程序是这样的。我正在迭代每个文件，处理单个Parquet文件，创建一个新的DataFrame并将一个新的DataFrame编写为ORC，下面是代码片段。valfs=FileSystem.get(newConfiguration())valparquetDFMap=fs.listStatus(newPath(inputFilePath))

DataFrame scala section parquet hadoop apache-spark apache-spark-sql

scala - 使用 Oozie 将 Spark 转为 Hbase

我试图从Spark在Hbase中创建一个表并插入数据，从中读取数据。当我从命令行运行spark作业时它工作正常。但是，每次我尝试使用oozie运行它时，它都会抛出不同类型的异常。这是我的sparkhbase代码valsc=newSparkContext("local","Hbasespark")valtableName="Morbidity_Dummy2"valconf=HBaseConfiguration.create()//AddlocalHBaseconfconf.addResource(newPath("file:///opt/cloudera/....../hbase-sit

转为 scala hbase 34 apache hadoop apache-spark oozie

java - Spark 和 Java : Error ClassCastException

我完全按照这个例子https://github.com/rathboma/hadoop-framework-examples/tree/master/spark当我尝试运行时，我收到此消息:java.lang.ClassCastException:org.apache.spark.api.java.Optionalcannotbecasttocom.google.common.base.Optional我不知道如何修复它，因为我是使用Spark的新手。谢谢!!有什么建议吗？最佳答案这是因为您使用Spark1.x编译代码，但在Sp

ClassCastException Spark section hadoop-framework-examples java maven hadoop apache-spark

hadoop - 增量导入没有主键的 Oracle 表到 HDFS

我的Oracle数据库有近300个表，其中200个表没有任何主键，很少有表有复合主键。我的要求是以增量方式将所有表数据导入HDFS。你能告诉我如何使用Sqoop实现这一点吗？如果建议任何其他选项，这将非常有帮助。最佳答案不幸的是，无法识别更新的行(您表示您不跟踪更新时间戳)，这使得使用增量加载来捕获更改实际上是不可能的。一些可能性:添加时间戳满载使用行号来识别新记录，不处理更新的记录关于hadoop-增量导入没有主键的Oracle表到HDFS，我们在StackOverflow上找到

hadoop Oracle section 行号 stackoverflow sqoop

apache-spark - 如何在具有不同内存和核心数量的集群上调整 spark 作业

我正在开发一个spark项目，我正在使用具有以下配置的3个节点的hadoop集群:8coresand16goofRam(Namenode,ApplicationMaster,nodemanagerandsparkmasterandworker).4coresand8goofRam(datanode,nodemanagerandworker)Ram的4cores和4go(datanode、nodemanager和worker)所以我使用以下配置:pyspark--masteryarn-client--driver-memory3g--executor-memory1g--num-exec

spark 上调 section executor strong apache-spark hadoop pyspark