apache-spark-1.6

bash - 从 Apache Hive 运行 bash 别名

我正在尝试在Hadoop机器上创建一个别名并从HiveJVM运行它。当我使用!显式地从Hive运行命令时前缀它有效，但是当我添加别名、获取.bashrc文件并从Hive调用别名时，出现错误。示例:.bashrc内容:#EnvironmentvariablesrequiredbyhadoopexportJAVA_HOME=/usr/lib/jvm/java-7-oracleexportHADOOP_HOME_WARN_SUPPRESS=trueexportHADOOP_HOME=/home/hadoopexportPATH=$PATH:/home/hadoop/binaliasload-

hadoop - 使用 Apache Sentry - Cloudera

我已经在我的机器上使用ClouderaManager配置了ApacheSentry，任何人都可以解释启动命令以使用ApacheSentry-Cloudera吗？最佳答案您想通过Sentry为哪些服务配置授权？..您使用的是哪个版本的CM/CDH？您可以使用Hue的“安全”菜单或使用命令行界面(例如beeline(为Hive/Impala创建策略)或SOLR的solrctlsentry命令....取决于您要处理的服务。最新版本的Sentry和CDH-Kafka也可以管理KafkaACL。Sentry使用来自底层Linuxbox的组

Cloudera hadoop Sentry section apache-sentry

hadoop - java.io.IOException : org. apache.hadoop.security.AccessControlException : Client cannot authenticate via:[TOKEN, KERBEROS]

我的配置如下:运行Spark1.2.0，Hadoop2.5.0/YARN，ClouderaCDH5VMCentos6.2运行Windows64位平台8GBRAM下面是从spark-shell运行的命令序列，但在尝试打印custRDD时，我收到Kerberos身份验证错误。我已经从cloudera用户登录到spark-shell，ClouderaVM是Kerberos认证的，默认主体是cloudera@HADOOP.LOCALDOMAIN对于正常的RDD操作，有什么方法可以从spark-shell验证Kerberos吗？或者我遗漏了什么？感谢任何正当的帮助，将得到返回下面是SparkSh

hadoop AccessControlException apache org java apache-spark kerberos hadoop-yarn apache-spark-sql

hadoop - 如何在资源有限的笔记本电脑上安装 pyspark 和 spark 以供学习？

我有一台配备6GBRAM的Windows7笔记本电脑。仅出于学习目的，在此笔记本电脑上安装pyspark和spark的RAM/资源效率最高的方法是什么。我不想处理实际的大数据，但小数据集是理想的，因为这通常只是为了学习pyspark和spark。我更喜欢最新版本的Spark。仅供引用:我没有安装hadoop。谢谢最佳答案你基本上有三个选择:从源代码构建一切安装Virtualbox并使用ClouderaQuickstart等预构建的VM安装Docker并找到合适的容器当您选择从源代码构建时，让一切都启动并运行可能会很痛苦。你必须安

何在 pyspark section https hadoop apache-spark bigdata

hadoop - 将kafka的Spark批量流式传输到单个文件中

我正在使用批处理流(maxRatePerPartition10.000)从Kafka流式传输数据。因此，在每批处理中，我处理10.000条kafka消息。在这个批处理运行中，我通过从rdd中创建一个数据帧来处理每条消息。处理后，我使用以下方法将每个处理过的记录保存到同一个文件:dataFrame.write.mode(SaveMode.append)。因此它将所有消息附加到同一个文件。只要它在一个批处理运行中运行就可以。但是在执行下一个批处理运行(处理下10.000条消息)后，它会为下一个10.000条消息创建一个新文件。现在的问题是:每个文件(block)保留文件系统的50mb，但只

流式 hadoop section import SQLContext apache-spark apache-kafka spark-streaming

hadoop - 带有序列文件的 Spark RDD take()

看起来RDD.take()只是在序列文件的支持下重复读取的最后一个元素。例如:valrdd=sc.sequenceFile("records.seq",classOf[LongWritable],classOf[RecordWritable])valrecords:Array[(LongWritable,RecordWritable)]=rdd.take(5)System.out.println(records.map(_._2.toString).mkString("\n"))输出:Record(3.1,2.5)Record(3.1,2.5)Record(3.1,2.5)Record

列文有序 code section strong hadoop apache-spark sequencefile

apache-pig - 无法将 org.apache.pig.builtin.SUM 的匹配函数推断为多个或都不适合。请使用显式转换

我想对包含长类型数字的列求和。我尝试了很多可能的方法，但仍然没有解决转换错误。我的pig代码:raw_ds=LOAD'/tmp/bimallik/data/part-r-00098'usingPigStorage(',')AS(d1:chararray,d2:chararray,d3:chararray,d4:chararray,d5:chararray,d6:chararray,d7:chararray,d8:chararray,d9:chararray);parsed_ds=FOREACHraw_dsGENERATEd8asinBytes:long,d9asoutBytes:lon

apache 推断 chararray section inBytes apache-pig

hadoop - 如何使用 apache Nutch 2.3 每天从网络上抓取 100 万个文档

我已经用hadoop1.2.1和hbase0.94.x配置了apachenutch2.3。我必须爬网几个星期。大约需要爬取100万个文档。我有四个节点的hadoop集群。在此配置之前，我在单机上设置了nutch并爬取了一些文档。但是抓取速度不超过50k到80k。nutch应该如何配置才能每天抓取所需数量的文档。最佳答案一般来说，你可以设置更大的TopN，也可以改变http.content.limit在nutch-site.xml中设置为-1。希望对您有所帮助，乐国岛关于hadoop

hadoop apache section nutch 中设 web-scraping web-crawler hbase

hadoop - 启动器错误，原因 : Main class [org. apache.oozie.action.hadoop.HiveMain]，退出代码 [12]

在oozie中运行配置单元操作时出现以下错误:015-12-2019:48:40,368WARNHiveActionExecutor:523-SERVER[sandbox.hortonworks.com]USER[root]GROUP[-]TOKEN[]APP[oozie_hive_root]JOB[0000013-151220142557945-oozie-oozi-W]ACTION[0000013-151220142557945-oozie-oozi-W@oozie_hive_root]LauncherERROR,reason:Mainclass[org.apache.oozie.

启动器 hadoop section oozie 配置单

java - 信息 : Transport Used for JDBC connection: null + Apache Hive

我正在尝试通过JDBC连接ApacheHive和eclipse，但出现以下错误。以下是版本信息:ApacheHadoop:2.7.1，Hive:1.2.1和EclipseKepler。****Error:****Dec29,20156:04:00PMorg.apache.hive.jdbc.UtilsparseURLINFO:Suppliedauthorities:localhost:10000Dec29,20156:04:00PMorg.apache.hive.jdbc.UtilsparseURLINFO:Resolvedauthority:localhost:10000Dec29,

connection Transport java 34 apache eclipse hadoop jdbc

188 189 190191192 193 194