spark-hive

java - 从 HIVE UDF 读取 HDFS 文件 - 执行错误，返回代码 101 FunctionTask。无法初始化类

我们一直在尝试创建一个简单的HiveUDF来屏蔽Hive表中的某些字段。我们正在使用一个外部文件(放在HDFS上)来抓取一段文本，以便对屏蔽过程进行加盐处理。看起来我们一切正常，但是当我们尝试创建外部函数时它抛出错误:org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode-101fromorg.apache.hadoop.hive.ql.exec.FunctionTask.Couldnotinitializeclassco.co

python - 如何使用 Spark 和 Python 在 HDP 2.2 中更新 python 2.7

我正在尝试在HDP2.2中使用Ipython和Spark，但似乎只有python2.7支持ipython。我已经安装了Spark并测试了很好，但是在使用yum命令安装ipython之后，python的版本是一个问题。[root@sandboxspark12]#ipythonPython2.6.6(r266:84292,Jan222014,09:42:36)Type"copyright","credits"or"license"formoreinformation.IPython0.13.2--AnenhancedInteractivePython.?->Introductionando

python code section python-2.7 hadoop ipython

hadoop - HIVE中如何提高从非分区表加载数据到ORC分区表的性能

我是Hive查询的新手，我正在寻找从Hive表中检索数据的最佳实践。我们启用了TeZ执行引擎并启用了矢量化。我们想从Hive表进行报告，我从TEZ文档中读到它可以用于实时报告。场景来self的WEB应用程序，我想在UI上显示HiveQuerySelect*fromHive表的结果，但是对于任何查询，在hive命令提示符中至少需要20-60秒，即使hive表有60GB数据。1)谁能告诉我如何通过查询Hive表来显示实时报告并在10-30秒内立即在UI上显示结果2)我们发现的另一个问题是，当我们将未分区表中的数据转储到ORC时，最初我们有一个未分区表指向HDFS中的一个Blob/文件，它的

hadoop HIVE section hadoop-yarn azure-hdinsight

hadoop - 如何获取工资高于HIVE部门平均工资的员工姓名

Dept_idEmp_nameSal1amit25002neha36003ankit4500需要找出工资高于整个部门平均工资的员工姓名。使用配置单元。最佳答案 Hive在使用子查询时有限制....我们可以使用以下查询解决您的问题...根据您的表更改列名...选择*FROMemployeesJOIN(SELECTs2.deptiddeptid,avg(s2.salary)salfromemployees2groupbydeptid)s3ONs.deptid=s3.deptidWHEREs.sal>s3.sal;复制代码

hadoop HIVE section deptid stackoverflow hiveql

hadoop - 为 spark 输出文件设置 S3 输出文件受赠者

我在AWSEMR上运行Spark，但在获取输出文件的正确权限时遇到了一些问题(rdd.saveAsTextFile(''))。在配置单元中，我会在开头添加一行setfs.s3.canned.acl=BucketOwnerFullControl这将设置正确的权限。对于Spark，我尝试运行:hadoopjar/mnt/var/lib/hadoop/steps/s-3HIRLHJJXV3SJ/script-runner.jar\/home/hadoop/spark/bin/spark-submit--deploy-modecluster--masteryarn-cluster\--conf

受赠者受赠 section BucketOwnerFullControl code hadoop amazon-web-services amazon-s3 apache-spark

hadoop - 从 Hive 中的最后一个非空值填充空值

我有4列datenumberEstimateClient----------1310A2NULL10Null3510A4NULL10Null5NULL10Null6210A.......我需要用新值替换NULL值，新值采用日期列中前一个日期的最后一个已知值的值，例如:日期=2数字=3，日期4和5数字=5和5。NULL值随机出现。这需要在Hive中完成。最佳答案关于滑动窗口；这是我的表格内容；hive>select*frommy_table;OK1310A2NULL10NULL3510A4NULL10NULL5NULL10NULL

hadoop Hive code section NULL hiveql

hadoop - 在 Windows 7 32 位上安装 Apache Spark

我刚刚开始研究apachespark。我做的第一件事是尝试在我的机器上安装spark。我使用hadoop2.6下载了预构建的spark1.5.2。当我运行sparkshell时出现以下错误java.lang.RuntimeException:java.lang.NullPointerExceptionatorg.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522)atorg.apache.spark.sql.hive.client.ClientWrapper.(ClientWrapper.scal

Windows hadoop apache spark scala windows-7 apache-spark installation 32-bit

python - Hive 数据到 Pandas 数据框

Python新手。如何将数据从hive保存到Pandas数据框。withpyhs2.connect(host,port=20000,authMechanism="PLAIN",user,password,database)asconn:withconn.cursor()ascur:#Showdatabasesprintcur.getDatabases()#Executequerycur.execute(query)#Returncolumninfofromqueryprintcur.getSchema()#Fetchtableresultsforiincur.fetch():print

python Pandas section code hadoop hive

hadoop - Spark : Saving RDD in an already existing path in HDFS

我可以使用saveAsTextFile方法将RDD输出保存到HDFS。如果文件路径已经存在，此方法将抛出异常。我有一个用例，我需要将RDDS保存在HDFS中已有的文件路径中。有没有一种方法可以将新的RDD数据附加到同一路径中已经存在的数据中？最佳答案自Spark1.6以来可用的一种可能的解决方案是使用具有text格式和append模式的DataFrames:valoutputPath:String=???rdd.map(_.toString).toDF.write.mode("append").text(outputPath)

existing already section code strong hadoop apache-spark hdfs rdd

hadoop - 如何将注册为 Spark 表的表放入数据框中

我已经使用spark-thriftserverjdbc连接将表从PostgreSQL数据库导入到spark-sql中，现在我可以从直线上看到这些表。有什么方法可以将这些表转换为spark数据框。最佳答案这适用于Spark>2.0:df=spark.table('表格') 关于hadoop-如何将注册为Spark表的表放入数据框中，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/

放入 hadoop section spark stackoverflow apache-spark apache-spark-sql bigdata

122 123 124125126 127 128