hadoop-examples

hadoop - docker 中的 yarn - __spark_libs__.zip 不存在

我浏览了thisStackOverflow帖子，但它们对我帮助不大。我正在尝试让Yarn在现有集群上运行。到目前为止，我们一直在使用sparkstandalonemanger作为我们的资源分配器，它一直按预期工作。这是我们架构的基本概述。白框中的所有内容都在docker容器中运行。从master-machine我可以从yarn资源管理器容器中运行以下命令并运行一个使用yarn的spark-shell:./pyspark--masteryarn--驱动程序内存1G--executor-memory1G--executor-cores1--conf"spark.yarn.am.memory

spark_libs hadoop gt lt property apache-spark docker hdfs hadoop-yarn

oracle - 如何在 Spark 中使用 Hadoop Credential provider 连接到 Oracle 数据库？

我正在尝试在Spark和Oracle以及Sqoop和Oracle之间建立安全连接。经过研究，我发现了两种不同设置的两种不同选择。将Spark连接到使用spark.jdbc.b64password加密密码的Oracle，并进一步在spark代码中解密并在jdbcurl中使用它。使用Hadoop凭据提供程序创建密码文件，并进一步在Sqoop中使用它连接到Oracle。现在将密码保存在两个不同的文件中似乎不是一个好习惯。我的问题是我们可以在spark中使用Hadoop凭据提供程序来使用为Sqoop创建的相同凭据配置文件吗？如果您有任何其他选择可以使它变得更好，请提供帮助。

何在 Credential section Oracle 凭据 hadoop apache-spark jdbc sqoop

linux - Windows 上的 Ubuntu 上的 Bash 上的 Hadoop 权限被拒绝

我正在尝试安装Hadoop以使用HDFS服务。我在Windows上的Ubuntu上的Bash(不是VM)上做这件事:https://www.microsoft.com/fr-fr/store/p/ubuntu/9nblggh4msv6我遵循的教程是这个(它与大多数Hadoop安装教程非常相似):https://www.youtube.com/watch?v=Nb1sinaTlmo所以一切顺利，直到我尝试运行start-dfs.sh但我收到以下错误消息:17/12/1222:19:06WARNutil.NativeCodeLoader:Unabletoloadnative-hadoopl

Windows Ubuntu hadoop section localhost linux bash

hadoop - 在 Spark SQL 中使用正则表达式函数从字符串中提取特定数字

我在mysql中有一个表，它有POST_ID和相应的INTEREST:我使用以下正则表达式查询来选择包含1,2,3的兴趣。SELECT*FROMINTEREST_POSTwhereINTERESTREGEXP'(?=.*[[::]])(?=.*[[::]])(?=.*[[::]])';我在HDFS中导入了表。但是，当我在SparkSQL中使用相同的查询时，它显示空记录。如何在spark中使用这里的REGEXP函数来选择包含1,2,3的兴趣？最佳答案您正在使用的正则表达式需要稍微更改一下。您可以执行以下操作。scala>valmy

hadoop Spark INTEREST section POST apache-spark-sql

hadoop - 在具有 JSON 数据的 Parquet 文件上创建 Hive 表

我要达到的目标从源大JSON文件中获取数据(employee-sample.json)一个简单的spark应用程序，将其作为文本文件读取并存储在parquet(simple-loader.java)中。我不知道JSON文件中有什么，所以我不能放置任何模式，所以我想要读取模式，而不是写入模式。一个包含一列名为“值”的Parquet文件，其中包含已创建的JSON字符串在parquet文件上创建一个HIVE外部表，当我执行“select*fromtable”时，我看到一列带有JSON数据。我真正需要的是创建一个HIVE表，它可以读取“值”列中的JSON数据并应用架构和发出列，这样我就可以根据

Parquet hadoop 34 sparkSession String apache-spark hive hiveql

hadoop - Sqoop:多字符定界符

因为我在Hive表中的一个字段包含所有特殊字符，所以我使用MultiDelimitSerDe(~#)分隔了配置单元字段。现在需要使用Sqoopexport将这些数据导出到Mysql。而且我没有看到Sqoop使用多个分隔符导出。还有其他方法吗？这些字段具有数据类型-date、bigint、decimal(16,2)和char(3)。因此不能使用substr。最佳答案因为你的数据中有所有特殊字符，所以你可以在表中使用空格或制表符分隔符，并将sqoop导出的分隔符称为空格或制表符分隔符。arguments--input-field

多字 hadoop section 制表符 terminated sqoop

hadoop - hive 获取每个月的结束日期

我想要每个月的最后一个日期，例如1月31日、2月28日，等等。我在下面尝试使用current_date并且它有效但是当我使用我的日期列时它返回null:SELECTdatediff(CONCAT(y,'-',(m+1),'-','01'),CONCAT(y,'-',m,'-','01'))FROM(SELECTmonth(from_unixtime(unix_timestamp(C_date,'yyyyMMdd'),'yyyy-MM-dd'))asm,year(from_unixtime(unix_timestamp(C_date,'yyyyMMdd'),'yyyy-MM-dd'))a

hadoop hive 39 code unix_timestamp

hadoop - 使用 Hive、Tez 和偏移量执行查询

我正在尝试在试图排除特定记录的配置单元中执行偏移量查询，但总是收到以下错误:查询:select*fromsampleorderbyidlimit1OFFSET1;错误:FAILED:ParseExceptionline1:41missingEOFat'OFFSET'near'1'我尝试按照SO帖子中的建议删除表并重新创建它，但仍然遇到相同的错误。此外，我已经在配置单元中设置了TEZ引擎以加快数据处理速度，但上述查询会启动mapreduce作业。为什么会这样？当我执行另一个查询时，它通过TEZ引擎给我直接结果。任何人都可以向我解释这种奇怪的行为以及解决我的问题吗？环境:1)Clouder

偏移 hadoop code section 配置单 hive cloudera-cdh tez

hadoop - 以不同用户身份运行 Apache Zeppelin

如何以与启动该过程的用户不同的用户身份运行Zeppelin解释器？我想以“root”身份运行Zeppelin，然后以“admin”用户身份启动spark应用程序最佳答案您可以像当前一样继续运行Zeppelin，但以该管理员用户身份单独启动Spark进程。Spark解释器可以指向外部主机。打开Zeppelin解释器配置并更改spark主配置key的值，将其指向由管理员用户启动的实例。换句话说，你有一个spark进程:#Firstrunsparkasadmin:$/path/to/spark/sbin/start-all.sh#Th

Zeppelin hadoop section spark apache-spark apache-zeppelin

Hadoop 初学者 - 数据摄取和分析

HDFS存储结构化和非结构化数据。HIVE和IMPALA使我们能够编写sql查询，然后将其转换为MapReduce。用户如何了解存储数据的模式或如何根据存储在HDFS中的数据形成这些表？最佳答案如果您使用Parquet文件格式，可以使用工具直接检查文件block。参见this例如。大多数hadoop文件格式也有类似的方便工具，例如https://orc.apache.org/docs/tools.html对于兽人文件。关于Hadoop初学者-数据摄取和分析，我们在StackOver

摄取初学 section https noreferrer hadoop hive impala