rich-client-platform

oracle - 使用外部 Oracle 数据库设置 IBM Open Platform

当我尝试使用Oracle数据库作为RDBMS安装单节点IBMOpenPlatform集群时，我有点困惑。首先，我了解到IBMBigInsights的Hadoop部分不是相应Apache版本的修改版本(如HortonWorks所做的那样)，因此，当Ambari(来自IBM存储库)让我使用外部Oracle数据库时，我想它应该工作。我可能是错的，我在蹩脚的IBM安装指南中找不到任何oracle引用来正确设置它(只是它应该适用于Oracle11gR2)因此，就像我使用等效的HortonWorks发行版(但使用来自IBM的二进制文件)一样，我使用所有oracle参数设置我的ambari-serv

hadoop - 在 spark 上执行 hive 查询 - java.lang.NoClassDefFoundError org/apache/hive/spark/client/Job

我试图让HiveonSpark正常工作，但它似乎没有加载hive-exec-2.0.1.jar。我可以让Hiveonmr工作得很好。我正在使用Hive2.0.1和Spark1.6.1。遵循了HiveonSpark教程。我在hive-site.xml上设置了所有必要的属性，将sparkassemblyjar链接到hivelib文件夹中，我已经设置了所有环境变量(SPARK_HOME等)。我启动了Sparkmaster和worker。还以DEBUG级别启动了hiveserver2。尝试运行一个简单的查询“selectcount(*)...”，据我在配置单元日志中看到的那样，它执行带有所有必

spark NoClassDefFoundError java URLClassLoader ClassLoader hadoop apache-spark hive

hadoop - 配置 hadoop-client 以连接到其他机器/服务器中的 hadoop

在服务器A上，我有用于在hadoop上执行任务的hadoop和python脚本。在服务器B上，我有配置单元/hadoop。是否可以在服务器A上配置hadoop-client连接到服务器B上的hadoop？最佳答案不清楚您使用的是什么Python库，但假设是PySpark，您可以在客户端计算机上复制或配置HADOOP_CONF_DIR，它可以与任何外部Hadoop系统通信。至少，您需要配置一个core-site.xml来与HDFS通信，并配置一个hive-site.xml来与Hive通信。如果您使用PyHivelibrary，您只

hadoop hadoop-client section code hive

hadoop - 报告平台应该选择 yarn-cluster 还是 yarn-client？

我打算做的是使用现有数据开发一个报告平台。我有一个包含大量记录的现有RDBMS。所以我在用。(Hadoop2.7,Spark,Hive,JasperReports,Scoop-Architecuture)Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。鉴于我已经阅读了以下内容Whatisyarn-clientmodeinSpark?Differencebetweenyarn-clientmodeandyarn-clustermode我应该使用

yarn yarn-cluster section noreferrer hadoop apache-spark hadoop-yarn

java - Hadoop 2.7.3 WARN util.NativeCodeLoader : Unable to load native-hadoop library for your platform. .. 在适用的情况下使用内置 java 类

我在debianjessie上安装hadoop时遇到问题，运行脚本start-dfs.sh时收到警告hadoop@debian1:~$/usr/local/hadoop/sbin/start-dfs.sh24年3月17日10:40:00警告util.NativeCodeLoader:无法为您的平台加载nativehadoop库...在适用的情况下使用内置java类在[localhost]上启动名称节点localhost:启动namenode，记录到/usr/local/hadoop/logs/hadoop-hadoop-namenode-debian1.outlocalhost:启动d

java NativeCodeLoader hadoop section debian bigdata

azure - 使用 NiFi 从 Azure 到 Google Cloud Platform 的数据流

我的目标是使用NiFi将json/xml文件从Azure移动到GoogleCloudPlatform(GCP)>。在我所有的研发之后，我发现了一些可能有用的处理器。列表如下:获取文件放置文件putGCSObject-将数据放入GCPFoundthislinkasanalternativetogetfilesfromAzuresincethereisnoin-builtprocessoravailable上面的链接很复杂。所以根据我的目标，我走对了吗？我需要额外的处理器吗？？以及在定义此流程时我需要进行的任何重要配置？请帮助我，因为我是新手并且刚刚开始使用NiFi

Platform Google code section Azure hadoop google-cloud-platform bigdata apache-nifi

hadoop - Google Cloud Platform for NiFi 数据路径

我想在NiFi的GetFile处理器中给出inputfolder的位置。根据NiFi，我提供的路径不正确。它仍然显示警告标志。我跟着这个link但它不能提供太多帮助。下面是我在GetFile处理器的inputpath属性中使用的路径:/browser//我什至试过下面的链接gs://或gs://browser/他们都没有帮助。按照Shu的建议，我创建了一个ListGCSBucket处理器并为其创建了一个新的GCPCredentialsService但是当我运行这个处理器时它给出了一个错误:com.google.cloud.storage.StorageException:NotFoun

Platform hadoop code noreferrer noopener google-cloud-platform bigdata apache-nifi

python - 无法在 yarn-client 模式下运行 pyspark(pyspark standalone 正在运行)

我可以在输入以下命令时运行spark$pyspark和$pyspark--masterlocal[2]但当我运行这个时不是-$pyspark--masteryarn客户端它给了我一个巨大的堆栈跟踪，它在下面给出或更清楚地可用here$pyspark--masteryarn-clientPython2.7.6(default,Jun222015,17:58:13)[GCC4.8.2]onlinux2Type"help","copyright","credits"or"license"formoreinformation.Warning:Masteryarn-clientisdepreca

pyspark yarn-client java spark apache python hadoop apache-spark hadoop-yarn

Eclipse MapReduce 插件错误 : Server IPC version 7 cannot cannot communicate with client version 3

当我尝试连接到MapReduce位置时，我的笔记本电脑(我有我的eclipse和mapreduce插件)是一个namenode和datanode的集群，我得到错误:服务器IPC版本7无法与客户端版本3通信。我试图在谷歌上找到一些信息，但找不到太多。是不是因为我的mapreduceeclipse插件使用旧版本的IPC而hadoop集群有更新的版本。所以只是我使用的是过时的插件？如何找到我的eclipse插件使用的IPC版本？有什么想法吗？最佳答案是的，这听起来像是版本不兼容。假设您的hadoop发行版有源代码，您可以为该版本重新编

version cannot section eclipse hadoop mapreduce hadoop-plugins

hadoop - 使用不同的 hadoop-mapreduce-client-core.jar 运行 hadoop 集群

我在安装了CDH4.2.0的hadoop集群上工作并遇到了this错误。它已在更高版本的hadoop中得到修复，但我无权更新集群。有没有办法告诉hadoop在通过命令行参数运行我的工作时使用这个jarhadoopjarMyJob.jar-Dhadoop.mapreduce.client=hadoop-mapreduce-client-core-2.0.0-cdh4.2.0.jar新的mapreduce-client-core.jar文件是票证中的补丁jar。或者必须用这个新的jar完全重新编译hadoop？我是hadoop的新手，所以我不知道所有可能的命令行选项。

hadoop hadoop-mapreduce-client-core section jar java-opts