草庐IT

platform_metadata

全部标签

hadoop - Hortonworks Data Platform HDP 2.1 启动 Namenode 错误

我已经在SUSE11VM中安装了HDP2.1.1.0。格式化后第一次尝试启动名称节点时收到以下错误:/usr/lib/hadoop-hdfs/bin/../libexec/hdfs-config.sh:Nosuchfileordirectory/usr/lib/hadoop-hdfs/bin/hdfs:line206:exec::notfound请为此提出一些解决方案。仅供引用:我也更新了.bashrc文件中的libexec路径详细信息。仍然遇到同样的问题。 最佳答案 我发现在从HDP2.1存储库安装Hadooprpm时,libex

oracle - 使用外部 Oracle 数据库设置 IBM Open Platform

当我尝试使用Oracle数据库作为RDBMS安装单节点IBMOpenPlatform集群时,我有点困惑。首先,我了解到IBMBigInsights的Hadoop部分不是相应Apache版本的修改版本(如HortonWorks所做的那样),因此,当Ambari(来自IBM存储库)让我使用外部Oracle数据库时,我想它应该工作。我可能是错的,我在蹩脚的IBM安装指南中找不到任何oracle引用来正确设置它(只是它应该适用于Oracle11gR2)因此,就像我使用等效的HortonWorks发行版(但使用来自IBM的二进制文件)一样,我使用所有oracle参数设置我的ambari-serv

apache-spark - 阅读时忽略了 Spark 中已排序文件的 Parquet 摘要文件 (_metadata)?

我有一个包含不同列和ID的排序数据集。数据集已排序(也使用parquet-tools验证):示例:file1:ID1-10file2:ID10-12file3:ID12-33....我还生成并编写了_metadata和_common_metadata文件。我尝试使用过滤器查询(非常大的)数据集valmydata=spark.read.parquet("s3a://.../mylocation")valresult=mydata.filter(mydata("id")===11)result.explain(true)解释告诉我:==ParsedLogicalPlan==Filter(i

java - Hadoop 2.7.3 WARN util.NativeCodeLoader : Unable to load native-hadoop library for your platform. .. 在适用的情况下使用内置 java 类

我在debianjessie上安装hadoop时遇到问题,运行脚本start-dfs.sh时收到警告hadoop@debian1:~$/usr/local/hadoop/sbin/start-dfs.sh24年3月17日10:40:00警告util.NativeCodeLoader:无法为您的平台加载nativehadoop库...在适用的情况下使用内置java类在[localhost]上启动名称节点localhost:启动namenode,记录到/usr/local/hadoop/logs/hadoop-hadoop-namenode-debian1.outlocalhost:启动d

azure - 使用 NiFi 从 Azure 到 Google Cloud Platform 的数据流

我的目标是使用NiFi将json/xml文件从Azure移动到GoogleCloudPlatform(GCP)>。在我所有的研发之后,我发现了一些可能有用的处理器。列表如下:获取文件放置文件putGCSObject-将数据放入GCPFoundthislinkasanalternativetogetfilesfromAzuresincethereisnoin-builtprocessoravailable上面的链接很复杂。所以根据我的目标,我走对了吗?我需要额外的处理器吗??以及在定义此流程时我需要进行的任何重要配置?请帮助我,因为我是新手并且刚刚开始使用NiFi

hadoop - Google Cloud Platform for NiFi 数据路径

我想在NiFi的GetFile处理器中给出inputfolder的位置。根据NiFi,我提供的路径不正确。它仍然显示警告标志。我跟着这个link但它不能提供太多帮助。下面是我在GetFile处理器的inputpath属性中使用的路径:/browser//我什至试过下面的链接gs://或gs://browser/他们都没有帮助。按照Shu的建议,我创建了一个ListGCSBucket处理器并为其创建了一个新的GCPCredentialsService但是当我运行这个处理器时它给出了一个错误:com.google.cloud.storage.StorageException:NotFoun

hadoop - java.lang.RuntimeException : org. apache.hadoop.hive.ql.metadata.HiveException : org. apache.hadoop.ipc.RemoteException : java. io.IOException:

当我尝试运行配置单元查询以将数据插入配置单元外部表时,我遇到了一个问题。该过程在减少时失败。诊断控制台信息如下:Taskwiththemostfailures(4):-----TaskID:task_201709171147_0059_r_000005URL:http://localhost:50030/taskdetails.jsp?jobid=job_201709171147_0059&tipid=task_201709171147_0059_r_000005-----DiagnosticMessagesforthisTask:java.lang.RuntimeException:

hadoop - 为什么 ./bin/spark-shell 给出 WARN NativeCodeLoader : Unable to load native-hadoop library for your platform?

在MacOSX上,我使用以下命令从源代码编译了Spark:jacek:~/oss/spark$SPARK_HADOOP_VERSION=2.4.0SPARK_YARN=trueSPARK_HIVE=trueSPARK_GANGLIA_LGPL=truexsbt...[info]Setcurrentprojecttoroot(inbuildfile:/Users/jacek/oss/spark/)>;clean;assembly...[info]Packaging/Users/jacek/oss/spark/examples/target/scala-2.10/spark-example

hadoop - Hive 在尝试从表中选择时显示 org.apache.hadoop.hive.ql.metadata.HiveException

我试着按照这个documentation当我到达创建外部表步骤时:创建外部表ams_audit_trail(job_id整数、application_id整数、操作字符串)由'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler'存储TBLPROPERTIES("dynamodb.table.name"="ams_audit_trail","dynamodb.column.mapping"="job_id:job_id,application_id:application_id,actions:actions");当我尝试从中选择

Hadoop “Unable to load native-hadoop library for your platform” 警告

我正在使用PySpark,并没有安装Hadoop。我收到此警告Hadoop“Unabletoloadnative-hadooplibraryforyourplatform”warning。我是否需要安装Hadoop,如果是的话,鉴于我已经在我的系统上安装了PySpark,我该如何继续?请注意,我是Hadoop生态系统的新手。 最佳答案 这只是一个警告,您可以忽略它。Spark和pyspark可以在没有hadoop的情况下使用。你可以在这个链接上循环:https://community.hortonworks.com/question