hdfs_clusters_草庐IT

hadoop - 使用 Apache Solr 导入或索引 Hive/HDFS 数据

我想使用ApacheSolr导入或索引存储在HDFS上的Parquet文件中的Hive表。据我所知，第一步是将数据导入或索引到solr，但我对此知之甚少。这些是我的问题:选择哪种方式:DataImportHandler(DIH),HTTP?Solr4.9支持索引HDFS，有什么不同？环境:solr4.10+CDH5.11请帮忙。最佳答案尝试以下:-1.)在hive中创建一个基表hive>创建表solrinput3(用户名字符串)行格式分隔字段以','结尾；2.)将示例数据加载到表“solrinput3”中，如下所示:hive>i

apache-spark - spark 中的 Hdfs 文件访问

我正在开发一个应用程序，我从hadoop读取一个文件，处理并将数据存储回hadoop。我很困惑什么应该是正确的hdfs文件路径格式。从sparkshell读取hdfs文件时，如valfile=sc.textFile("hdfs:///datastore/events.txt")它工作正常，我能够阅读它。但是当我将jar加到包含相同代码集的yarn时，它给出了错误提示org.apache.hadoop.HadoopIllegalArgumentException:Uriwithoutauthority:hdfs:/datastore/events.txt当我将名称节点ip添加为hdfs:

spark apache-spark section hdfs code hadoop spark-submit

scala - 写入 HDFS - hive 时如何控制 Spark 流中的行数和/或输出文件大小？

使用SparkStreaming读取和处理来自Kafka的消息并写入HDFS-Hive。由于我希望避免创建许多垃圾文件系统的小文件，我想知道是否有办法确保最小文件大小和/或强制文件中输出行数最少的能力，除了超时。谢谢。最佳答案据我所知，无法控制输出文件中的行数。但是您可以控制输出文件的数量。控制它并考虑您的数据集大小可能会帮助您满足您的需求，因为您可以计算输出中每个文件的大小。您可以使用coalesce和repartition命令执行此操作:df.coalesce(2).write(...)df.repartition(2).w

scala Spark code section repartition apache-spark hadoop apache-kafka spark-streaming

apache-spark - Apache Spark : Differences between client and cluster deploy modes

TL;DR:在SparkStandalone集群中，客户端和集群部署模式有何区别？如何设置我的应用程序要运行的模式？我们有一个包含三台机器的SparkStandalone集群，它们都装有Spark1.6.1:一台主机，也是我们使用spark-submit运行我们的应用程序的地方2台相同的worker机器来自SparkDocumentation，我读到:(...)Forstandaloneclusters,Sparkcurrentlysupportstwodeploymodes.Inclientmode,thedriverislaunchedinthesameprocessasthecl

apache-spark Differences code Spark section apache-spark-standalone

hadoop - 使用hdfs目录建表时如何指定时间戳格式

我的hdfs存储中的path/to/file中有以下csv文件。1842,10/1/20170:027424,10/1/20174:06我正在尝试使用以下命令创建一个表:createexternaltablet(numberstring,reported_timetimestamp)ROWFORMATdelimitedfieldsterminatedBY','LOCATION'path/to/file';我可以在impala查询编辑器中看到t表中的reported_time列始终为空。我想这是因为我的时间戳不是可接受的时间戳格式。问题:如何指定时间戳列应为dd/mm/yyyyhh:mi

hadoop hdfs code section reported_time hive cloudera impala

hadoop - hdfs ls on directory 返回 No such file or directory 错误

HDFSls在以下两个目录上返回Nosuchfileordirectory错误。[mybox]$hdfsdfs-ls/data/tdc/dv1/corp/base/dpp/raw/load_date=2018-05-01/|grepTenantdrwxr-xr-x-tdcdv1rtdcdv1c02018-05-0118:28/data/tdc/dv1/corp/base/dpp/raw/load_date=2018-05-01/rtng_ky=Access.NBNOrder.Amend.Info.{Tenant}.Rejected.v2.eventdrwxr-xr-x-tdcdv1rt

directory hadoop section load_date Tenant filesystems hdfs

mysql - 在 Cloudera 中使用 sqoop 将数据从 HDFS 导出到 mysql 时作业失败

我正在导出HDFS位置/user/training/sqoop_import/departments_export目录中存在的departments_export文件的HDFS数据。以下是文件中的记录。2,Fitness3,Footwear4,Apparel5,Golf6,Outdoors7,FanShop8,Development1000,Admin1001,Books我想将数据导出到名为departments_export(department_idint,department_namevarchar)的mysql表中。此表已包含以下数据mysql>select*fromdepar

mysql Cloudera DFSOutputStream java DataStreamer hadoop sqoop

mongodb - 是否可以将数据库直接从 HDFS 作为 DataFrame 加载到 spark 中？

我的MongoDB和Spark在Zeppelin上运行，它们共享相同的HDFS。MongoDB生成一个存储在同一个HDFS中的.wt数据库。我想将MongoDB生成的数据库集合从HDFS加载到SparkDataFrame中。是否可以将数据库直接从HDFS作为DataFrame加载到spark中？还是我需要使用MongoDBSpark连接器？最佳答案我不建议阅读或修改内部WiredTigerStorageEngine's*.wt文件。首先，这些内部文件可能会在没有通知的情况下更改(不是面向公众的API)，而且对这些文件的任何意外修

DataFrame mongodb section noreferrer apache-spark hadoop hdfs

bash - 在特定作业上运行 SHell 脚本时如何从 HDFS 获取最新的有效分区日期？

我的任务是为特定的Spark作业实现所有分配的表。我需要根据要为分配给作业的所有表打印的时间戳和路径编写脚本。我需要获取与该作业关联的表关联的所有时间戳。这是我开发的脚本。#!/usr/bin/envbashJOB_NAME=${1}inputDirListings=$(awk-F:-vkey="$1"'$1==key{print$2}'test_paths.txt)fordirin$(echo$inputDirListings|tr",""\n");dopath=$direcho"diris$path"cmd2='hdfsdfs-du-h$path'ev1=`eval$cmd2|ta

定作 SHell 34 echo section bash apache-spark hadoop

apache-spark - 写入数据后使用 .saveAsTable 写入 HDFS 时出现 TImeout 错误

我在EMR上运行Spark2.3，并尝试使用Scala将数据写入HDFS，如下所示:dataframe.write.partitionBy("column1").bucketBy(1,"column2").sortBy("column2").mode("overwrite").format("parquet").option("path","hdfs:///destination/").saveAsTable("result")写入数据并完成任务后，我收到超时错误。错误发生后，我可以在HDFS中看到已完全处理的数据。为什么会出现这个错误？有什么意义吗？看起来主节点正在尝试与另一个IP(

时出 apache-spark apache hadoop other_ip hdfs