草庐IT

scala - Spark-scala 如何使用 HDFS 目录分区

为了减少处理时间,我按日期对数据进行分区,以便我只使用所需的日期数据(不是完整的表格)。所以现在在HDFS中,我的表格存储如下src_tbl//maindirtrg_tbl2016-01-01//subdir2015-12-302016-01-022015-12-312016-01-032016-01-012016-01-03现在我想从src_tbl中选择min(date)这将是2016-01-01从trg_tbl我想使用>=2016-01-01(src_tblmin(date))目录中的数据2016-01-01和2016-01-03数据`如何使用Spark-scala从hdfs选择所

python - PySpark:使用 newAPIHadoopFile 从多行记录文本文件中读取、映射和减少

我正在尝试解决一个类似于thispost的问题.我的原始数据是一个文本文件,其中包含多个传感器的值(观测值)。每个观察都带有时间戳,但传感器名称只给出一次,而不是在每一行中给出。但是一个文件中有多个传感器。TimeMHist::852-YF-0072016-05-1000:00:0002016-05-0923:59:0002016-05-0923:58:0002016-05-0923:57:0002016-05-0923:56:0002016-05-0923:55:0002016-05-0923:54:0002016-05-0923:53:0002016-05-0923:52:0002

hadoop - 无法从给定路径 : hdfs://. 读取架构 ..avsc

我尝试通过以下步骤创建一个配置单元表:使用sqoop将数据加载到hdfs(完成)sqoop还创建了一个avsc文件,我将其上传到hdfs在配置单元中,我想使用以下语句创建一个表:命令:CREATEEXTERNALTABLEkontoauszugROWFORMATSERDE'org.apache.hadoop.hive.serde2.avro.AvroSerDe'STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive

Hadoop 文件系统大小 du 命令

我想知道hadoopfs-du的两个输出是什么意思。文档上不清楚:In[16]:subprocess.call(["hadoop","fs","-du","-h","/project/crm/warehouse/"])输出:5.9G17.8G/project/crm/warehouse/n98770_patron_1路径的实际大小是多少?5.9GB还是17.8?谢谢 最佳答案 第一列是实际的文件或目录大小,第二列是复制实际消耗的空间由于HDFS复制您的数据,第二个字段显示它之后占用的总磁盘空间量。在这种情况下,您的总尺寸为17.8,

hadoop - Hive 中 MetaStore 的主要用途?

我对MetaStore的用途有点困惑。在hive中创建表时:CREATETABLE(column1data_type,column2data_type);LOADDATAINPATHINTOtablemanaged_table;所以我知道这个命令获取HDFS中文件的内容并创建它的MetaData形式并将其存储在MetaStore中(包括每行的列类型,列名,它在HDFS中的位置等)在HDFS文件中)。它实际上并没有将数据从HDFS移动到Hive。但是存储这个元数据的目的是什么?例如,当我使用SparkSQL连接到Hive时,MetaStore不包含HDFS中的实际信息,而只包含元数据。那

hadoop - Spark RDD 和 HDFS 数据 block 的区别

请帮助我理解HDFS的数据block和Spark中的RDD之间的区别。HDFS将数据集分发到集群中的多个节点作为具有相同大小的block,数据block将被复制多次并存储。RDD被创建为并行集合。Parallelized集合的元素是跨节点分布还是存储在内存中处理?和HDFS的数据block有关系吗? 最佳答案 IsthereanyrelationtoHDFS'datablocks?一般不会。他们解决不同的问题RDD是关于分配计算和处理计算失败的。HDFS用于分配存储和处理存储故障。分布是公分母,但仅此而已,故障处理策略明显不同(分别

Hadoop 错误 du : java. util.ConcurrentModificationException

在我的HDFS集群上工作时,出现此错误du:java.util.ConcurrentModificationException每当我运行时hdfsdfs-du-h-s/some/path/上网一查,发现是Hadoop2.7.0的bug。 最佳答案 为了解决这个问题,我不得不删除一些Hadoop快照文件。我相信某个/某些快照已损坏,因为几天前我的一个数据节点从我的集群中不干净地退役了。hdfslsSnapshottableDirdrwxr-xr-x0hdfssupergroup02018-01-3017:04065536/data[h

hadoop - 如何在不将整个文件下载到本地磁盘的情况下下载 tar.gz 并将其打包到 hdfs?

我想从网上直接提取tar.gz文件到hdfs中。跳过下载到本地磁盘阶段,因为文件可能非常大。这一切都来自简单的cmd行脚本(bash、wget等) 最佳答案 好的,看起来这个衬垫有效:wget-O-http://...tar.gz|tarxfz---to-stodout|hadoopdfs-put-/somepath 关于hadoop-如何在不将整个文件下载到本地磁盘的情况下下载tar.gz并将其打包到hdfs?,我们在StackOverflow上找到一个类似的问题:

hadoop - 当我执行 distcp 时,映射器是否会在源或目标中运行

我在hadoop中运行Distcp以将数据从开发集群加载到生产集群。我的问题是资源将从何处获取。它是来自源还是目标? 最佳答案 Distcp在它运行的集群上分离出MapReduce作业。您可以在该集群上使用YarnUI来监控作业进度和利用率。假设您正在从Prod集群复制到Dev集群,并且担心资源利用率,那么您实际上可以在Dev集群上运行Distcp作业并让它从Prod集群“拉取”数据。 关于hadoop-当我执行distcp时,映射器是否会在源或目标中运行,我们在StackOverflo

hadoop - Pig Latin JOIN 错误

我正在加载两个数据集A、BA=LOAD[datapath]B=LOAD[datapath]我想通过id字段连接A和B的所有字段。A和B都有公共(public)字段id和其他字段。当我通过id执行JOIN时:AB=JOINAbyid,Bbyid;结果数据集AB包含两个类似的字段id列,但是,它只能显示id字段的一列。我在这里做错了什么? 最佳答案 这是预期的行为,当连接两个数据集时,所有列都包括在内(即使是您连接的那些列)可以查一下here如果你想删除一个列,你可以使用generate语句来完成。但首先您需要知道不需要的列的位置。例如