csv_data

csv - Hadoop Pig - 删除 csv header

我的csv文件在第一行有标题。将它们加载到pig中会对任何后续函数(如SUM)造成困惑。从今天开始，我首先对加载的数据应用过滤器以删除包含标题的行:affaires=load'affaires.csv'usingPigStorage(',')as(NU_AFFA:chararray,date:chararray);affaires=filteraffairesbydatematches'../../..';我认为它作为一种方法有点愚蠢，我想知道是否有一种方法可以告诉pig不要加载csv的第一行，例如加载函数的“as_header”bool参数。我没有在文档上看到它。最佳做法是什么？你通

Hadoop- hive : Delete data which is older than specified no of days

我正在从事一个电信项目，该项目使用Hadoop-hive进行数据分析。一天，我们将获得数百万条记录。在指定的天数之后，我们需要删除旧数据，因为我们没有存储容量。删除记录的最佳方法是什么？附加信息:这些配置单元表将有一个包含填充日期的列。最佳答案我认为您的用例非常适合在Hive表中使用“日”分区。如果“天”只是一列，那么维护和清理表格将变得困难。分区在Hive中的真正含义是每个“天”都有一个目录例如:createtablemytable(...)partitionedby(daystring)因此，当您添加数据时，您将在HDFS中

specified Hadoop code section mytable hive bigdata

sql - 配置单元中 `load data inpath ` 和 `location` 之间的区别？

在我的公司，我经常看到这两个命令，我想知道它们之间的区别，因为它们的功能对我来说似乎是一样的:1createtable(namestring,numberdouble);loaddatainpath'/directory-path/file.csv'into;2createtable(namestring,numberdouble);location'/directory-path/file.csv';它们都将数据从HDFS上的目录复制到HIVE上的表目录中。使用这些时是否应该注意差异？谢谢你。最佳答案是的，它们的用途完全不同。

配置单 location strong section code sql hadoop hive hdfs hiveql

hadoop - Map Reduce 输出到 CSV 还是我需要键值？

我的map函数产生一个键\t值值=列表(值1、值2、值3)然后我的reduce函数产生:Key\tCSV-Line例如2323232-2322fdsfs,sdfs,dfsfs,0,0,0,2,fsda,3,23,3,s,2323555-22222dfasd,sdfas,adfs,0,0,2,0,fasafa,2,23,s例。原始数据:232342|@3423@|34343|sfasdfasdF|433443|Sfasfdas|324343x1000无论如何，我想删除开头的key，这样我的客户就可以直接导入到mysql中。我有大约50个数据文件，我的问题是在它映射一次并且reducer启

hadoop Reduce section IntWritable code mapreduce hadoop-streaming elastic-map-reduce

csv - 如何将 sas7bdat 文件转换为 csv？

我想将.sas7bdat文件转换为.csv/txt格式，以便我可以将其上传到配置单元表中。我从外部服务器接收.sas7bdat文件，但我的机器上没有SAS。最佳答案使用R外部包之一读取文件，然后使用该工具转换为CSV。http://cran.r-project.org/doc/manuals/R-data.pdf第12页改用SAS7BDAT包。它似乎忽略了自定义格式，读取基础数据。在SAS中:procformat;valueagegrplow-12='PreTeen'13-15='Teen'16-high='Driver';ru

csv sas7bdat section 7bdat hadoop hive sas hdfs

hadoop - 无法在从 HDFS 读取 CSV 的 HIVE 中创建表

通过从HDFS读取.csv文件在Hive中创建表时遇到问题。查询如下:CREATEEXTERNALTABLEtestmail(memberIdString,emailString,sentdateString,actiontypeString,actiondateString,campaignidString,campaignnameString)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','LOCATION'/user/hadoop/cloudera/ameeth/ca_email.csv';获取错误。元数据错误:MetaException(messa

中创 hadoop String section hive hdfs

shell - get "ERROR: Can' t 从 ZooKeeper 获取主地址； znode data == null"使用 Hbase shell 时

我安装了Hadoop2.2.0和Hbase0.98.0，这是我所做的:$./bin/start-hbase.sh$./bin/hbaseshell2.0.0-p353:001>list然后我得到了这个:ERROR:Can'tgetmasteraddressfromZooKeeper;znodedata==null为什么我会收到这个错误？另一个问题:我需要在运行base之前运行./sbin/start-dfs.sh和./sbin/start-yarn.sh吗？另外，./sbin/start-dfs.sh和./sbin/start-yarn.sh有什么用？这是我的一些conf文档:hbas

amp shell code gt lt hadoop hbase

hadoop/hdfs/name 处于不一致状态 : storage directory(hadoop/hdfs/data/) does not exist or is not accessible

我已经尝试了stackoverflow提供的关于这个主题的所有不同解决方案，但没有帮助再次询问具体日志和详细信息感谢任何帮助我的Hadoop集群中有一个主节点和5个从节点。ubuntu用户和ubuntu组是~/Hadoop文件夹的所有者~/hadoop/hdfs/data&~/hadoop/hdfs/name文件夹都存在两个文件夹的权限都设置为755在启动脚本start-all.sh之前成功格式化namenode脚本无法启动“名称节点”这些都在主节点上运行ubuntu@master:~/hadoop/bin$jps7067TaskTracker6914JobTracker7237Jps

hadoop hdfs namenode apache nodes

hadoop - 如何将用双引号括起来并用制表符分隔的 CSV 数据加载到 HIVE 表中？

我正在尝试从csv文件加载数据，其中的值用双引号'"'括起来，制表符分隔'\t'。但是当我尝试将其加载到配置单元时，它不会抛出任何错误并且数据加载时没有任何错误但我认为所有数据都被加载到单个列中并且大多数值显示为NULL。下面是我的建表语句。CREATETABLEexample(organizationSTRING,orderBIGINT,created_onTIMESTAMP,issue_dateTIMESTAMP,qtyINT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'ESCAPEDBY'"'STOREDASTEXTFILE;输入文件样本；-"

制表符引号 34 section hadoop hive

scala - 合并具有单个 header 的 Spark 输出 CSV 文件

我想在AWS中创建数据处理管道，最终将处理后的数据用于机器学习。我有一个Scala脚本，它从S3获取原始数据，对其进行处理并使用Spark-CSV将其写入HDFS或什至S3。如果我想使用AWSMachineLearning工具来训练预测模型，我想我可以使用多个文件作为输入。但如果我想使用其他东西，我认为最好是收到一个CSV输出文件。目前，由于我不想使用repartition(1)或coalesce(1)来提高性能，我使用了hadoopfs-getmerge用于手动测试，但由于它只是合并作业输出文件的内容，我遇到了一个小问题。我需要在数据文件中一行标题来训练预测模型。如果我对spark-

header scala strong hadoop apache csv apache-spark

144 145 146147148 149 150