HADOOP_PREFIX

hadoop - 格式无效 : "19690321" is too short

我正在尝试使用pig将yyyyMMdd格式转换为yyyy/MM/dd格式，因为我在下面编写了代码。代码:STOCK_A=LOAD'/user/root/xxxx/*'USINGPigStorage('|');data=FILTERSTOCK_ABY($1matches'.*ID.*');MSH_DATA=FOREACHdataGENERATEToDate($8,'yyyy/MM/dd','UTC')ASdob;当我尝试转储结果时，出现以下错误。ERRORorg.apache.pig.tools.pigstats.SimplePigStats-ERROR0:Exceptionwhilee

hadoop - 如何按点和相应的多边形连接 2 个配置单元表？

我有2个Hive表。表1在2列中有经度和纬度，第二个表有WKT格式的多边形信息，如下所示:POLYGON((6.9361479.842882,6.95019879.856958,6.94363879.877815,6.93179579.877129,6.9256679.861507,6.91918479.861507,6.91790679.847603,6.9361479.842882))我想找出表1中的哪些点属于哪些多边形。我正在尝试使用Hadoop的ST_Geometric库(https://github.com/Esri/spatial-framework-for-hadoop/

配置单多边 section code hadoop hive gis hiveql

hadoop - 如何从配置单元中的同一个数据库中获取两个表的不匹配记录？

例如:selectusername,countryfromtable1MinusSelectusername,countryfromtable2;上面的负查询在RDBMS中有效，但我希望使用配置单元获得相同的结果。我们可以在hive中使用join来获得结果吗？如果是这样，如何使用配置单元查询获得正确的结果。最佳答案从Hive2.3.0(2017年7月17日发布)开始支持集合操作(除了UNION之外还支持MINUS/EXCEPT/INTERSECT)https://issues.apache.org/jira/browse/H

配置单 hadoop username country table hive

hadoop - Phoenix sql 查询不适用于大型数据集

我在hbase中有500万条记录，并试图找到记录的总数，然后我在使用phoenix命令行时遇到以下错误。Error:org.apache.phoenix.exception.PhoenixIOException:Failedtogetresultwithintimeout,timeout=60000ms(state=08000,code=101)org.apache.phoenix.exception.PhoenixIOException:org.apache.phoenix.exception.PhoenixIOException:Failedtogetresultwithintim

Phoenix 大型 java apache hadoop hbase apache-phoenix bigdata

hadoop - 配置单元 : getting parseexception in simple create external table query

我已经在mac上设置了hive。在执行简单的创建外部表查询时。我正在跟踪堆栈跟踪:hive>CREATEEXTERNALTABLEweatherext(wbanINT,dateSTRING)>ROWFORMATDELIMITED>FIELDSTERMINATEDBY‘,’>LOCATION‘/hive/data/weatherext’;NoViableAltException(80@[])atorg.apache.hadoop.hive.ql.parse.HiveParser.columnNameTypeOrPKOrFK(HiveParser.java:33341)atorg.apac

配置单 parseexception hadoop apache hive hadoop2

hadoop - 如何在使用 SerDe 从 HIVE 中的列中删除引号时跳过表中的列

我面临与SERDE引用删除相关的问题。我有表格跟踪器。我必须从所有列中删除双引号，但必须跳过包含json(Product)的列。当我从CSV文件加载数据时，它还会从json数据中删除引号。CREATEEXTERNALTABLEIFNOTEXISTSTRACKER(SUBSCRIBERSTRING,SERIALSTRING,PRODUCTSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES("separatorChar"=",","quoteChar"="\"","esca

引号何在 34 strong section hadoop hive

amazon-web-services - Hadoop配置属性

在我的Spark代码中，我必须在HadoopConfiguration中设置ACCESS_KEY和SECRET_KEY才能访问AWS-S3。在互联网上，我找到了多种设置这些属性的方法。例如样式#1，sc.hadoopConfiguration.set("fs.s3n.access.key",AWS_ACCESS_KEY)sc.hadoopConfiguration.set("fs.s3n.secret.key",AWS_SECRET_KEY)样式#2，sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId",AWS_ACCESS_KEY)sc

amazon-web-services services strong code hadoop apache-spark properties

hadoop - Apache Airflow 分布式处理

我对ApacheAirflow的架构感到困惑。如果我知道，当您在oozie中执行hql或sqoop语句时，oozie会将请求定向到数据节点。我想在ApacheAirflow中实现同样的目标。我想执行shell脚本、hql或sqoop命令，并且我想确保我的命令正在由数据节点分布式执行。Airflow有不同的执行器类型。我应该怎么做才能同时在不同的数据节点上运行命令？最佳答案您似乎想在分布式工作人员上执行您的任务。在这种情况下，请考虑使用CeleryExecutor。CeleryExecutorisoneofthewaysyouca

Airflow hadoop section CeleryExecutor oozie apache-airflow airflow-scheduler

hadoop - Wordcount Nonetype 错误 pyspark-

我正在尝试进行一些文本分析:defcleaning_text(sentence):sentence=sentence.lower()sentence=re.sub('\'','',sentence.strip())sentence=re.sub('^\d+\/\d+|\s\d+\/\d+|\d+\-\d+\-\d+|\d+\-\w+\-\d+\s\d+\:\d+|\d+\-\w+\-\d+|\d+\/\d+\/\d+\s\d+\:\d+','',sentence.strip())#datesremovedsentence=re.sub(r'(.)(\/)(.)',r'\1\3',sen

Wordcount Nonetype sentence 39 code hadoop pyspark text-analysis

hadoop - 如何将 janusgraph 与现有的 hadoop 集群集成

我是大数据的新手，目前正在努力将Janusgraph集成到现有的hadoop集群中。能否请您告诉我如何执行此操作，或者请提供资源链接。最佳答案由于您刚刚开始使用JanusGraph，因此您应该从位于http://docs.janusgraph.org/latest/的官方文档开始。JanusGraph需要存储后端。有几个支持storagebackends.ApacheHadoop本身并不是JanusGraph的存储后端。ApacheHBasestoragebackend很可能是您可能拥有的。

hadoop janusgraph section noreferrer cluster-computing

113 114 115116117 118 119