Hadoop-Solr

hadoop - PIG 右移问题

我有一个CSV文件，其中包含以下方式的数据:data_id,data_text,data_author1,"heresometext...",anurag2,"Hi,iamapsc...",apsc3,"iamlivingin"NYC"",anotheruser我正在执行以下步骤来加载正确的数据方法1.temp=LOAD'filepath'USINGPigStorage(',');当我转储温度时，数据右移，因为第二条记录中有一个额外的逗号。方法二:使用新行作为分隔符加载数据temp=LOAD'filepath'USINGPigStorage('\n');它在1个包中给我1个记录。我再次

hadoop - 如何将文件复制到HDFS？

我正在尝试在我的本地机器上启动一个hadoop单节点集群。我根据https://amodernstory.com/2014/09/23/installing-hadoop-on-mac-osx-yosemite/配置了以下文件:hadoop-env.sh、core-site.xml、mapred-site.xml和hdfs-site.xml。当我运行脚本start-dfs.sh然后运行命令jps(在运行start-dfs.sh之后)我看到数据节点已启动并正在运行:15735Jps15548DataNode15660SecondaryNameNode15453NameNode几秒钟后，我

hadoop HDFS apache java

Hadoop加密区远程异常

我正在尝试在空目录/enc_zone2中创建一个加密区域。这是我正在使用的命令hdfscrypto-createZone-keyNamekey2-path/enc_zone2当我尝试使用查看键列表时hadoopkeylist-metadata我能够看到key2的元数据。但是，我在创建区域时遇到的错误是"RemoteException:Can'tcreateanencryptionzonefor/tempsincenokeyproviderisavailable."但是，KMS服务器已启动并在端口16000上运行。此外，列出key和列出区域的命令正在运行，这意味着key提供程序正在运行。

Hadoop 加密 apache java encryption hdfs

hadoop - SQOOP 在本地文件系统中导入存储数据而不是在 HDFS 中

我正在尝试通过sqoop将数据从mysql导入到hdfs，但是在将其存储数据导入到我的/home//文件夹中而不是hdfs中之后。sqoopimport-fslocal\-jtlocal\-libjars/tmp/sqoop-amar/compile/00992af844025da3f2ee7d83cb03a6b3/user_account.jar\--create-hive-table--connectjdbc:mysql://localhost/ecom\--usernameroot--password123456\--hive-import--tableuser_account

中导 hadoop section code stackoverflow sqoop

hadoop - 具有 6 到 7 个节点硬件配置的分布式 Spark 和 HDFS 集群

我计划旋转我的开发集群来为基础设施监控应用程序进行趋势分析，我计划使用Spark来分析故障趋势，并使用Cassandra来存储传入数据和分析数据。考虑从大约25000台机器/服务器(可能是不同服务器上的一组相同应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/秒，我计划将其插入具有时间戳、服务器作为主键和应用程序以及一些重要矩阵作为集群键的Cassandra表中。我将在此存储的信息之上运行Spark作业，以进行性能矩阵故障趋势分析。关于这个问题，考虑到上述情况，我需要多少个节点(机器)以及CPU和内存方面的什么配置来启动我的集群。最佳答案

hadoop Spark section Cassandra planning apache-spark matrix hardware-infrastructure

hadoop - 有关如何从 Hive 查询中设置 Hive 属性的示例

我需要一个快速示例来说明如何使用查询更改配置单元中的属性，例如，我想更改属性“mapred.reduce.tasks”，因此，如何在查询中执行此更改。我正在为HDPCD考试训练自己，考试的目标之一是“从Hive查询中设置Hadoop或Hive配置属性”所以我想这与在Hive控制台中执行类似的操作不同:setmapred.reduce.tasks=2; 最佳答案要更改Hadoop和Hive配置变量，您需要在Hive查询中使用set。所做的更改将仅适用于该查询sessionset-v打印所有Hadoop和Hive配置变量。SETmap

中设 Hive section code hadoop hql hortonworks-data-platform bigdata

hadoop - 从日期字段 Hive 获取星期几

需求是从日期字段中获取星期几，日期字段是"MM/dd/yyyy"，需要转换成"yyyy-MM-dd"我认为可以使用Unix_Timestamp完成日期转换但是如何从修改日期字段中获取星期几？在这方面的任何帮助都是有用的最佳答案从Hive2.2.0开始，使用extract(fieldFROMsource)获取星期几。例如:selectextract(dayofweekfrom"2016-10-2005:06:07")结果为5。更多信息请引用日期函数手册:https://cwiki.apache.org/confluence/dis

hadoop Hive section strong https hiveql

hadoop - 格式无效 : "19690321" is too short

我正在尝试使用pig将yyyyMMdd格式转换为yyyy/MM/dd格式，因为我在下面编写了代码。代码:STOCK_A=LOAD'/user/root/xxxx/*'USINGPigStorage('|');data=FILTERSTOCK_ABY($1matches'.*ID.*');MSH_DATA=FOREACHdataGENERATEToDate($8,'yyyy/MM/dd','UTC')ASdob;当我尝试转储结果时，出现以下错误。ERRORorg.apache.pig.tools.pigstats.SimplePigStats-ERROR0:Exceptionwhilee

amp 19690321 section code 39 hadoop apache-pig

hadoop - 如何按点和相应的多边形连接 2 个配置单元表？

我有2个Hive表。表1在2列中有经度和纬度，第二个表有WKT格式的多边形信息，如下所示:POLYGON((6.9361479.842882,6.95019879.856958,6.94363879.877815,6.93179579.877129,6.9256679.861507,6.91918479.861507,6.91790679.847603,6.9361479.842882))我想找出表1中的哪些点属于哪些多边形。我正在尝试使用Hadoop的ST_Geometric库(https://github.com/Esri/spatial-framework-for-hadoop/

配置单多边 section code hadoop hive gis hiveql

hadoop - 如何从配置单元中的同一个数据库中获取两个表的不匹配记录？

例如:selectusername,countryfromtable1MinusSelectusername,countryfromtable2;上面的负查询在RDBMS中有效，但我希望使用配置单元获得相同的结果。我们可以在hive中使用join来获得结果吗？如果是这样，如何使用配置单元查询获得正确的结果。最佳答案从Hive2.3.0(2017年7月17日发布)开始支持集合操作(除了UNION之外还支持MINUS/EXCEPT/INTERSECT)https://issues.apache.org/jira/browse/H

配置单 hadoop username country table hive

119 120 121122123 124 125