摄取

performance - Informatica BDE 摄取作业运行 10 多个小时，终止并重新运行后 3 小时内完成

关于我的个人资料-我正在为集群上运行的一些BDEInformatica摄取作业提供L3支持。我们的目标是帮助应用程序团队满足SLA。我们支持在Hadoop层(Hive)之上运行的作业流。问题陈述-我们观察到，在某些日子里，BDEInformatica摄取作业运行得非常缓慢，而在其他日子里，它们会在3小时内完成其周期。如果作业花费了太多时间，我们通常会终止并重新运行这对我们有帮助，但这并不能帮助我们解决根本原因。我们个人资料的局限性-不幸的是，我没有应用程序代码或Informatica工具，但我必须联系开发团队并询问相关问题，以便我们缩小根本原因的范围。后续步骤-什么样的情况会导致这种延

摄取 performance strong section Informatica hadoop hive trouble-tickets

hadoop - 德鲁伊摄取失败

我正在按照德鲁伊网站上的步骤操作:http://druid.io/docs/latest/tutorials/quickstart.html但出于某种原因，它一直给我这个错误:2016-07-19T22:44:36,276ERROR[task-runner-0-priority-0]io.druid.indexing.overlord.ThreadPoolTaskRunner-Exceptionwhilerunningtask[HadoopIndexTask{id=index_hadoop_wikiticker_2016-07-19T22:44:25.500Z,type=index_h

德鲁德鲁伊 java druid indexing hadoop

从 hdfs 到 hive 的 Csv 文件摄取

我正在尝试使用以下命令将csv文件从我的hdfs摄取到配置单元。createtabletest(col1string,col2int,col3string)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES("separatorChar"=",","quoteChar"="\"")storedastextfile;但是我的配置单元表中仍然出现双引号，所以我尝试了下面的命令。altertabletestsetTBLPROPERTIES('skip.header.line.count'=

摄取 hdfs section 引号 39 csv hadoop hive hiveql

json - 德鲁伊 Parquet 摄取性能差

在使用Parquet数据摄取时，是否有任何原因导致Druid摄取缓慢？我们观察到，摄取JSON数据时，摄取速度至少提高了2倍。一般来说，哪个更好？DruidHadoop批处理摄取上下文中的JSON或Parquet。最佳答案 Parquet针对一次写入多次读取(WORM)范例进行了优化。它写起来很慢，但读起来却非常快，尤其是当您只访问全部列的一个子集时。由于parquet数据格式经过压缩和编码，因此与JSON数据格式相比，它的写入速度较慢。在这里，您可以使用parquet格式在数据摄取性能上做出妥协，但对于数据分析而言，由于其列格式

德鲁德鲁伊摄取 section Parquet json apache-spark hadoop druid

hadoop - 使用 Flume 和 Hadoop 的数据摄取不起作用

我使用的是Flume1.4.0和Hadoop2.2.0。当我启动Flume并写入HDFS时，出现以下异常:(SinkRunner-PollingRunner-DefaultSinkProcessor)[ERROR-org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:460)]processfailedjava.lang.VerifyError:classorg.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$RenewLeas

摄取 hadoop java hdfs apache flume

java - 将大文件摄取到单节点 Hadoop 上的 Hive

我想定期将大型csv文件(最多6GB)提取到具有32GBRAM的Hadoop单节点中。他们的关键要求是在HCatalog中注册数据。(请不要讨论需求，它是一个功能演示)。性能不是必需的。hive表应分区。到目前为止，我一直在使用Pig。到目前为止的经验教训是，主要的挑战是堆。生成的MapReduce作业会迅速填满堆，一旦Java进行了98%的垃圾收集，就会发生溢出。一个解决方案可能是将大文件分成小块......但是，我也认为与Pig不同的技术可能不会填满堆。关于如何处理此类用例的任何想法？谢谢最佳答案最好的方法是使用HiveQL

大文摄取 section 应分 java hadoop garbage-collection apache-pig heap-memory

hadoop - 如何在使用 sqoop 摄取数据时屏蔽数据

我正在使用sqoop提取数据。有什么方法可以屏蔽sqoop中的任何特定列或修改每个单元格。例如:creditcardinfo7888-3333-2222-10021111-2342-1235-20902331-2131-2222-3421我希望数据在摄取后是这样的:creditcardinfoXXXX-XXXX-XXXX-1002XXXX-XXXX-XXXX-2090XXXX-XXXX-XXXX-3421或creditcardinfo100220903421在sqoop中有可能吗？我试图找出答案，但无法获得太多信息。最佳答案最简

摄取何在 section XXXX sqoop hadoop hadoop2 sqoop2 data-masking

hadoop - 在 hadoop 中摄取数据后的标准流程

我正在将数据从oracle导入到Hadoop，然后我想将该数据保存到hive中。将数据提取到hadoop后要遵循哪些步骤？如何对提取的数据进行数据清理或错误检查？最佳答案 1。将数据提取到hadoop后要遵循哪些步骤？你不需要自己做(导入数据到hadoop然后传输到hive)根据docs,您只需要在您的导入命令中添加--hive-import。更改配置单元表ThetablenameusedinHiveis,bydefault,thesameasthatofthesourcetable.Youcancontroltheoutputt

hadoop 摄取 section code blockquote hive apache-pig sqoop

hadoop - 通过独特的技术将数据摄取到 HDFS

我想将非半结构化数据(MSword/PDF/JSON)从远程计算机传输到hadoop(可以是批处理的，也可以是接近实时的，但不是流式传输)。我必须确保数据从远程位置快速移动到我的本地机器(在低带宽下工作)到HDFS或本地机器。例如，InternetDownloadManager具有这种惊人的技术，可以与FTP建立多个连接，并利用低带宽进行更多连接。Hadoop生态系统是否有可能提供这样的工具来将数据摄取到hadoop中。或者任何自制技术？哪种工具/技术可能更好。最佳答案您可以使用WebHDFSAPIhttp://hadoop.a

摄取 hadoop section Document_Conventions hdfs oozie

redis - 批量摄取到 Redis

我正在尝试以尽可能快的速度将大量数据加载到Redis。我的数据如下:771240491921SOME;STRING;ABOUT;THIS;LENGTH345928354912SOME;STRING;ABOUT;THIS;LENGTH左边是一个~12位的数字，右边是一个可变长度的字符串。键将是左侧的数字，数据将是右侧的字符串。在我刚刚开箱即用的Redis实例中，使用包含此数据的未压缩纯文本文件，我可以在一分钟内将大约一百万条记录放入其中。我需要做大约4500万，这大约需要45分钟。45分钟太长了。是否有一些标准的性能调整可供我进行此类优化？通过在不同的实例之间进行分片可以获得更好的性能吗

摄取 redis section protocol

1 234 5