草庐IT

apache-karaf

全部标签

python - Apache Pig 和用户定义的函数

我正在尝试使用ApachePig读取日志文件。阅读文件后,我想在Python中使用我自己的用户定义函数。我想要做的是类似于以下代码的事情,但它会导致错误1066:无法打开别名B的迭代器,我无法通过谷歌找到解决方案。register'userdef.py'usingjythonasparser;A=LOAD'test_data'usingPigStorage()as(row);B=FOREACHAGENERATEparser.split(A.row);DUMPB;但是,如果我将A.row替换为空字符串'',则函数调用完成并且不会发生错误(但数据既不会传递也不会处理)。以字符串格式将数据行

hadoop - 在 Apache Pig 中并行下载文件列表

我有一个简单的文本文件,其中包含某些FTP服务器上的文件夹列表。每行都是一个单独的文件夹。每个文件夹包含几千张图片。我想连接到每个文件夹,将该文件夹内的所有文件存储在SequenceFile中,然后从FTP服务器中删除该文件夹。我为此编写了一个简单的pigUDF。在这里:dirs=LOAD'/var/location.txt'USINGPigStorage();results=FOREACHdirsGENERATEdownload_whole_folder_into_single_sequence_file($0);/*Idon'tneedresultsbag.Itisjustadum

apache - OpenTSDB:动物园管理员错误

我是第一次在Ubuntu上安装opentsdb。我正在按照这些文档进行安装:http://opentsdb.net/docs/build/html/installation.html#id1http://opentsdb.net/setup-hbase.html执行命令时出现以下错误Abharthan/opentsdb$envCOMPRESSION=NONEHBASE_HOME=/home/administrator/Abharthan/hbase-0.98.13-hadoop1./src/create_table.sh安装OpenTSDB后:我已经安装了hbase、gnuplot、J

java - Apache pig 脚本,错误 1070 : Java UDF could not resolve import

我正在尝试编写一个JavaUDF,其最终目标是扩展/覆盖PigStorage的加载方法以支持采用多行的条目。我的pig脚本如下:REGISTERudf.jar;register'userdef.py'usingjythonasparser;A=LOAD'test_data'USINGPigStorage()ASrow:chararray;C=FOREACHAGENERATEmyTOKENIZE.test();DUMPD;udf.jar看起来像:udf/myTOKENIZE.classmyTOKENIZE.java导入o​​rg.apache.pig.*并扩展EvalFunc。测试方法只

apache - 在从 drill 查询 HDFS 时需要帮助

我的笔记本电脑上安装了drill和zookeeper。我在笔记本电脑上启动了HDFS,发现可以查询HDFS中的csv和json文件。现在我想查询位于另一台笔记本电脑中的文件。因此,我在另一台笔记本电脑上启动了hdfs,当我给出select*查询时,它失败了(尽管我可以毫无问题地执行showfiles查询)。我收到的错误在保管箱链接中:https://www.dropbox.com/s/5bgyw4jetweczoj/drill.log?dl=0两台笔记本电脑都运行UbuntuApache钻孔版本:1.1.0我有以下问题:1)能否在hadoop集群外的机器上运行drill,查询集群内的h

hadoop - 将数据加载到 IBM Analytics for Apache Hadoop

我在IBMbluemix中为ApacheHadoopAnalytics创建了一个服务,现在正尝试访问此tutorial中提到的biginsights控制台,但在真实情况下看不到类似的东西,现在我不确定如何将数据加载到AnalyticsforApacheHadoop中?我如何在这里使用sqoop来加载RDBMS数据?任何帮助将不胜感激,提前致谢 最佳答案 AnalyticsforHadoop服务大约在一个月前升级到BigInsightsv4,这就是为什么您会看到与某些在线教程不同的UI,因为它们基于以前的BigInsightsv3。您

java - 部署到 Apache 7.0.54 和 java 8 时,Spring 上下文初始化失败并出现 java.lang.IllegalArgumentException

环境:应用服务器:Apache7.0.54java:“1.8.0_05”操作系统:MacOSX10.9.3库:Spring3.2REST应用程序以下是我在部署过程中收到的错误:localhost.2014.06.09.logJun09,20143:37:47PMorg.apache.catalina.core.ApplicationContextlogINFO:NoSpringWebApplicationInitializertypesdetectedonclasspathJun09,20143:37:47PMorg.apache.catalina.core.ApplicationCo

java - 部署到 Apache 7.0.54 和 java 8 时,Spring 上下文初始化失败并出现 java.lang.IllegalArgumentException

环境:应用服务器:Apache7.0.54java:“1.8.0_05”操作系统:MacOSX10.9.3库:Spring3.2REST应用程序以下是我在部署过程中收到的错误:localhost.2014.06.09.logJun09,20143:37:47PMorg.apache.catalina.core.ApplicationContextlogINFO:NoSpringWebApplicationInitializertypesdetectedonclasspathJun09,20143:37:47PMorg.apache.catalina.core.ApplicationCo

hadoop - 使用 Apache Spark Streaming 和 Dataframes 交互式搜索 Parquet 存储的数据

我有大量数据作为Parquet文件存储在我的HadoopHDFS上我正在使用Spark流以交互方式接收来自Web服务器的查询,并将接收到的查询转换为SQL,以便使用SparkSQL在我的数据上运行。在此过程中,我需要运行多个SQL查询,然后通过合并或减去各个查询的结果来返回一些聚合结果。有没有什么方法可以优化和提高流程速度,例如,对已收到的数据帧而不是整个数据库运行查询?有没有更好的方式来交互查询Parquet存储的数据并给出结果?谢谢! 最佳答案 如果您在同一个RDD上运行多个查询,您可以通过在查询之前使用.cache()缓存RD

hadoop - 当 Apache Pig 加载/存储关系时会发生什么?

我正在学习ApachePig。我也是Hadoop的新手。那么谁能告诉我当PigLOAD/STORE一个关系时会发生什么?最好详细一些,例如它将调用哪些函数以及调用顺序?这对我有很大帮助,谢谢:) 最佳答案 您不应该孤立地考虑加载/存储。当您发出一系列pig命令时,它会使用Java基于MapReduceAPI构建执行计划。它使用惰性评估,一旦遇到DUMP或STORE命令,就会提交mapreduce作业。这是示例脚本:department_rows=LOAD'/apps/hive/warehouse/retail_ods.db/depa