apache-karaf

python - Apache Pig 和用户定义的函数

我正在尝试使用ApachePig读取日志文件。阅读文件后，我想在Python中使用我自己的用户定义函数。我想要做的是类似于以下代码的事情，但它会导致错误1066:无法打开别名B的迭代器，我无法通过谷歌找到解决方案。register'userdef.py'usingjythonasparser;A=LOAD'test_data'usingPigStorage()as(row);B=FOREACHAGENERATEparser.split(A.row);DUMPB;但是，如果我将A.row替换为空字符串''，则函数调用完成并且不会发生错误(但数据既不会传递也不会处理)。以字符串格式将数据行

hadoop - 在 Apache Pig 中并行下载文件列表

我有一个简单的文本文件，其中包含某些FTP服务器上的文件夹列表。每行都是一个单独的文件夹。每个文件夹包含几千张图片。我想连接到每个文件夹，将该文件夹内的所有文件存储在SequenceFile中，然后从FTP服务器中删除该文件夹。我为此编写了一个简单的pigUDF。在这里:dirs=LOAD'/var/location.txt'USINGPigStorage();results=FOREACHdirsGENERATEdownload_whole_folder_into_single_sequence_file($0);/*Idon'tneedresultsbag.Itisjustadum

hadoop Apache section code map-reduce mapreduce apache-pig

apache - OpenTSDB:动物园管理员错误

我是第一次在Ubuntu上安装opentsdb。我正在按照这些文档进行安装:http://opentsdb.net/docs/build/html/installation.html#id1http://opentsdb.net/setup-hbase.html执行命令时出现以下错误Abharthan/opentsdb$envCOMPRESSION=NONEHBASE_HOME=/home/administrator/Abharthan/hbase-0.98.13-hadoop1./src/create_table.sh安装OpenTSDB后:我已经安装了hbase、gnuplot、J

OpenTSDB 动物 hbase zookeeper hadoop apache ubuntu

java - Apache pig 脚本，错误 1070 : Java UDF could not resolve import

我正在尝试编写一个JavaUDF，其最终目标是扩展/覆盖PigStorage的加载方法以支持采用多行的条目。我的pig脚本如下:REGISTERudf.jar;register'userdef.py'usingjythonasparser;A=LOAD'test_data'USINGPigStorage()ASrow:chararray;C=FOREACHAGENERATEmyTOKENIZE.test();DUMPD;udf.jar看起来像:udf/myTOKENIZE.classmyTOKENIZE.java导入org.apache.pig.*并扩展EvalFunc。测试方法只

resolve Apache code myTOKENIZE section java hadoop apache-pig user-defined-functions

apache - 在从 drill 查询 HDFS 时需要帮助

我的笔记本电脑上安装了drill和zookeeper。我在笔记本电脑上启动了HDFS，发现可以查询HDFS中的csv和json文件。现在我想查询位于另一台笔记本电脑中的文件。因此，我在另一台笔记本电脑上启动了hdfs，当我给出select*查询时，它失败了(尽管我可以毫无问题地执行showfiles查询)。我收到的错误在保管箱链接中:https://www.dropbox.com/s/5bgyw4jetweczoj/drill.log?dl=0两台笔记本电脑都运行UbuntuApache钻孔版本:1.1.0我有以下问题:1)能否在hadoop集群外的机器上运行drill，查询集群内的h

apache drill section 笔记 hadoop hdfs apache-drill

hadoop - 将数据加载到 IBM Analytics for Apache Hadoop

我在IBMbluemix中为ApacheHadoopAnalytics创建了一个服务，现在正尝试访问此tutorial中提到的biginsights控制台,但在真实情况下看不到类似的东西，现在我不确定如何将数据加载到AnalyticsforApacheHadoop中？我如何在这里使用sqoop来加载RDBMS数据？任何帮助将不胜感激，提前致谢最佳答案 AnalyticsforHadoop服务大约在一个月前升级到BigInsightsv4，这就是为什么您会看到与某些在线教程不同的UI，因为它们基于以前的BigInsightsv3。您

Analytics hadoop section ibm-cloud analytics-for-hadoop analytics-for-apache-hdp

java - 部署到 Apache 7.0.54 和 java 8 时，Spring 上下文初始化失败并出现 java.lang.IllegalArgumentException

环境:应用服务器:Apache7.0.54java:“1.8.0_05”操作系统:MacOSX10.9.3库:Spring3.2REST应用程序以下是我在部署过程中收到的错误:localhost.2014.06.09.logJun09,20143:37:47PMorg.apache.catalina.core.ApplicationContextlogINFO:NoSpringWebApplicationInitializertypesdetectedonclasspathJun09,20143:37:47PMorg.apache.catalina.core.ApplicationCo

并出 java springframework ConfigurationClassParser spring tomcat7 java-8

java - 部署到 Apache 7.0.54 和 java 8 时，Spring 上下文初始化失败并出现 java.lang.IllegalArgumentException

并出 java springframework ConfigurationClassParser spring tomcat7 java-8

hadoop - 使用 Apache Spark Streaming 和 Dataframes 交互式搜索 Parquet 存储的数据

我有大量数据作为Parquet文件存储在我的HadoopHDFS上我正在使用Spark流以交互方式接收来自Web服务器的查询，并将接收到的查询转换为SQL，以便使用SparkSQL在我的数据上运行。在此过程中，我需要运行多个SQL查询，然后通过合并或减去各个查询的结果来返回一些聚合结果。有没有什么方法可以优化和提高流程速度，例如，对已收到的数据帧而不是整个数据库运行查询？有没有更好的方式来交互查询Parquet存储的数据并给出结果？谢谢! 最佳答案如果您在同一个RDD上运行多个查询，您可以通过在查询之前使用.cache()缓存RD

Dataframes Streaming section noreferrer noopener hadoop apache-spark apache-spark-sql spark-streaming parquet

hadoop - 当 Apache Pig 加载/存储关系时会发生什么？

我正在学习ApachePig。我也是Hadoop的新手。那么谁能告诉我当PigLOAD/STORE一个关系时会发生什么？最好详细一些，例如它将调用哪些函数以及调用顺序？这对我有很大帮助，谢谢:) 最佳答案您不应该孤立地考虑加载/存储。当您发出一系列pig命令时，它会使用Java基于MapReduceAPI构建执行计划。它使用惰性评估，一旦遇到DUMP或STORE命令，就会提交mapreduce作业。这是示例脚本:department_rows=LOAD'/apps/hive/warehouse/retail_ods.db/depa

hadoop Apache department section department_rows apache-pig

322 323 324325326 327 328