HIVE2

r - 理解 R-Hive、Elastic MapReduce、RHIPE 和使用 R 的分布式文本挖掘

在我最近在Google实习期间学习了MapReduce来解决计算机视觉问题之后，我觉得自己像一个开明的人。我已经在使用R进行文本挖掘了。我想将R用于大规模文本处理和主题建模实验。我开始阅读教程并研究其中的一些。我现在将我对每个工具的理解写下来:1)R文本挖掘工具箱:用于本地(客户端)文本处理，它使用XML库2)Hive:Hadoopinterative，提供调用map/reduce的框架，也提供DFS接口(interface)，用于在DFS上存储文件。3)RHIPE:RHadoop集成环境4)ElasticMapReducewithR:一个为那些没有自己的集群的人准备的MapReduc

hadoop - 使用 Hive 自定义输入格式

更新:好的，事实证明下面的方法不起作用是因为我使用的是较新版本的InputFormatAPI(importorg.apache.hadoop.mapred是旧的，importorg.apache.hadoop.mapreduce是新的)。我遇到的问题是将现有代码移植到新代码。有没有人有使用旧API编写多行InputFormat的经验？尝试使用Hadoop/Hive处理Omniture的数据日志文件。文件格式是制表符分隔的，虽然在大多数情况下非常简单，但它们确实允许您在一个字段中有多个换行符和制表符，这些换行符和制表符由反斜杠转义(\\n和\\t).因此，我选择创建自己的InputFor

自定 hadoop code section InputFormat hive

hadoop - hive 是否为每条记录实例化一个新的 UDF 对象？

假设我正在构建一个名为StaticLookupUDF的UDF类，它必须在构建期间从本地文件加载一些静态数据。在这种情况下，我想确保我不会重复我需要的工作，因为我不想在每次调用evaluate()方法时重新加载静态数据。显然每个映射器都使用它自己的UDF实例，但是是否为每个处理的记录生成一个新实例？例如，映射器将处理3行。它是创建单个StaticLookupUDF并调用evaluate()3次，还是为每个记录创建一个新的StaticLookupUDF，并且每个实例仅调用一次evaluate()？如果第二个例子是真的，我应该用什么替代方式来构造它？在文档中的任何地方都找不到这个，我打算查看

hadoop hive section 射器 StaticLookupUDF

hadoop - 如何混淆 Hive View 中的列？

我已经为表创建了一个View:CREATEVIEWanonymous_tableASSELECTid,valueFROMsensitive_table并希望以某种方式混淆敏感表的id字段，例如MD5哈希或类似的东西，以便查询View的人看不到实际的id。在Hive中执行此操作的好方法是什么？最佳答案一些选项:根本不要在您的View中包含ID:CREATEVIEWsomethingASSELECT"HIDDENID",valuefromsensitive_table;如果您仍然需要为每条记录提供一个不同的键，您可以编写一个UDF来

混淆 hadoop section code sensitive_table md5 hive hue

jdbc - Hive JDBC getConnection 不返回

我正在学习配置单元JDBC教程。我无法让它工作。当它试图获得连接时，它只是挂起。它也不报告任何错误。我确定Hive服务器正在运行。有帮助吗？publicclassHiveJdbcClient{privatestaticStringdriverName="org.apache.hadoop.hive.jdbc.HiveDriver";publicstaticvoidmain(String[]args){try{Class.forName(driverName);}catch(ClassNotFoundExceptione){e.printStackTrace();System.exit(

getConnection jdbc section 10000 strong hadoop hive

hadoop - Hive gzip文件解压

我已经将一堆.gz文件加载到HDFS中，当我在它们之上创建一个原始表时，我在计算行数时看到了奇怪的行为。将gz表中的count(*)结果与未压缩表中的结果进行比较，结果相差约85%。压缩文件gz的表记录较少。有人见过这个吗？CREATEEXTERNALTABLEIFNOTEXISTStest_gz(col1string,col2string,col3string)ROWFORMATDELIMITEDLINESTERMINATEDBY'\n'LOCATION'/data/raw/test_gz';selectcount(*)fromtest_gz;result1,123,456selec

hadoop Hive section test_gz test gzip

php - 在 PHP 中通过 Hive/Thrift 查询数据库不起作用

我正在尝试通过PHP中的Hive/Thrift查询数据库。但是，我不断收到错误消息:TSocket:timedoutreading4bytesfromXYZ我正在使用来自的代码https://cwiki.apache.org/Hive/hiveclient.html#HiveClient-PHP连同这个PHPThrift客户端https://github.com/garamon/php-thrift-hive-client我的代码:setSendTimeout(30*1000);$socket->setRecvTimeout(30*1000);$transport=newTBuffer

中通 Thrift section https code php database hadoop hive

hadoop - 确认为特定 Hive 表启用了压缩

我需要对一系列表格进行基准测试，有些是压缩的，有些不是。我通过设置压缩:hive>SEThive.exec.compress.output=true;hive>SETmapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;...并使用INSERTOVERWRITE填充表。有没有办法通过命令行(类似于DESCRIBEEXTENDED)确认为特定表启用了输出压缩？最佳答案当您执行describeformattedorc_with_compre

认为 hadoop section code https hive

hadoop - Hive 查询不使用索引

我正在分析使用索引对hive表的影响。我创建了一个包含5列的表(COL1、COL2、COL3、COL4、COL5)并在其中加载了100000行。我还在该表的COL1上创建了一个索引。我在COL1上运行了带有WHERE子句的select*，这是一个索引列。与在创建索引之前运行相同的查询相比，我发现查询运行时间没有任何改进。我对我的选择查询做了一个EXPLAIN，它显示的是TableScan而不是IndexScan，我无法弄清楚为什么它没有使用索引。请帮忙。最佳答案可以查看this和this但基本上是这样的；创建索引在表中创建索引.

hadoop Hive code section

hadoop - Hive 操作失败，主类 [org.apache.oozie.action.hadoop.HiveMain]，退出代码 [40000]

我是这方面的新手，所以我完全有可能错过一些基本的东西。我正在尝试运行从协调器启动的Oozie工作流。协调器等待文件出现在目录中。工作流包含运行此脚本的Hive操作:CREATEexternalTABLEIFNOTEXISTSdaily_dump(idbigint,creationdatetimestamp,datelastupdatedtimestamp,data1string,data2string)LOCATION'/data/daily_dump';FROMdaily_dumpdINSERTOVERWRITETABLEmydata_orcPARTITION(id,datelast

hadoop HiveMain PerfLogger apache hive oozie

83 84 858687 88 89