草庐IT

azure-data-sync

全部标签

java.lang.ClassNotFoundException : org. openx.data.jsonserde.JsonSerDe 错误

我正在尝试使用iPython从Hive查询表。下面是我的代码的样子。sqlc=HiveContext(sc)sqlc.sql("ADDJARs3://x/y/z/jsonserde.jar")我首先创建一个新的配置单元上下文,然后尝试添加上面的jar。以下是我收到的错误消息。Py4JJavaError:Anerroroccurredwhilecallingo63.sql:java.lang.ClassNotFoundException:org.openx.data.jsonserde.JsonSerDe我还可以如何将此jar添加到Spark类路径? 最佳答案

hadoop - HDFS 行为 : Datanodes up but all data goes to one node (using -copyFromLocal)

我有一个集群配置。主人(也是奴隶)两个奴隶复制因子=1我将一个~9GB的文件movies.txt复制到hdfs中:hadoopdfs-copyFromLocalmovies.txt/input/我观察到一半的block被保存到Master,另一半分布在两个slave上。然后我想到使用以下方法格式化hadoop_stores:stop-all.shrm-rf{hadoop_store}/*hdfsnamenode-formatsshslave1rm-rf{hadoop_store}/*hdfsnamenode-formatexitsshslave2rm-rf{hadoop_store}/

hadoop - 动态加载文件时的 Spark Streaming 和 Data Locality

我正在运行一个spark流应用程序,它从Kafka接收HDFS上的文件路径,应该打开这些文件并对它们执行某种计算。问题是我无法享受数据局部性的好处,因为执行程序可能在任何节点上运行,而打开文件的执行程序不一定是持有文件的执行程序。有没有一种方法可以按照我介绍的方式动态打开文件,同时保持数据局部性?谢谢,丹尼尔 最佳答案 我不确定你打开文件的意思,如果你能分享一些代码会很有帮助,但如果你使用的是sc.textFile,那是一个RDD转换。转换被集群管理器安排为任务,因此不一定会从运行DStream转换的执行器节点执行。

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

azure - Hadoop 与 MSSQL 报告的可能性

我一直在azureHDInsight上评估Hadoop,以便为我们的报告应用程序找到大数据解决方案。此技术评估的关键部分是我需要与MSSQLReportingServices集成,因为这是我们的应用程序已经使用的。我们的开发人员资源非常短缺,所以我越能将其纳入工程实践中越好。到目前为止我尝试了什么使用从MSSQL映射到HDInsight上的Hive的ODBC连接。在HDInsight上使用HBASE从MSSQL使用ODBC连接。在AzureHDInsight远程桌面上本地使用SPARKQL我发现HBASE和Hive在我们的报告中使用起来要慢得多。对于测试数据,我使用了一个60k行的表,

azure - 如何从 Hadoop 中的 Azure Blob 存储读取数据?

我有一个map-reduce作业,reducer获取驻留在AzureBlob存储上的文件的绝对地址,reducer应该打开它并读取其内容。我在配置Hadoop集群(HDInsight)时添加了包含文件的存储帐户。因此,reducer必须有权访问此Blob存储,但因为Blob存储不是我工作的默认HDFS存储。我的reducer中有以下代码,但它给了我一个FileNotFound错误消息。FileSystemfs=FileSystem.get(newConfiguration());Pathpt=newPath("wasb://mycontainer@accountname...");FS

azure - 如何从 C# 中自动化 Azure Spark?

我可以创建集群,但我该如何自动执行脚本?varclusterInfo=newClusterCreateParametersV2{Name=clusterConfig.ClusterName,...ClusterType=ClusterType.Spark};`cluster.RunScript()?我可以获得SparkContext吗?https://azure.microsoft.com/en-us/documentation/articles/hdinsight-apache-spark-use-bi-tools/ 最佳答案 今

azure - Pig 无法在 HDFS (riskfactor.pig) 中创建(或查找)pigjobs 文件

我在Azure上使用HortonWorks沙箱,并且正在研究Hadoop入门教程“实验室3-pig风险因素分析”。http://hortonworks.com/hadoop-tutorial/hello-world-an-introduction-to-hadoop-hcatalog-hive-and-pig/#section_5在执行完所有步骤之后,运行这个pig脚本:a=LOAD'geolocation'usingorg.apache.hive.hcatalog.pig.HCatLoader();b=filterabyevent!='normal';c=foreachbgenera

hadoop - Data locality 概念是否也适用于 Reducers?

我的理解:数据局部性的概念仅适用于Mapper,因为它处理输入文件。Reducers在处理时是否也会使用Datalocality概念?数据局部性:数据局部性是指通过对数据进行计算而不是从其位置请求数据来处理数据所在的位置。在计算数据时,Mappers和Reducers会工作。映射器在计算数据时使用数据局部性。Reducers将输入作为Mappers的输出。假设Mappers输出(中间数据)存储在不同的数据节点。Reducers在计算时是否使用数据局部性? 最佳答案 不,数据局部性概念仅适用于MAPPERS。Reducer是根据par

azure - 将日期转换为星期日期名称和一天的一部分

那么我如何使用以下输入从pig那里得到这个输出。我应该使用哪些命令输入:10/3/2013120010/4/20130000预期输出:MondayMorningTuesdayEvening 最佳答案 将字段拆分为2个字段,然后使用ToDate获取当天的名称。对于晚上和早上,您可以检查值并分配。假设您与1个字段有关系B=FOREACHAGENERATESTRSPLIT((chararray)A.$0,'',2);C=FOREACHBGENERATEToString(ToDate(B.$0,'MM/dd/yyyy'),'E'),(CAS