草庐IT

jython-2.7

全部标签

hadoop - 如何修复 Jython 和 HBase 中的 "ImportError: No module name apache"错误

我正在尝试运行以下Jython代码来扫描hbase表:importjava.langfromorg.apache.hadoop.hbaseimportTableName,HBaseConfigurationfromorg.apache.hadoop.hbase.clientimportConnection,ConnectionFactory,Result,ResultScanner,Table,Adminfromorg.apache.hadoop.confimportConfigurationconf=HBaseConfiguration.create()connection=Conn

apache-spark - 如何从 spark2.3 访问 us-east-2 区域上的 Parquet 文件(使用 hadoop aws 2.7)

我们可以从当前代码访问us-east-1,但无法访问us-east-2上的parquet文件。请注意“us-east-2”连接,创建datafream在intellij上工作正常,但当我们从spark-shell尝试时它会给出400错误。我试图在sparkshell上工作/Users/test/Downloads/spark-2.3.3-bin-hadoop2.7/bin/spark-shell--jars/Users/test/Downloads/hadoop-aws-2.7.3.jar,/Users/测试/下载/aws-java-sdk-1.7.4.jarval配置=sc.hado

hadoop - 如何在 Pig 的 Jython UDF 中增加 Hadoop 计数器

我想监控Pig作业的进度。大多数工作是在用Jython编写的UDF中完成的。有没有办法从JythonUDF中定义/增加Hadoop计数器?提前致谢。 最佳答案 我现在不能检查它(抱歉未经测试的代码),但是在Pig0.8的JavaUDF(非常相似)中它应该是这样的:publicclassINC_COUNTERextendsEvalFunc{@OverridepublicDataBagexec(Tupleinput)throwsIOException{PigStatusReporterreporter=PigStatusReporter

python-2.7 - 将本地 IPython 笔记本连接到气隙集群上的 Spark

我有一台用于日常工作的W7机器。我的公司在私有(private)云上也有一个气隙Hadoop集群。我只能通过腻子访问云。当我想在集群上使用Spark时,我会启动putty,然后执行以下两项操作之一:只需从shell启动pyspark使用VNC访问集群上的RedHatGUI并从那里以Spark模式启动IPythonnotebook有没有办法使用我的本地W7IPython笔记本连接到Spark?在DanielDarabos发表评论后经过一些尝试和错误后进行编辑我按照thistutorial在我的W7机器上本地安装了Spark.然后,我创建了一个新的pyspark配置文件,并在thistut

python-2.7 - 使用 ODBC 使用远程执行的 Python 代码运行 impala 查询

我目前正在尝试设置能够对远程Impala服务器执行Impala查询的Python代码。在我的本地Windows上,我使用的是ODBC驱动程序,该驱动程序已设置并可成功用于在Tableau中通过Impala检索数据。我们使用的Hadoop环境是Kerberised。要使用ODBC管理员进行成功的连接测试,我们需要SASL和受信任的.pem证书。我已经尝试使用多个库进行连接,但我不确定如何设置连接属性以及我需要哪些属性。我尝试关注thisguide开始。我通过设置对pyodbc进行了实验:Driver,Host,Port,Database,AuthMech=3,UseSASL=1,UID,

python-2.7 - 通过 Python 从远程服务器访问 Hive

我已经在远程服务器上安装了以下必要的包以通过Python访问Hive。Python2.7.6,Python开发工具,pyhs2,sasl-0.1.3,thrift-0.9.1,PyHive-0.1.0这是访问Hive的Python脚本。#!/usr/bin/envpythonimportpyhs2ashiveimportgetpassDEFAULT_DB='camp'DEFAULT_SERVER='10.25.xx.xx'DEFAULT_PORT=10000DEFAULT_DOMAIN='xxx.xxxxxx.com'#Gettheusernameandpasswordu=raw_in

python-2.7 - pywebhdfs 模块问题

我正在尝试使用Python中的pywebhdfs模块与HortonworksHadoop沙箱进行交互。我尝试了以下三个命令:frompywebhdfs.webhdfsimportPyWebHdfsClienthdfs=PyWebHdfsClient(user_name="root",port=50070,host="localhost")hdfs.make_dir('/newDirectory')运行最后一条命令时出现以下错误:ConnectionError:('Connectionaborted.',error(10035,'Anon-blockingsocketoperationc

python-2.7 - 在 spark 环境中运行 python 程序时出错

我正在使用spark1.3.0。我在sparkpythonshell中运行python程序时遇到问题。这是我提交作业的方式:/bin/spark-提交程序名.py我发现的错误是,NameError:名称'sc'未定义在那条线上。有什么想法吗?提前致谢 最佳答案 ##ImportsfrompysparkimportSparkConf,SparkContext##CONSTANTSAPP_NAME="MySparkApplication"##OTHERFUNCTIONS/CLASSES##Mainfunctionalitydefmain

python-2.7 - Python 请求 Post 请求在使用 Livy 连接到 Kerberized Hadoop 集群时失败

我正在尝试通过Livy连接到kerberizedhadoop集群以执行Spark代码。我发出的请求调用如下。kerberos_auth=HTTPKerberosAuth(mutual_authentication=REQUIRED,force_preemptive=True)r=requests.post(host+'/sessions',data=json.dumps(data),headers=headers,auth=kerberos_auth)此调用失败并出现以下错误GSSException:Novalidcredentialsprovided(Mechanismlevel:F

hadoop - Hadoop 2.7在windows 7 64位启动时 : Name or service not knownstname localhost

我正在使用Cygwin在Windows764位上安装Hadoop。成功格式化Hadoop后,我想使用以下命令启动它:启动-dfs.sh。但它报告为:$sbin/start-dfs.sh17/03/2617:35:27WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable]tartingnamenodeson[localhost:Nameorservicenotknownstnamelocalhostalwang@