Python BigQuery allowLargeResults 与 pandas.io.gbq

coder 2023-08-19 原文

我想使用 Pandas library to read BigQuery数据。如何获得较大的结果？
对于非 Pandas BigQuery 交互，这可以像 this 这样实现.

当前使用 Pandas 的代码:

sProjectID = "project-id"
sQuery = '''
    SELECT 
        column1, column2
    FROM [dataset_name.tablename]
'''
from pandas.io import gbq
df = gbq.read_gbq(sQuery, sProjectID)

最佳答案

编辑:我已经在我的其他答案中发布了执行此操作的正确方法；首先删除谷歌存储中的数据。这样您就不会拥有太大的数据。

好吧，我没有找到用 pandas 做的直接方法，所以我不得不用普通的 API 写一些额外的东西。这是我的修复方法(也是在没有 Pandas 的情况下本地完成的大部分工作):

sProjectID = "project-id"
sQuery = '''
    SELECT 
        column1, column2
    FROM [dataset_name.tablename]
'''

df = create_dataframe(sQuery, sProjectID, bLargeResults=True)


#*******Functions to make above work*********



def create_dataframe(sQuery, sProjectID, bLargeResults=False):
    "takes a BigQuery sql query and returns a Pandas dataframe"

    if bLargeResults:
        oService = create_service()
        dDestinationTable = run_query(sQuery, oService, sProjectID)
        df = pandas_get_table(dDestinationTable)
    else:
        df = pandas_query(sQuery, sProjectID)

    return df



def pandas_query(sQuery, sProjectID):
    "go into bigquery and get the table with sql query and return dataframe"
    from pandas.io import gbq
    df = gbq.read_gbq(sQuery, sProjectID)

    return df 



def pandas_get_table(dTable):
    "fetch a table and return dataframe"
    from pandas.io import gbq

    sProjectID = dTable['projectId']
    sDatasetID = dTable['datasetId']
    sTableID = dTable['tableId']
    sQuery = "SELECT * FROM [{}.{}]".format(sDatasetID, sTableID)

    df = gbq.read_gbq(sQuery, sProjectID)

    return df 




def create_service():
    "create google service"
    from oauth2client.client import GoogleCredentials
    from apiclient.discovery import build
    credentials = GoogleCredentials.get_application_default()
    oService = build('bigquery', 'v2', credentials=credentials)
    return oService



def run_query(sQuery, oService, sProjectID):
    "runs the bigquery query"

    dQuery = {
        'configuration': {
            'query': {
                'writeDisposition': 'OVERWRITE',
                'useQueryCache': False,
                'allowLargeResults': True,
                'query': sQuery,
                'destinationTable': {
                    'projectId': sProjectID,
                    'datasetId': 'sandbox',
                    'tableId': 'api_large_result_dropoff',
                },
            }
        }
    }

    job = oService.jobs().insert(projectId=sProjectID, body=dQuery).execute()


    return job['configuration']['query']['destinationTable']

关于Python BigQuery allowLargeResults 与 pandas.io.gbq，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34201923/

allowLargeResults BigQuery 39 sProjectID sQuery python google-bigquery

有关Python BigQuery allowLargeResults 与 pandas.io.gbq的更多相关文章

ruby - 如何验证 IO.copy_stream 是否成功 - 2
这里有一个很好的答案解释了如何在Ruby中下载文件而不将其加载到内存中:https://stackoverflow.com/a/29743394/4852737require'open-uri'download=open('http://example.com/image.png')IO.copy_stream(download,'~/image.png')我如何验证下载文件的IO.copy_stream调用是否真的成功——这意味着下载的文件与我打算下载的文件完全相同，而不是下载一半的损坏文件？documentation说IO.copy_stream返回它复制的字节数，但是当我还没有下
Ruby 文件 IO 定界符？ - 2
我正在尝试解析一个文本文件，该文件每行包含可变数量的单词和数字，如下所示:foo4.500bar3.001.33foobar如何读取由空格而不是换行符分隔的文件？有什么方法可以设置File("file.txt").foreach方法以使用空格而不是换行符作为分隔符？最佳答案接受的答案将slurp文件，这可能是大文本文件的问题。更好的解决方案是IO.foreach.它是惯用的，将按字符流式传输文件:File.foreach(filename,""){|string|putsstring}包含“thisisanexample”结果的
Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting - 2
1.错误信息：Errorresponsefromdaemon:Gethttps://registry-1.docker.io/v2/:net/http:requestcanceledwhilewaitingforconnection(Client.Timeoutexceededwhileawaitingheaders)或者：Errorresponsefromdaemon:Gethttps://registry-1.docker.io/v2/:net/http:TLShandshaketimeout2.报错原因：docker使用的镜像网址默认为国外，下载容易超时，需要修改成国内镜像地址（首先阿里
ruby - 为什么不能使用类IO的实例方法noecho？ - 2
print"Enteryourpassword:"pass=STDIN.noecho(&:gets)puts"Yourpasswordis#{pass}!"输出:Enteryourpassword:input.rb:2:in`':undefinedmethod`noecho'for#>(NoMethodError) 最佳答案一开始require'io/console'后来的Ruby1.9.3 关于ruby-为什么不能使用类IO的实例方法noecho？，我们在StackOverflow上
ruby - 为 IO::popen 拯救 "command not found" - 2
当我将IO::popen与不存在的命令一起使用时，我在屏幕上打印了一条错误消息:irb>IO.popen"fakefake"#=>#irb>(irb):1:commandnotfound:fakefake有什么方法可以捕获此错误，以便我可以在脚本中进行检查？最佳答案是:升级到ruby1.9。如果您在1.9中运行它，则会引发Errno::ENOENT，您将能够拯救它。(编辑)这是在1.8中的一种hackish方式:error=IO.pipe$stderr.reopenerror[1]pipe=IO.popen'qwe'#
ruby - IO::EAGAINWaitReadable:资源暂时不可用 - 读取会阻塞 - 2
当我尝试使用“套接字”库中的方法“read_nonblock”时出现以下错误IO::EAGAINWaitReadable:Resourcetemporarilyunavailable-readwouldblock但是当我通过终端上的IRB尝试时它工作正常如何让它读取缓冲区？最佳答案 IgetthefollowingerrorwhenItrytousethemethod"read_nonblock"fromthe"socket"library当缓冲区中的数据未准备好时，这是预期的行为。由于异常IO::EAGAINWaitReadab
ruby - 如何使用 ruby fibers 避免阻塞 IO - 2
我需要将目录中的一堆文件上传到S3。由于上传所需的90%以上的时间都花在了等待http请求完成上，所以我想以某种方式同时执行其中的几个。Fibers能帮我解决这个问题吗？它们被描述为解决此类问题的一种方法，但我想不出在http调用阻塞时我可以做任何工作的任何方法。有什么方法可以在没有线程的情况下解决这个问题？最佳答案我没有使用1.9中的纤程，但是1.8.6中的常规线程可以解决这个问题。尝试使用队列http://ruby-doc.org/stdlib/libdoc/thread/rdoc/classes/Queue.html查看文
ruby - 如何从 ruby 中的 IO 对象获取文件名 - 2
在ruby中...我有一个由外部进程创建的IO对象，我需要从中获取文件名。然而我似乎只能得到文件描述符(3)，这对我来说不是很有用。有没有办法从此对象获取文件名甚至获取文件对象？我正在从通知程序中获取IO对象。所以这也可能是获取文件路径的一种方式？最佳答案关于howtogetathefilenameinC也有类似的问题,我将在这里以ruby的方式给出这个问题的答案。在Linux中获取文件名假设io是您的IO对象。以下代码为您提供了文件名。File.readlink("/proc/self/fd/#{io.fileno}")例
iOS快捷指令：执行Python脚本（利用iSH Shell） - 2
文章目录前言核心逻辑配置iSH安装Python创建Python脚本配置启动文件测试效果快捷指令前言iOS快捷指令所能做的操作极为有限。假如快捷指令能运行Python程序，那么可操作空间就瞬间变大了。iSH是一款免费的iOS软件，它模拟了一个类似Linux的命令行解释器。我们将在iSH中运行Python程序，然后在快捷指令中获取Python程序的输出。核心逻辑我们用一个“获取当前日期”的Python程序作为演示（其实快捷指令中本身存在“获取当前日期”的操作，因而此需求可以不用Python，这里仅仅为了演示方便），核心代码如下。>>>importtime>>>time.strftime('%Y-%
iOS适配Unity-2019 - 2
iOS适配Unity-2019背景由于2019起，Unity的Xcode工程，更改了项目结构。Unity2018的结构：可以看Targets只有一个Unity-iPhone，Unity-iPhone直接依赖管理三方库。Unity2019以后：Targets多了一个UnityFramework，UnityFramework管理三方库，Unity-iPhone依赖于UnityFramwork。所以升级后，会有若干的问题，以下是对问题的解决方式。问题一错误描述error:exportArchive:Missingsigningidentifierat"/var/folders/fr//T/Xcode

Python BigQuery allowLargeResults 与 pandas.io.gbq

有关Python BigQuery allowLargeResults 与 pandas.io.gbq的更多相关文章

随机推荐