草庐IT

go - 多个Http.Get随机挂起

coder 2024-07-11 原文

我正在尝试学习 Golang 并进行了一个简单的项目来调用所有 craigslist 城市并查询它们以进行特定搜索。在下面的代码中,我删除了 listingmap 中的所有链接,但那里有超过 400 个链接。所以循环相当大。我认为这将是一个很好的测试,可以将我所学的知识付诸应用,但我遇到了一个奇怪的问题。

有些时候,大多数 Http.Get() 都没有从服务器获得响应,而其他时候却毫无问题地获得了所有响应。所以我开始添加打印件来显示有多少错误我们恢复了,有多少成功通过了。此外,在运行时它会随机挂起并且从不响应。该程序没有卡住,但该站点只是坐在那里尝试加载,而终端没有显示任何事件。

我通过在恢复后推迟清理来确保我的响应主体已关闭,但它似乎仍然不起作用。有没有什么东西让任何人跳出来,也许我错过了?

提前谢谢大家!

package main

import (
    "fmt"
    "net/http"
    "html/template"
    "io/ioutil"
    "encoding/xml"
    "sync"
    )

var wg sync.WaitGroup

var locationMap = map[string]string {"https://auburn.craigslist.org/": "auburn "...}

var totalRecovers int = 0
var successfulReads int = 0

type Listings struct {
    Links []string `xml:"item>link"`
    Titles []string `xml:"item>title"`
    Descriptions []string `xml:"item>description"`
    Dates []string `xml:"item>date"`
}

type Listing struct {
    Title string
    Description string
    Date string
}

type ListAggPage struct {
        Title string
        Listings map[string]Listing
        SearchRequest string
}

func cleanUp(link string) {
    defer wg.Done()
    if r:= recover(); r!= nil {
        totalRecovers++
//      recoverMap <- link
    }
}

func cityRoutine(c chan Listings, link string) {
    defer cleanUp(link)

    var i Listings
    address := link + "search/sss?format=rss&query=motorhome"
    resp, rErr := http.Get(address)
    if(rErr != nil) {
        fmt.Println("Fatal error has occurs while getting response.")
        fmt.Println(rErr);
    }

    bytes, bErr := ioutil.ReadAll(resp.Body)
    if(bErr != nil) {
        fmt.Println("Fatal error has occurs while getting bytes.")
        fmt.Println(bErr);
    }
    xml.Unmarshal(bytes, &i)
    resp.Body.Close()
    c <- i
    successfulReads++
}

func listingAggHandler(w http.ResponseWriter, r *http.Request) {
    queue := make(chan Listings, 99999)
    listing_map := make(map[string]Listing)

    for key, _ := range locationMap {
        wg.Add(1)
        go cityRoutine(queue, key)
    }

    wg.Wait()
    close(queue)

    for elem := range queue { 
        for index, _ := range elem.Links {
        listing_map[elem.Links[index]] = Listing{elem.Titles[index * 2], elem.Descriptions[index], elem.Dates[index]}
        }
    }

    p := ListAggPage{Title: "Craigslist Aggregator", Listings: listing_map}
    t, _ := template.ParseFiles("basictemplating.html")
    fmt.Println(t.Execute(w, p))

    fmt.Println("Successfully loaded: ", successfulReads)       
    fmt.Println("Recovered from: ", totalRecovers)
}

func indexHandler(w http.ResponseWriter, r *http.Request) {
    fmt.Fprintf(w, "<h1>Whoa, Go is neat!</h1>")
}

func main() {
    http.HandleFunc("/", indexHandler)
    http.HandleFunc("/agg/", listingAggHandler)
    http.ListenAndServe(":8000", nil) 
}

最佳答案

我很难找到我正在阅读的关于此的 golang 邮件列表讨论,但您通常不想打开数百个请求。这里有一些信息:How Can I Effectively 'Max Out' Concurrent HTTP Requests?

Craigslist 也可能只是限制您的速率。无论哪种方式,我建议将并发请求限制在 20 个左右,这里是对 listingAggHandler 的快速更新。

queue := make(chan Listings, 99999)
listing_map := make(map[string]Listing)

request_queue := make(chan string)
for i := 0; i < 20; i++ {
    go func() {
        for {
            key := <- request_queue
            cityRoutine(queue, key)                
        }
    }()
}

for key, _ := range locationMap {
    wg.Add(1)
    request_queue <- key
}

wg.Wait()
close(request_queue)
close(queue)

应用程序应该仍然非常快。我也同意对你的问题的其他评论。也会尽量避免在全局范围内投入太多。

您还可以通过使用请求池中的 WaitGroup 来稍微修饰我的更改,并让每个 goroutine 自行清理并减少 WaitGroup 。这会限制一些全局范围。

关于go - 多个Http.Get随机挂起,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52668444/

有关go - 多个Http.Get随机挂起的更多相关文章

  1. ruby - Facter::Util::Uptime:Module 的未定义方法 get_uptime (NoMethodError) - 2

    我正在尝试设置一个puppet节点,但ruby​​gems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter,它工作正常,但如果我通过由ruby​​gems(/usr/bin/facter)安装的二进制文件,它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby

  2. ruby-on-rails - Rails 3 中的多个路由文件 - 2

    Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题

  3. ruby-on-rails - 在 Ruby 中循环遍历多个数组 - 2

    我有多个ActiveRecord子类Item的实例数组,我需要根据最早的事件循环打印。在这种情况下,我需要打印付款和维护日期,如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询,用于查找maintenance和payment项目(非排他性查询),并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代

  4. ruby-on-rails - Rails - 一个 View 中的多个模型 - 2

    我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何

  5. ruby - 如何模拟 Net::HTTP::Post? - 2

    是的,我知道最好使用webmock,但我想知道如何在RSpec中模拟此方法:defmethod_to_testurl=URI.parseurireq=Net::HTTP::Post.newurl.pathres=Net::HTTP.start(url.host,url.port)do|http|http.requestreq,foo:1endresend这是RSpec:let(:uri){'http://example.com'}specify'HTTPcall'dohttp=mock:httpNet::HTTP.stub!(:start).and_yieldhttphttp.shou

  6. ruby - 多个属性的 update_column 方法 - 2

    我有一个具有一些属性的模型:attr1、attr2和attr3。我需要在不执行回调和验证的情况下更新此属性。我找到了update_column方法,但我想同时更新三个属性。我需要这样的东西:update_columns({attr1:val1,attr2:val2,attr3:val3})代替update_column(attr1,val1)update_column(attr2,val2)update_column(attr3,val3) 最佳答案 您可以使用update_columns(attr1:val1,attr2:val2

  7. ruby-on-rails - 在 ruby​​ .gemspec 文件中,如何指定依赖项的多个版本? - 2

    我正在尝试修改当前依赖于定义为activeresource的gem:s.add_dependency"activeresource","~>3.0"为了让gem与Rails4一起工作,我需要扩展依赖关系以与activeresource的版本3或4一起工作。我不想简单地添加以下内容,因为它可能会在以后引起问题:s.add_dependency"activeresource",">=3.0"有没有办法指定可接受版本的列表?~>3.0还是~>4.0? 最佳答案 根据thedocumentation,如果你想要3到4之间的所有版本,你可以这

  8. ruby - 使用多个数组创建计数 - 2

    我正在尝试按0-9和a-z的顺序创建数字和字母列表。我有一组值value_array=['0','1','2','3','4','5','6','7','8','9','a','b','光盘','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','','u','v','w','x','y','z']和一个组合列表的数组,按顺序,这些数字可以产生x个字符,比方说三个list_array=[]和一个当前字母和数字组合的数组(在将它插入列表数组之前我会把它变成一个字符串,]current_combo['0','0','0']

  9. ruby-on-rails - before_filter 运行多个方法 - 2

    是否有可能:before_filter:authenticate_user!||:authenticate_admin! 最佳答案 before_filter:do_authenticationdefdo_authenticationauthenticate_user!||authenticate_admin!end 关于ruby-on-rails-before_filter运行多个方法,我们在StackOverflow上找到一个类似的问题: https://

  10. ruby - Net::HTTP 获取源代码和状态 - 2

    我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态,而无需发出第二个请求。有没有办法用另一种方法做到这一点?我一直在查看文档,但似乎找不到我要找的东西。 最佳答案 在我看来,除非您需要一些真正的低级访问或控制,否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur

随机推荐