Nokogiri抓取失败后重试代码

九 2nd, 2011

非常喜欢Nokogiri的简洁,尤其是根据css和xpath查找元素。有时又觉得Nokogiri太简洁了,连抓取失败重试的机制都没有。可惜在景德镇,网络经常丢包,真是郁闷。
所以写这段代码,以后肯定常用。

begin
  doc = Nokogiri::HTML(open(url).read.strip)
rescue Exception => ex
  log.error "Error: #{ex}"
  retry
end

Tips: retry可以跳回begin
这段代码将打印log并一直重试直到成功。估计这样写不大合适,因为一旦发生一个小错误,将会导致死循环。比较好的做法是,循环10次,如果都失败就放弃。

#定义常量,最多循环10次
MAX_ATTEMPTS = 10

doc = nil
begin
  doc = Nokogiri::HTML(open(url).read.strip)
rescue Exception => ex
  log.error "Error: #{ex}"
  attempts = attempts + 1
  retry if(attempts < MAX_ATTEMPTS)
end

if(doc.nil?)
  # 尝试10次后都失败,在这里处理一下。
  # 以免后面处理doc时抛空指针异常
end
>>原创文章,欢迎转载。转载请注明:转载自Ruby迷,谢谢!
>>原文链接地址:Nokogiri抓取失败后重试代码
  1. cxh116
    九 6th, 201117:48

    Nokogiri 相对来说是用来解析HTML
    HTTP处理可以用mechanize

    • 老宋
      九 6th, 201122:34

      Nokogiri 功能上还是相对简单很多,只是用来抓网页。
      mechanize就比较全面了。刚看了官网介绍:The Mechanize library is used for automating interaction with websites。被用来与网站做自动化交互,这和Java界的HttpClient有的一拼了。而且还能sends cookies, follows redirects, can follow links, and submit forms。有空要好好研究一下。

  2. mvj3
    九 3rd, 201121:35

    如果网页HTTP头部有Content-Length的话,也可以用来比较。

    • 老宋
      九 6th, 201122:11

      Content-Length可以用来验证收到的数据长度的完整性,但Nokogiri里没找到操作Content-Length的方法。
      另外Content-Length属于HTTP协议一部分,很多工具会做验证吧,至于Nokogiri有没有验证现在还未知。
      刚才看了下你的Github,内容很丰富,欢迎常来:)