Python模拟新浪微博登录

发表于2012年11月8日 6:55 p.m. 位于分类我爱Python

最近实验室的项目，需要一些真实的数据，而我们选择了从新浪微博抓取数据。对于新浪微博来说，只要登录了以后，微博以及关注和被关注等等信息才是可见的，所以要抓取，第一步是要模拟登录。

一开始，我打算按照这里的方法登录weibo.com并获取信息，但是发现新浪微博初始的页面的数据是放在JS中并以json格式存放的，页面加载的时候才渲染到HTML中，于是我解析了JS代码，证明此法可行，但是接下来遇到问题，因为我们打开新浪微博是不会一次性加载的，移到页面低端的时候才会加载一部分，这个很难模拟，虽然可以通过分析ajax数据得到，但是由于GET的参数多达十几个，这需要时间来分析这些参数的含义，这么做很麻烦。于是我想到，可以通过登录手机版的微博：weibo.cn来获取，而手机版的页面几乎没有JS，数据几乎都在HTML中，而且加载剩余的数据是通过分页进行的。

weibo.cn和weibo.com不是使用一种登录机制，下面直接贴出代码，代码的内容并不难，主要是登录的流程。

代码中用到了lxml库来解析HTML。Windows系统可以在这里下载二进制包。

import urllib2
import urllib
import cookielib

import lxml.html as HTML

class Fetcher(object):
    def __init__(self, username=None, pwd=None, cookie_filename=None):
        self.cj = cookielib.LWPCookieJar()
        if cookie_filename is not None:
            self.cj.load(cookie_filename)
        self.cookie_processor = urllib2.HTTPCookieProcessor(self.cj)
        self.opener = urllib2.build_opener(self.cookie_processor, urllib2.HTTPHandler)
        urllib2.install_opener(self.opener)
        
        self.username = username
        self.pwd = pwd
        self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:14.0) Gecko/20100101 Firefox/14.0.1',
                        'Referer':'','Content-Type':'application/x-www-form-urlencoded'}
    
    def get_rand(self, url):
        headers = {'User-Agent':'Mozilla/5.0 (Windows;U;Windows NT 5.1;zh-CN;rv:1.9.2.9)Gecko/20100824 Firefox/3.6.9',
                   'Referer':''}
        req = urllib2.Request(url ,urllib.urlencode({}), headers)
        resp = urllib2.urlopen(req)
        login_page = resp.read()
        rand = HTML.fromstring(login_page).xpath("//form/@action")[0]
        passwd = HTML.fromstring(login_page).xpath("//input[@type='password']/@name")[0]
        vk = HTML.fromstring(login_page).xpath("//input[@name='vk']/@value")[0]
        return rand, passwd, vk
    
    def login(self, username=None, pwd=None, cookie_filename=None):
        if self.username is None or self.pwd is None:
            self.username = username
            self.pwd = pwd
        assert self.username is not None and self.pwd is not None
        
        url = 'http://3g.sina.com.cn/prog/wapsite/sso/login.php?ns=1&revalid=2&backURL=http%3A%2F%2Fweibo.cn%2F&backTitle=%D0%C2%C0%CB%CE%A2%B2%A9&vt='
        rand, passwd, vk = self.get_rand(url)
        data = urllib.urlencode({'mobile': self.username,
                                 passwd: self.pwd,
                                 'remember': 'on',
                                 'backURL': 'http://weibo.cn/',
                                 'backTitle': '新浪微博',
                                 'vk': vk,
                                 'submit': '登录',
                                 'encoding': 'utf-8'})
        url = 'http://3g.sina.com.cn/prog/wapsite/sso/' + rand
        req = urllib2.Request(url, data, self.headers)
        resp = urllib2.urlopen(req)
        page = resp.read()
        link = HTML.fromstring(page).xpath("//a/@href")[0]
        if not link.startswith('http://'): link = 'http://weibo.cn/%s' % link
        req = urllib2.Request(link, headers=self.headers)
        urllib2.urlopen(req)
        if cookie_filename is not None:
            self.cj.save(filename=cookie_filename)
        elif self.cj.filename is not None:
            self.cj.save()
        print 'login success!'
        
    def fetch(self, url):
        print 'fetch url: ', url
        req = urllib2.Request(url, headers=self.headers)
        return urllib2.urlopen(req).read()

登录完成后，就可以访问相应的页面来进行HTML的解析了。

29个评论

lookhi 2012-11-09 09:41

单纯的数据可以去爬盟下载啊
海量sina微波的数据.
秦续业 2012-11-09 22:07 作者

感谢你让我知道了爬盟，我们可能还是需要数据抓下来直接按需要存放，从那边下载后可能也要处理，并且，自己抓的还是更可控一点，需要什么，不需要什么。
不过还是感谢。
yoyo 2013-03-18 20:55

这个blog就是用你自己的那套源码开发的？
真心不错！帮顶！
Liam 2012-11-09 21:58

我也写过 http://liamchzh.0fees.net/?p=162
秦续业 2012-11-09 22:09 作者

ok，其实本文提到的不是和Oauth相关的。
因为，通过oauth确实可以获取到一个用户的信息，但是，这点是用户许可后才可以。我们可能需要上百万用户的数据，要这么多人授权很难办到。
Liam 2012-11-10 17:35

用Oauth登陆自己的微博，跟你这样登陆之后，不是一样可以去爬数据了吗？
秦续业 2012-11-10 17:45 作者

不是的，我不是指获取timeline里的东西，而是获取1百万个用户的微博等等，光我的timeline里才多少个用户啊，我关注的人不过几百人而已。
登录的意义是，只有登录了以后，所有用户的信息才是可见的。微博不像人人，只有好友信息才可见。
秦续业 2012-11-10 17:50 作者

statuses/user_timeline是不是可以获取一个用户的所有微博？刚刚我去查了一下API，似乎是可以的。
不好意思，可能我的理解也有问题，我再仔细看看这个接口。
阿小信大人 2012-11-12 22:44

用手机登录可不可以直接使用url的sid呢，可以的话貌似直接请求就可以了
wdwind 2013-01-02 07:25

学长你好，我最近也在做类似的项目，我也是使用weibo.cn抓数据的。但遇到了一个问题：使用某固定ip，每次抓取某固定用户的微博约4000~5000条时，ip就会被封掉……我把两次抓数据间隔时间设成1~2秒也还会出现这个问题，不知道你在实现过程中有碰到过类似的麻烦吗？多谢…
秦续业 2013-01-02 19:28 作者

抱歉回复晚了。
这个问题是存在的，根据我的经验，1～2秒是远远不够的。新浪的封锁机制似乎是单位时间内的访问次数。不过好的地方是，即使被封掉，过段时间（可能需要半个小时或者更多）会解禁，所以一种做法是过一段时间重新尝试。
如果把间隔时间设长，效率会很低下，所以我的做法是用多个爬虫。
另外，你也可以实验，一旦被封，尝试用别的帐号登录看看是否还被封，这个我还没有试过。
wdwind 2013-01-02 19:35

我发现如果被封后，切换账号也是不行的（连退出都不行），但切换ip后就可以切换账号或是继续抓取信息了，所以感觉新浪应该是封ip的。
至于说多个爬虫，因为我是个人的小项目（作业），所以只有一个ip，所以看起来这样也不太现实…
不过总之还是感谢你的回复~
lomiz 2013-07-05 08:24

不知道博主在后来的cola爬虫框架中使用mechanize，与这篇中使用到的urllib2在对抗新浪封锁时有什么区别呢？
秦续业 2013-07-05 09:04 作者

这里WeiboCrawler主要还是通过设置访问间隔来防止被封锁，这样导致效率低下。用Mechanize是模拟真实浏览器，效率上会高很多。
lomiz 2013-07-10 16:40

抱歉，还是不太理解你的意思。我在看COLA代码（有些看不懂~）时，发现也是是用mechanize产生的浏览器对象直接下载URL，这种方式与urllib2的下载有什么区别呢？网上关于mechanize的入门资料比较少，认识不很清楚。。
lomt 2013-08-17 07:19

遇到验证码是不是就没办法了
orange 2013-09-09 21:33

登录手机版的微博，请问，你用的是什么工具进行的手机HTTP信息获取？
simplecat123 2014-08-29 00:17

博主，我刚用了这个方法发现不好使，想问一下是我的问题还是这个方法不好使啦？
root 2014-09-26 19:07

呃，可惜我一点都不懂Python。来个PHP的指导一下？
yan 2014-10-29 00:20

现在貌似不能用了，作者最近试过这段代码吗，，，貌似weibo.cn改版了，模拟登陆有问题了，麻烦作者看看
yan 2014-10-29 00:21

现在的跳转部分有问题了
fancy 2014-11-26 12:47

没错，登录跳转部分已经不行了
金西 2014-12-20 19:10

我也在学习这个诶，发现不行，留个联系方式咱交流交流呗~我的邮箱zyjnjnu@163.com
毒蝎 2015-01-29 12:23

LZ你好，我最近在做新浪微博手机版的模拟登陆，按照你提供的代码可以访问页面，但是登录不上去。应该是我的问题，我想问cookie是在前面绑定好后面有系统自动维护，还是需要每次在request里面加入cookie，谢谢。
如果可能，希望通过qq164736772进一步向你学习
秦续业 2015-01-29 13:45 作者

我记得以前有同学问过这个问题，你参考下面代码看看能不能解决。

http://t.cn/RZ1OR6k
Again 2015-04-02 10:59

http://login.weibo.cn/login/?rand=

现在表单提交链接改成上面那个了。我用 chrome 看了一下，新浪服务器做了三次跳转。然后就登陆不了，不知道怎么处理跳转时的流程了。有没有什么方法帮帮我？
xuzhenjing2013@163.com 2015-10-19 13:17

您好，我最近在用着个爬虫，怕的是weibo.cn，但是显示成功后，爬取其他页面是，输出的页面源码还是没登陆状态，请问下您怎么解决
dan 2015-10-23 18:09

lz,我最近也在尝试做新浪微博的爬虫，不过是电脑版的，不过请问我模拟登录之后怎么用xpath？
dan 2015-10-23 18:10

如果可以的话，能否加个QQ向你请教？我的QQ是247259010，不胜感激

残阳似血的博客