博客分类我爱Python - 残阳似血的博客

博客分类 ‘我爱Python’

新浪微博mid和url的互算

发表于2012年11月15日 10:48 a.m. 位于分类我爱Python

我们在使用新浪微博API时，有时需要得到一个微博的url，但是如statuses/public_timeline等接口中取得的微博status的字段中并没有包含。不过，status中包含了一个mid字段，通过mid，我们实际上是可以通过计算得到url的。

在开始计算之前有必要说明一下，什么是base62编码。它实际上就是十进制和62位进制的互换。对于62进制，从0数到9以后，10用小写字母a表示，接着数完26个字母，到z为35，然后36为大写字母A，一直到61为大写字母Z。所以，我们可以实现十进制数字base62编码的encode和decode。下面的代码实际上来自stackoverflow：

ALPHABET = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"

def base62_encode(num, alphabet=ALPHABET):
    """Encode a number in Base X

    `num`: The number to encode
    `alphabet`: The alphabet to use for encoding
    """
    if (num == 0):
        return alphabet[0]
    arr = []
    base = len(alphabet)
    while num:
        rem = num % base
        num = num // base
        arr.append(alphabet[rem])
    arr.reverse()
    return ''.join(arr)

def base62_decode(string, alphabet=ALPHABET):
    """Decode a Base X encoded string into the number

    Arguments:
    - `string`: The encoded string
    - `alphabet`: The alphabet to use for encoding
    """
    base = len(alphabet)
    strlen = len(string)
    num = 0

    idx = 0
    for char in string:
        power = (strlen - (idx + 1))
        num += alphabet.index(char) * (base ** power)
        idx += 1

    return num

Python模拟新浪微博登录

发表于2012年11月8日 6:55 p.m. 位于分类我爱Python

最近实验室的项目，需要一些真实的数据，而我们选择了从新浪微博抓取数据。对于新浪微博来说，只要登录了以后，微博以及关注和被关注等等信息才是可见的，所以要抓取，第一步是要模拟登录。

一开始，我打算按照这里的方法登录weibo.com并获取信息，但是发现新浪微博初始的页面的数据是放在JS中并以json格式存放的，页面加载的时候才渲染到HTML中，于是我解析了JS代码，证明此法可行，但是接下来遇到问题，因为我们打开新浪微博是不会一次性加载的，移到页面低端的时候才会加载一部分，这个很难模拟，虽然可以通过分析ajax数据得到，但是由于GET的参数多达十几个，这需要时间来分析这些参数的含义，这么做很麻烦。于是我想到，可以通过登录手机版的微博：weibo.cn来获取，而手机版的页面几乎没有JS，数据几乎都在HTML中，而且加载剩余的数据是通过分页进行的。

weibo.cn和weibo.com不是使用一种登录机制，下面直接贴出代码，代码的内容并不难，主要是登录的流程。

代码中用到了lxml库来解析HTML。Windows系统可以在这里下载二进制包。

Django开发支持多帐号登录

发表于2012年2月22日 12:09 a.m. 位于分类我爱Python

之前曾经写过一篇文章，讲在Django开发中如何整合新浪微博API。当时，新浪微博只支持OAuth1.0，现在已经支持2.0版本，OAuth2.0协议进行了简化，且access token将不能永久使用，它存在一个过期时间。本文讲解了如何在你的django站点中支持多帐号登录，主要包括Google、新浪微博、人人和腾讯微博帐号，其实就是这个博客目前所支持的第三方帐号登录。

在这些第三方帐号中，Google、新浪微博以及人人都已经支持了OAuth2.0，而腾讯微博仍然停留在1.0阶段。

对于OAuth2.0，以Google帐号为例（Google也支持OpenID方式，读者可以自己去实现）。

Browser和Server持续同步的几种方式（jQuery+tornado演示）

发表于2011年8月10日 8:06 p.m. 位于分类我爱Python

在B/S模型的Web应用中，客户端常常需要保持和服务器的持续更新。这种对及时性要求比较高的应用比如：股票价格的查询，实时的商品价格，自动更新的twitter timeline以及基于浏览器的聊天系统（如GTalk）等等。由于近些年AJAX技术的兴起，也出现了多种实现方式。本文将对这几种方式进行说明，并用jQuery+tornado进行演示，需要说明的是，如果对tornado不了解也没有任何问题，由于tornado的代码非常清晰且易懂，选择tornado是因为其是一个非阻塞的(Non-blocking IO）异步框架（本文使用2.0版本）。

在开始之前，为了让大家有个清晰的认识，首先列出本文所要讲到的内容大概。本文将会分以下几部分：

普通的轮询（Polling)
Comet：基于服务器长连接的“服务器推”技术。这其中又分为两种：
1. 基于AJAX和基于IFrame的流（streaming）方式。
2. 基于AJAX的长轮询（long-polling）方式。
WebSocket

PIL应用之生成验证码图片

发表于2011年7月18日 11:34 a.m. 位于分类我爱Python

现在的网页中，为了防止机器人提交表单，图片验证码是很常见的应对手段之一。这里就不详细介绍了，相信大家都遇到过。

现在就给出用Python的PIL库实现验证码图片的代码。代码中有详细注释。

#!/usr/bin/env python
#coding=utf-8

import random
from PIL import Image, ImageDraw, ImageFont, ImageFilter

_letter_cases = "abcdefghjkmnpqrstuvwxy" # 小写字母，去除可能干扰的i，l，o，z
_upper_cases = _letter_cases.upper() # 大写字母
_numbers = ''.join(map(str, range(3, 10))) # 数字
init_chars = ''.join((_letter_cases, _upper_cases, _numbers))

def create_validate_code(size=(120, 30),
                         chars=init_chars,
                         img_type="GIF",
                         mode="RGB",
                         bg_color=(255, 255, 255),
                         fg_color=(0, 0, 255),
                         font_size=18,
                         font_type="ae_AlArabiya.ttf",
                         length=4,
                         draw_lines=True,
                         n_line=(1, 2),
                         draw_points=True,
                         point_chance = 2):
    '''
    @todo: 生成验证码图片
    @param size: 图片的大小，格式（宽，高），默认为(120, 30)
    @param chars: 允许的字符集合，格式字符串
    @param img_type: 图片保存的格式，默认为GIF，可选的为GIF，JPEG，TIFF，PNG
    @param mode: 图片模式，默认为RGB
    @param bg_color: 背景颜色，默认为白色
    @param fg_color: 前景色，验证码字符颜色，默认为蓝色#0000FF
    @param font_size: 验证码字体大小
    @param font_type: 验证码字体，默认为 ae_AlArabiya.ttf
    @param length: 验证码字符个数
    @param draw_lines: 是否划干扰线
    @param n_lines: 干扰线的条数范围，格式元组，默认为(1, 2)，只有draw_lines为True时有效
    @param draw_points: 是否画干扰点
    @param point_chance: 干扰点出现的概率，大小范围[0, 100]
    @return: [0]: PIL Image实例
    @return: [1]: 验证码图片中的字符串 
    '''

    width, height = size # 宽， 高
    img = Image.new(mode, size, bg_color) # 创建图形
    draw = ImageDraw.Draw(img) # 创建画笔

    def get_chars():
        '''生成给定长度的字符串，返回列表格式'''
        return random.sample(chars, length)

    def create_lines():
        '''绘制干扰线'''
        line_num = random.randint(*n_line) # 干扰线条数

        for i in range(line_num):
            # 起始点
            begin = (random.randint(0, size[0]), random.randint(0, size[1]))
            #结束点
            end = (random.randint(0, size[0]), random.randint(0, size[1]))
            draw.line([begin, end], fill=(0, 0, 0))

    def create_points():
        '''绘制干扰点'''
        chance = min(100, max(0, int(point_chance))) # 大小限制在[0, 100]
        
        for w in xrange(width):
            for h in xrange(height):
                tmp = random.randint(0, 100)
                if tmp > 100 - chance:
                    draw.point((w, h), fill=(0, 0, 0))

    def create_strs():
        '''绘制验证码字符'''
        c_chars = get_chars()
        strs = ' %s ' % ' '.join(c_chars) # 每个字符前后以空格隔开
        
        font = ImageFont.truetype(font_type, font_size)
        font_width, font_height = font.getsize(strs)

        draw.text(((width - font_width) / 3, (height - font_height) / 3),
                    strs, font=font, fill=fg_color)
        
        return ''.join(c_chars)

    if draw_lines:
        create_lines()
    if draw_points:
        create_points()
    strs = create_strs()

    # 图形扭曲参数
    params = [1 - float(random.randint(1, 2)) / 100,
              0,
              0,
              0,
              1 - float(random.randint(1, 10)) / 100,
              float(random.randint(1, 2)) / 500,
              0.001,
              float(random.randint(1, 2)) / 500
              ]
    img = img.transform(size, Image.PERSPECTIVE, params) # 创建扭曲

    img = img.filter(ImageFilter.EDGE_ENHANCE_MORE) # 滤镜，边界加强（阈值更大）

    return img, strs

if __name__ == "__main__":
    code_img = create_validate_code()
    code_img.save("validate.gif", "GIF")

最后结果返回一个元组，第一个返回值是Image类的实例，第二个参数是图片中的字符串（比较是否正确的作用）。

残阳似血的博客