python 爬虫抓取心得

更新时间：2022-08-24 16:03:51

urllib.quote('要编码的字符串')
如果你要在url请求里面放入中文，对相应的中文进行编码的话，可以用:

urllib.quote('要编码的字符串')

query =  urllib.quote(singername)
    url = 'http://music.baidu.com/search?key='+query
    response = urllib.urlopen(url)
    text = response.read()

get or post urlencode

如果在GET需要一些参数的话，那我们需要对传入的参数进行编码。

import urllib
def url_get():
    import urllib
    params = urllib.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})
    f = urllib.urlopen("http://www.musi-cal.com/cgi-bin/query?%s" % params)
    print f.read()

def url_post():
    import urllib
    params = urllib.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})
    f = urllib.urlopen("http://www.musi-cal.com/cgi-bin/query", params)
    print f.read()

urllib urllib2 proxy 代理

如果你请求对方的网页，确不想被封IP的话，这个时候就要用到代理了，其实用 urllib 代理还是比较简单的：

import urllib
def url_proxy():
    proxies = {'http':'http://211.167.112.14:80'}#或者proxies = {'':'211.167.112.14:80'}
    opener = urllib.FancyURLopener(proxies)
    f = opener.open("http://www.dianping.com/shanghai")
    print f.read()

只用一个代理IP的话有时候弄巧成拙了恰好被大众点评给检测出来了
401
211.167.112.14
python-urllib/1.17

python 爬虫抓取心得

那么就试试多个IP代理

import urllib
def url_proxies():
    proxylist = (
            '211.167.112.14:80',
            '210.32.34.115:8080',
            '115.47.8.39:80',
            '211.151.181.41:80',
            '219.239.26.23:80',
            )
    for proxy in proxylist:
        proxies = {'': proxy}
        opener = urllib.FancyURLopener(proxies)
        f = opener.open("http://www.dianping.com/shanghai")
        print f.read()

这回没问题了。

有的时候要模拟浏览器，不然做过反爬虫的网站会知道你是robot
例如针对浏览器的限制我们可以设置User-Agent头部，针对防盗链限制，我们可以设置Referer头部

有的网站用了Cookie来限制，主要是涉及到登录和限流，这时候没有什么通用的方法，只能看能否做自动登录或者分析Cookie的问题了。

仅仅是模拟浏览器访问依然是不行的，如果爬取频率过高依然会令人怀疑，那么就需要用到上面的代理设置了

import urllib2
def url_user_agent(url):
    '''
    proxy = 'http://211.167.112.14:80'
    opener = urllib2.build_opener(urllib2.ProxyHandler({'http':proxy}), urllib2.HTTPHandler(debuglevel=1))
    urllib2.install_opener(opener)
    '''
    i_headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1) Gecko/20090624 Firefox/3.5",\
                 "Referer": 'http://www.dianping.com/'}
    req = urllib2.Request(url, headers=i_headers)

    return urllib2.urlopen(req).read()

#print url_user_agent('http://www.dianping.com/shanghai')

就算设置了代理，代理的ip也有可能被封，还有另外一种终极的办法来防止被封，那便是使用time库的sleep()函数。

import time
for i in range(1,10):
    ....#抓取逻辑
    time.sleep(5)

抓的地址是http://www.dianping.com/shanghai
直接抓http://www.dianping.com的话会location到城市列表去反而达不到效果
header: Location: /citylist

 View Code

Proxy的使用相当广泛，对于单个应用来说，爬虫是很容易被封禁，如果使用Proxy模式，就能降低被封的风险，所以有需求的同学需要仔细看下Python urllib2对于Proxy的使用：

抓取下拉加载或者点击加载的页面方法：

加载中的内容应该是ajax请求的，对付ajax请求没有什么好的办法，只有抓取页面的JS，分析JS进行抓取

解决方案：

1.傻傻的全部下拉完全部点击加载完（对少量数据还行，大量数据的站去死吧）在Firefox里面copy出源码信息进
行正则匹配
2.HttpFox抓包直接抓ajax地址的数据分析ajax链接变换参数取得json后再正则

0x5.正则处理

python对正则表达式的支持模块。如果http库有选择的余地外，re几乎是没有选择余地的工具。因为有正则表达式的存在，所以让我们可以很灵活的去抠取抓取过来的完整html中所需要的部分。

当然，这篇文章不会详细解释正则表达式，因为如果要系统的介绍正则表达式，或许可以写一本书了。这里只简单提一下我们后面会用到的python正则表达式的用法。

re.compile()。如果正则表达式比较多，请一定要先用这个方法先行编译正则表达式，之后再正则表达式的使用就会很非常快，因为大家都知道，python文件在第一次运行会分别创建一个字节码文件，如果正则表达式作为字符串的时候，在运行时才会被编译，是会影响到python的执行速度的。

compile()返回的是一个re对象，该对象拥有re库的search(), match(), findall()等方法，这三个方法，在后面会被频繁的用到，生成被编译的re对象还有一个好处是调用方法不用再传入字符串的正则表达式。

search()主要用来校验正则表达式能否匹配字符串中的一段，通常用来判断该页面是否有我需要的内容。

match()用来判断字符串是否完全被一个正则表达式匹配，后面用的比较少。

findall()用来搜索正则表达式在字符串中的所有匹配，并返回一个列表，如果没有任何匹配，则返回一个空列表。

带有子组的正则表达式，findall()返回的列表中的每个元素为一个元组，正则表达式中有几个子组，元组中就会有几个元素，第一个元素为第一个括号中的子组匹配到的元素，以此类推。

findall()和search()是有类似之处的，都是搜索正则表达式在字符串中的匹配，但是findall()返回一个列表，search()返回一个匹配对象，而且findall()返回的列表中有所有匹配，而search()只返回第一个匹配的匹配对象。

0x6.Reference：

python urllib下载网页
http://www.cnpythoner.com/post/pythonurllib.html

关于不得不在python中使用代理访问网络的方法
http://blogread.cn/it/wap/article/1967

python使用urllib2抓取防爬取链接
http://www.the5fire.net/python-urllib2-crawler.html

Python实战中阶（一）——爬取网页的一点分享
http://blog.goodje.com/2012-08/python-middle-action-web-crawler.html

Python Urllib2使用：代理及其它
http://isilic.iteye.com/blog/1806403

Python urllib2递归抓取某个网站下图片 
http://blog.csdn.net/wklken/article/details/7364899

用Python抓网页的注意事项
http://blog.raphaelzhang.com/2012/03/issues-in-python-crawler/

urllib.urlretrieve下载图片速度很慢 + 【已解决】给urllib.urlretrieve添加user-agent
http://www.crifan.com/use_python_urllib-

urlretrieve_download_picture_speed_too_slow_add_user_agent_for_urlretrieve/

没有整理与归纳的知识，一文不值！高度概括与梳理的知识，才是自己真正的知识与技能。永远不要让自己的***、好奇、充满创造力的想法被现实的框架所束缚，让创造力***成长吧！多花时间，关心他（她）人，正如别人所关心你的。理想的腾飞与实现，没有别人的支持与帮助，是万万不能的。

本文转自wenglabs博客园博客，原文链接：http://www.cnblogs.com/arxive/p/6194347.html，如需转载请自行联系原作者

上一篇 : ：SQL Server 2008 R2 安装时提示“Reporting Services目录数据库文件存在”下一篇 : Android环境配置

python 爬虫抓取心得

相关阅读

推荐文章