She is Python · 一鸣的博客

import urllib.request
import urllib
data = {}
data['id'] = '1' #请求参数
urlStr = 'http://XXX' #请求地址
urlParameters = urllib.parse.urlencode(data)
print(urlParameters)#打印参数
fullURLString = urlStr + '?' + urlParameters #拼接URL 地址 + 参数
resp = urllib.request.urlopen(fullURLString)
responseStr = resp.read()
responseDecodeStr = responseStr.decode("utf8")
print(responseDecodeStr)

POST 请求

import urllib.request
import urllib
data = {}
data['id'] = '1'
urlStr = 'http://XXX'#请求地址
urlParameters = urllib.parse.urlencode(data)
postdata = urlParameters.encode('utf-8')  
print(urlParameters)
 
response = urllib.request.urlopen(urlStr,postdata)
responseStr = response.read()
responseDecodeStr = responseStr.decode("utf8")
print(responseDecodeStr)

爬虫 1：查找一个网站所有的链接地址

这个例子是这里面的，光看不敲，不是做技术的态度。参照他的，自己写一哈，不如他写的好，好多东西没考虑到。

import urllib.request
import urllib
from bs4 import BeautifulSoup
from collections import deque
#要爬取的地址
urlStr = 'http://www.douban.com'
#创建一个队列 用来存储要爬的URL
spiderQueue = deque()
#将爬取的地址放在队列里
spiderQueue.append(urlStr)
#创建一个集合 用来存储已经爬过的URL
visitedSet = set() 
#创建循环开始扫描
while spiderQueue:
    urlStr = spiderQueue.popleft() #队首元素
    print (urlStr)
    try:
        response = urllib.request.urlopen(urlStr)
        
        responseStr = response.read()#URL网页源码
        soup = BeautifulSoup(responseStr)
        
        linksArray = soup.findAll('a')
        #print('链接地址:' + str(linksArray))
        for link in linksArray:
            hrefStr = link.get('href')
            print('链接地址 ' + hrefStr + '\n')
                
            if 'http' in hrefStr and hrefStr not in visitedSet:
                visitedSet |={hrefStr}
                spiderQueue.append(hrefStr)
                print('加入队列 --->  ' + hrefStr + '\n')
    except:
        print('遇到异常')
        continue

爬虫2：爬妹子图片

这个可能有点邪恶，是这篇文章教我的，我多添加了些代码。可以爬出这个豆瓣妹子网站的所有图片。可以再优化下。

#抓妹子图片
#根据http://dbmeizi.com/?p=1 
#li class = 'span3'
#img data-bigimg属性
import urllib.request
import urllib
from bs4 import BeautifulSoup
while 1:#这个地方可以优化下 要不爬到Duang
    pageNumber = 1 #页码
    urlStr = 'http://dbmeizi.com/?p=' + str(pageNumber)#URL 地址
    
    response = urllib.request.urlopen(urlStr)
    responseStr = response.read() #网页源代码
    soup = BeautifulSoup(responseStr)
    liTagsArray = soup.findAll('li',attrs = {'class':'span3'})
    for li in liTagsArray:
         imageTags = li.findAll('img')#img标签
         for image in imageTags:
            imageLink = image.get('data-bigimg')#data-src  bigimg
            imageName = image.get('data-id')
            fileSavePath = '/Users/iYiming/Downloads/meizi/%s.jpg' % imageName
            urllib.request.urlretrieve(imageLink,fileSavePath)
            
            print (fileSavePath) 
    pageNumber += 1
    urlStr = 'http://dbmeizi.com/?p=' + str(pageNumber)#URL 地址

展示下爬到的东西：

She_is_Python

其他

一个不错教程：用 Python 3 开发网络爬虫

中间遇到的问题：

Python 3.4 版本和 2.7 版本的不同

IDLE 中不能输入中文的问题

有疑惑的问题

0.IDLE 如何带自动提示，太难受了
1.没有提示，这么多类库，怎么用？

感谢上面所有链接的作者！