Python网络爬虫

Feb 6, 2022

学习选择
基础：先看的这个，基础操作，用的idle，有些跳了步骤，可能东西比较老（requests、解析（beautiful）、Re、Scrapy）Python数据分析与展示，北京理工大学，中国大学MOOC(慕课) (icourse163.org)
进阶：建议不如直接看这个，讲得更细节，用的pycharm，东北老师，讲课老精神了（直接看p51-104，对于基础，补充了Urllib、解析（xpath、jsonpath）、selenium）尚硅谷Python爬虫教程小白零基础速通（含python基础+爬虫案例），哔哩哔哩，bilibili

获取#

urllib#

1
#urllib.parse.quote()
2
import urllib.request
3
import urllib.parse
4
url = 'https://www.baidu.com/s?wd='
5
headers = {
6
  'User‐Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
7
}
8
url = url + urllib.parse.quote('小野')
9
request = urllib.request.Request(url=url,headers=headers)
10
response = urllib.request.urlopen(request)
11
print(response.read().decode('utf‐8'))
12

13
#urllib.parse.urlencode（）
14
import urllib.request
15
import urllib.parse
16
url = 'http://www.baidu.com/s?'
17
data = {
18
  'name':'小刚', 'sex':'男',
19
}
20
data = urllib.parse.urlencode(data)
21
url = url + data
22
print(url)
23
headers = {
24
  'User‐Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
25
}
26
request = urllib.request.Request(url=url,headers=headers)

post

1
import urllib.request
2
import urllib.parse
3
url = 'https://fanyi.baidu.com/sug'
4
headers = {
5
    'user‐agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
6
}
7
keyword = input('请输入您要查询的单词')
8
data = {
9
  'kw':keyword
10
}
11
data = urllib.parse.urlencode(data).encode('utf‐8')
12
request = urllib.request.Request(url=url,headers=headers,data=data)
13
response = urllib.request.urlopen(request)
14
print(response.read().decode('utf‐8'))
15

16
import json
17
# loads将字符串转换为python对象
18
obj = json.loads(content)
19
# python对象转换为json字符串 ensure_ascii=False 忽略字符集编码
20
s = json.dumps(obj,ensure_ascii=False)
21
print(s)

ajax的get请求(前后端分离的情况,可以拿到json)

1
# 爬取豆瓣电影前10页数据
2
# https://movie.douban.com/j/chart/top_list?type=20&interval_id=100%3A90&action=&start=0&limit=20
3

4
import urllib.request
5
import urllib.parse
6

7
# 下载前10页数据
8
# 下载的步骤：1.请求对象的定制 2.获取响应的数据 3.下载
9
# 每执行一次返回一个request对象
10

11
def create_request(page):
12
  base_url = 'https://movie.douban.com/j/chart/top_list?type=20&interval_id=100%3A90&action=&'
13
  headers = {
14
  'User‐Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
15
  }
16
    data={
17
        'start':(page‐1)*20,
18
        'limit':20
19
    }
20
    # data编码
21
    data = urllib.parse.urlencode(data)
22
    url = base_url + data
23
    request = urllib.request.Request(url=url,headers=headers)
24
    return request
25

26

27
def get_content(request):
28
    response = urllib.request.urlopen(request)
29
    content = response.read().decode('utf‐8')
30
    return content
31

32
def down_load(page,content):
33
    # with open（文件的名字，模式，编码）as fp:
34
    # fp.write(内容)
35
    with open('douban_'+str(page)+'.json','w',encoding='utf‐8')as fp:
36
    fp.write(content)
37

38
if __name__ == '__main__':
39
    start_page = int(input('请输入起始页码'))
40
    end_page = int(input('请输入结束页码'))
41
    for page in range(start_page,end_page+1):
42
    request = create_request(page)
43
    content = get_content(request)
44
    down_load(page,content)

异常错误
1. HTTPError类是URLError类的子类
2. 导入的包urllib.error.HTTPError urllib.error.URLError
3. http错误：http错误是针对浏览器无法连接到服务器而增加出来的错误提示。引导并告诉浏览者该页是哪里出了问题。
4. 通过urllib发送请求的时候，有可能会发送失败，这个时候如果想让你的代码更加的健壮，可以通过try‐ except进行捕获异常，异常有两类，URLError\HTTPError
cookie登录
1. cookie 跳过登录
2. refer 防盗链
handle 定制更高级的请求头（随着业务逻辑的复杂请求对象的定制已经满足不了我们的需求（动态cookie和代理不能使用请求对象的定制）
代理服务器（突破自身IP访问限制，访问国外站点。访问一些单位或团体内部资源。提高访问速度。隐藏真实IP）(代理池\快代理)

1
import urllib.request
2
url = 'http://www.baidu.com/s?wd=ip'
3
headers = {
4
  'User ‐ Agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 74.0.3729.169Safari / 537.36'
5
}
6
request = urllib.request.Request(url=url,headers=headers)
7
proxies = {'http':'117.141.155.244:53281'}
8
handler = urllib.request.ProxyHandler(proxies=proxies)
9
opener = urllib.request.build_opener(handler)
10
response = opener.open(request)
11
content = response.read().decode('utf‐8')
12
with open('daili.html','w',encoding='utf‐8')as fp:
13
  fp.write(content)

requests#

代理

1
proxy = {'http':'219.149.59.250:9797'}
2
r = requests.get(url=url,params=data,headers=headers,proxies=proxy)

1
import requests
2
def getHTMLText(url):
3
    try:
4
        r=requests.get(url, timeout=30)
5
        r.raise_for_status()
6
        #如果状态不是200，引发HTTPError异常
7
        r.encoding=r.apparent_encoding
8
        return r.text
9
    except:
10
        return "产生异常"
11
if __name__ == "__main__":
12
    url = "http://www.baidu.com"
13
print(getHTMLText(url))
14

15
#实例2：亚马逊商品页面的爬取
16
import requests
17
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
18
try:
19
    kv = {'user-agent':'Mozilla/5.0'}
20
    r = requests.get(url, headers=kv)
21
    r.raise_for_status()
22
    r.encoding = r.apparent_encoding
23
    print(r.text[1000:2000])
24
except:
25
    print("爬取失败")
26

27
#实例3：百度/360搜索关键字提交
28
import requests
29
keyword = "Python"
30
url ='http://www.baidu.com/s'
31
try:
32
    kv = {'wd': 'keyword'}
33
    r = requests.get(url, params=kv)
34
    print(r.status_code)
35
    print(r.request.url)
36
    r.raise_for_status()
37
    print(len(r.text))
38
except:
39
    print("爬取失败")
40

41
#网络图片的爬取和存储
42
import requests
43
import os
44
url = "http://xwzx.cumt.edu.cn/_upload/article/images/2f/99/d44299934d00afe8f03684d5c59b/f682d3bc-972c-4d5a-9542-c52e0b72032f.jpg"
45
root = "D://pics//"
46
path = root + url.split('/')[-1]
47
try:
48
    if not os.path.exists(root):
49
        os.mkdir(root)
50
    if not os.path.exists(path):
51
        r = requests.get(url)
52
        with open(path, 'wb') as f:
53
            f.write(r.content)
54
            f.close()
55
            print("文件保存成功")
56
    else:
57
        print("文件已存在")
58
except:
59
    print("爬取失败")
60

61
#实例5：IP地址归属地的自动查询
62
import requests
63
url = "https://ipchaxun.com/"
64
try:
65
    r = requests.get(url+'202.204.80.112')
66
    r.raise_for_status()
67
    r.encoding = r.apparent_encoding
68
    print(r.text[-500:])
69
except:
70
    print("爬取失败")

解析#

xpath#

xpath基本语法
1. 路径查询
  
  //：查找所有子孙节点，不考虑层级关系
  
  / ：找直接子节点
2. 谓词查询
  
  //div[@id]
  
  //div[@id=“maincontent”]
3. 属性查询
  
  //@class
4. 模糊查询
  
  //div[contains(@id, “he”)]
  
  //div[starts‐with(@id, “he”)]
5. 内容查询
  
  //div/h1/text()
6. 逻辑运算
  
  //div[@id=“head” and @class=“s_down”]
  
  //title | //price （其实这是列表的用法）

1
from lxml import etree
2
#解析本地文件
3
html_tree = etree.parse('XX.html')
4
#服务器响应文件
5
html_tree = etree.HTML(response.read().decode('utf‐8')
6
html_tree.xpath([xpath路径])

jsonpath#

教程连接（http://blog.csdn.net/luxideyao/article/details/77802389）

Beautiful Soup#

1
import requests
2
from bs4 import BeautifulSoup
3
import bs4
4

5
def getHTMLText(url):
6
    try:
7
        r = requests.get(url, timeout=30)
8
        r.raise_for_status()
9
        r.encoding = r.apparent_encoding
10
        return r.text
11
    except:
12
        return ""
13

14
def fillUnivList(ulist, html):
15
    soup = BeautifulSoup(html, "html.parser")
16
    for tr in soup.find('tbody').children:
17
        if isinstance(tr, bs4.element.Tag):
18
            tds = tr('td')
19
            ulist.append([tds[0].string, tds[1].string, tds[3].string])
20

21
def printUnivList(ulist, num):
22
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
23
    print(tplt.format("排名","学校名称","总分",chr(12288)))
24
    for i in range(num):
25
        u=ulist[i]
26
        print(tplt.format(u[0],u[1],u[2],chr(12288)))
27

28
def main():
29
    uinfo = []
30
    url = 'https://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
31
    html = getHTMLText(url)
32
    fillUnivList(uinfo, html)
33
    printUnivList(uinfo, 20) # 20 univs
34
main()

Re#

1
import requests
2
import re
3

4
def getHTMLText(url):
5
    try:
6
        kv = \
7
            {
8
                'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36 Edg/97.0.1072.76',
9
                'Cookie':'【去审查元素自己看看】'
10
            }
11
        r = requests.get(url, timeout=30, headers=kv)
12
        r.raise_for_status()
13
        r.encoding = r.apparent_encoding
14
        return r.text
15
    except:
16
        print("getHTMLText")
17
        return ""
18

19
def parsePage(ilt, html):
20
    try:
21
        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)
22
        tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
23
        for i in range(len(plt)):
24
            price = eval(plt[i].split(':')[1])
25
            title = eval(tlt[i].split(':')[1])
26
            ilt.append([price , title])
27
    except:
28
        print("parsePage")
29

30
def printGoodsList(ilt):
31
    tplt = "{:4}\t{:8}\t{:16}"
32
    print(tplt.format("序号", "价格", "商品名称"))
33
    count = 0
34
    for g in ilt:
35
        count = count + 1
36
        print(tplt.format(count, g[0], g[1]))
37

38
goods = '书包'
39
depth = 3
40
start_url = 'https://s.taobao.com/search?q=' + goods
41
infoList = []
42
for i in range(depth):
43
    try:
44
        url = start_url + '&s=' + str(44*i)
45
        html = getHTMLText(url)
46
        parsePage(infoList, html)
47
    except:
48
        continue
49
printGoodsList(infoList)

1
import requests
2
from bs4 import BeautifulSoup
3
import traceback
4
import re
5

6
def getHTMLText(url, code="utf-8"):
7
    try:
8
        r = requests.get(url)
9
        r.raise_for_status()
10
        r.encoding = code
11
        return r.text
12
    except:
13
        return ""
14

15
def getStockList(lst, stockURL):
16
    html = getHTMLText(stockURL, "GB2312")
17
    soup = BeautifulSoup(html, 'html.parser')
18
    a = soup.find_all('a')
19
    for i in a:
20
        try:
21
            href = i.attrs['href']
22
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
23
        except:
24
            continue
25

26
def getStockInfo(lst, stockURL, fpath):
27
    count = 0
28
    for stock in lst:
29
        url = stockURL + stock + ".html"
30
        html = getHTMLText(url)
31
        try:
32
            if html=="":
33
                continue
34
            infoDict = {}
35
            soup = BeautifulSoup(html, 'html.parser')
36
            stockInfo = soup.find('div',attrs={'class':'stock-bets'})
37

38
            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
39
            infoDict.update({'股票名称': name.text.split()[0]})
40

41
            keyList = stockInfo.find_all('dt')
42
            valueList = stockInfo.find_all('dd')
43
            for i in range(len(keyList)):
44
                key = keyList[i].text
45
                val = valueList[i].text
46
                infoDict[key] = val
47

48
            with open(fpath, 'a', encoding='utf-8') as f:
49
                f.write( str(infoDict) + '\n' )
50
                count = count + 1
51
                print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
52
        except:
53
            count = count + 1
54
            print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
55
            continue
56

57
def main():
58
    stock_list_url = 'https://quote.eastmoney.com/stocklist.html'
59
    stock_info_url = 'https://gupiao.baidu.com/stock/'
60
    output_file = 'D:/BaiduStockInfo.txt'
61
    slist=[]
62
    getStockList(slist, stock_list_url)
63
    getStockInfo(slist, stock_info_url, output_file)
64

65
main()

python爬取淘宝商品信息&requests.get()和网页源代码不一致_jzj_c_love的博客-CSDN博客

Selenium#

selenium的使用步骤？
1. 导入：from selenium import webdriver
2. 创建谷歌浏览器操作对象： path = 谷歌浏览器驱动文件路径 browser = webdriver.Chrome(path)
3. 访问网址 url = 要访问的网址 browser.get(url)
selenium的元素定位 find_element
访问元素信息

获取元素属性 .get_attribute(‘class’)

获取元素文本 .text

获取标签名 .tag_name
交互

点击()

输入()

后退操作.back()

前进操作.forword()

模拟JS滚动: js=‘document.documentElement.scrollTop=100000’ browser.execute_script(js)

执行js代码获取网页代码：page_source

退出：browser.quit()
Chrome handless

1
from selenium import webdriver
2
#这个是浏览器自带的 不需要我们再做额外的操作
3
from selenium.webdriver.chrome.options import Options
4
def share_browser():
5
    #初始化
6
    chrome_options = Options()
7
    chrome_options.add_argument('‐‐headless')
8
    chrome_options.add_argument('‐‐disable‐gpu')
9
    #浏览器的安装路径 打开文件位置
10
    #这个路径是你谷歌浏览器的路径
11
    path = r'[---]'
12
    chrome_options.binary_location = path
13
    browser = webdriver.Chrome(chrome_options=chrome_options)
14
    return browser
15

16
#封装调用：
17
from handless import share_browser
18
browser = share_browser()
19
browser.get('http://www.baidu.com/')
20
browser.save_screenshot('handless1.png')

Scrapy#

1
import scrapy
2
from scrapy_dangdang_095.items import ScrapyDangdang095Item
3

4
class DangSpider(scrapy.Spider):
5
    name = 'dang'
6
    # 如果是多页下载的话 那么必须要调整的是allowed_domains的范围 一般情况下只写域名
7
    allowed_domains = ['category.dangdang.com']
8
    start_urls = ['http://category.dangdang.com/cp01.01.02.00.00.00.html']
9
    base_url = 'http://category.dangdang.com/pg'
10
    page = 1
11

12
    def parse(self, response):
13
#       pipelines 下载数据
14
#       items     定义数据结构的
15
#         src = //ul[@id="component_59"]/li//img/@src
16
#         alt = //ul[@id="component_59"]/li//img/@alt
17
#         price = //ul[@id="component_59"]/li//p[@class="price"]/span[1]/text()
18
#         所有的seletor的对象 都可以再次调用xpath方法
19
        li_list = response.xpath('//ul[@id="component_59"]/li')
20

21
        for li in li_list:
22
            src = li.xpath('.//img/@data-original').extract_first()
23
            # 第一张图片和其他的图片的标签的属性是不一样的
24
            # 第一张图片的src是可以使用的  其他的图片的地址是data-original
25
            if src:
26
                src = src
27
            else:
28
                src = li.xpath('.//img/@src').extract_first()
29

30
            name = li.xpath('.//img/@alt').extract_first()
31
            price = li.xpath('.//p[@class="price"]/span[1]/text()').extract_first()
32

33
            book = ScrapyDangdang095Item(src=src,name=name,price=price)
34

35
            # 获取一个book就将book交给pipelines
36
            yield book
37

38

39
#       每一页的爬取的业务逻辑全都是一样的，所以我们只需要将执行的那个页的请求再次调用parse方法就可以了
40
        if self.page < 100:
41
            self.page = self.page + 1
42
            url = self.base_url + str(self.page) + '-cp01.01.02.00.00.00.html'
43

44
#             怎么去调用parse方法
45
#             scrapy.Request就是scrpay的get请求
46
#             url就是请求地址
47
#             callback是你要执行的那个函数  注意不需要加（）
48
            yield scrapy.Request(url=url,callback=self.parse)

1
class ScrapyDangdang095Item(scrapy.Item):
2
    # name = scrapy.Field()
3
    # 通俗的说就是你要下载的数据都有什么
4
    src = scrapy.Field()
5
    name = scrapy.Field()
6
    price = scrapy.Field()

1
from itemadapter import ItemAdapter
2

3
# 如果想使用管道的话 那么就必须在settings中开启管道
4
class ScrapyDangdang095Pipeline:
5
    def open_spider(self,spider):
6
        self.fp = open('book.json','w',encoding='utf-8')
7

8
    def process_item(self, item, spider):
9
        self.fp.write(str(item))
10
        return item
11

12
    def close_spider(self,spider):
13
        self.fp.close()
14

15
import urllib.request
16

17
# 多条管道开启
18
# 定义管道类 + 在settings中开启管道
19
#'scrapy_dangdang_095.pipelines.DangDangDownloadPipeline':301
20
class DangDangDownloadPipeline:
21
    def process_item(self, item, spider):
22
        url = 'http:' + item.get('src')
23
        filename = './books/' + item.get('name') + '.jpg'
24
        urllib.request.urlretrieve(url = url, filename= filename)
25
        return item

1
#settings.py文件中被修改
2
ITEM_PIPELINES = {
3
    #  管道可以有很多个  那么管道是有优先级的  优先级的范围是1到1000   值越小优先级越高
4
    'scrapy_dangdang_095.pipelines.ScrapyDangdang095Pipeline': 300,
5
    #DangDangDownloadPipeline
6
    'scrapy_dangdang_095.pipelines.DangDangDownloadPipeline':301
7
}

Author Junyao Hu

Published Feb 6, 2022

Link https://junyaohu.github.io/blog/note-python-crawling/

获取#

urllib#

requests#

解析#

xpath#

jsonpath#

Beautiful Soup#

Re#

Selenium#

Scrapy#

Comments