玩命加载中 . . .

Python爬取软科中国大学排名2020版网页


Python爬取软科中国大学排名2020版网页

问题起因:

复习爬虫时发现之前代码爬取的软科中国大学排名网站页面变了,原来的爬虫就不能再使用了,所以我对爬虫进行了更新,使之恢复可用状态,并增加了写入Excel表格部分

目标页面:

软科——中国大学排名http://www.shanghairanking.cn/rankings/bcur/2020

爬虫方法设计:

方法:
(1)页面获取方法:getHTMLText(url)
(2)页面解读方法:fillUnivList(ulist,html)
(3)效果打印方法:printUnivList(ulist,num)
(4)写入Excel方法:save(path,ulist)

参数解读:
(1)ulist——存储解读结果的列表
(2)html——方法(1)读取的html页面
(3)num——爬取效果展示的数量
(4)path——写入的Excel的路径

用到的Python方法及更新部分讲解:

(1)使用format()函数对齐:
菜鸟教程:https://www.runoob.com/python/att-string-format.html
网友踩坑:https://blog.csdn.net/Andone_hsx/article/details/84025828

(2)原代码无法获取新网页学校名:
这是因为新页面的标签结构发生了一些变化,新页面的校名包裹在了a标签之内,父一级的td标签解读不到,老版网页包裹在div标签内就可以解读到
页面结构变化
所以我在原先代码的基础是又重新查询了一遍a标签,ulist的第二个元素相应作出更改
查询a标签

(3)新页面的标签内文本带有很长的空格,这个直接用strip()方法去掉即可,如上图

(4)instance方法使用:
菜鸟教程:https://www.runoob.com/python/python-func-isinstance.html

(5)关于写入Excel表:
目前只能使用 .xls 和 .csv 格式,.xlsx格式无法识别gbk编码,难受,小伙伴可以写入 .xls 再另存为成 .xlsx 格式,小伙伴如果有方法的话也可以在博客下留言哦

代码:

import requests
import re
import bs4
from bs4 import BeautifulSoup

def getHTMLText(url):
    try:
        r = requests.get(url,timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print("getHTMLText失败!")
        return ""

def fillUnivList(ulist,html):
    soup = BeautifulSoup(html,"html.parser")
    for tr in soup.find("tbody").children:
        if isinstance(tr,bs4.element.Tag):      #过滤非标签信息
            tds = tr("td")      #查询td标签
            tagas = tr("a")     #查询a标签
            ulist.append([tds[0].string.strip(),tagas[0].string.strip(),tds[2].string.strip(),tds[3].string.strip(),tds[4].string.strip()])
    pass

def printUnivList(ulist,num):
    a = "{0:^10}{1:{5}^10}{2:^10}{3:^10}{4:^10}"
    print(a.format("排名","学校","地域","类型","总分",chr(12288)))
    for i in range(num):
        u = ulist[i]
        print(a.format(u[0],u[1],u[2],u[3],u[4],chr(12288)))

def save(path,ulist):
    Excel = open(path,'w',encoding = 'gbk')
    Excel.write('排名\t学校\t地域\t类型\t总分\n')
    for i in range(len(ulist)):
        for j in range(len(ulist[i])):
            Excel.write(str(ulist[i][j]))
            Excel.write('\t')      #相当于Tab一下,换下一个单元格
        Excel.write('\n')          #写完一行,换行
    Excel.close()

def main():
    uinfo = []
    url = "http://www.shanghairanking.cn/rankings/bcur/2020.html"
    html = getHTMLText(url)
    print("get成功")
    fillUnivList(uinfo,html)
    print("fill成功")
    printUnivList(uinfo,20)     #20univs
    print("print成功")
    save("大学排名.xls",uinfo)
    print("save成功")

main()

运行效果与成果展示:

IDLE运行结果
Excel写入


评论
  目录