Python爬取软科中国大学排名2020版网页

问题起因：

复习爬虫时发现之前代码爬取的软科中国大学排名网站页面变了，原来的爬虫就不能再使用了，所以我对爬虫进行了更新，使之恢复可用状态，并增加了写入Excel表格部分

目标页面：

软科——中国大学排名http://www.shanghairanking.cn/rankings/bcur/2020

爬虫方法设计：

方法：
（1）页面获取方法：getHTMLText(url)
（2）页面解读方法：fillUnivList(ulist,html)
（3）效果打印方法：printUnivList(ulist,num)
（4）写入Excel方法：save(path,ulist)

参数解读：
（1）ulist——存储解读结果的列表
（2）html——方法（1）读取的html页面
（3）num——爬取效果展示的数量
（4）path——写入的Excel的路径

用到的Python方法及更新部分讲解：

（1）使用format()函数对齐：
菜鸟教程：https://www.runoob.com/python/att-string-format.html
网友踩坑：https://blog.csdn.net/Andone_hsx/article/details/84025828

（2）原代码无法获取新网页学校名：
这是因为新页面的标签结构发生了一些变化，新页面的校名包裹在了a标签之内，父一级的td标签解读不到，老版网页包裹在div标签内就可以解读到
页面结构变化
所以我在原先代码的基础是又重新查询了一遍a标签，ulist的第二个元素相应作出更改
查询a标签

（3）新页面的标签内文本带有很长的空格，这个直接用strip()方法去掉即可，如上图

（4）instance方法使用：
菜鸟教程：https://www.runoob.com/python/python-func-isinstance.html

（5）关于写入Excel表：
目前只能使用 .xls 和 .csv 格式，.xlsx格式无法识别gbk编码，难受，小伙伴可以写入 .xls 再另存为成 .xlsx 格式，小伙伴如果有方法的话也可以在博客下留言哦

代码：

import requests
import re
import bs4
from bs4 import BeautifulSoup

def getHTMLText(url):
    try:
        r = requests.get(url,timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print("getHTMLText失败！")
        return ""

def fillUnivList(ulist,html):
    soup = BeautifulSoup(html,"html.parser")
    for tr in soup.find("tbody").children:
        if isinstance(tr,bs4.element.Tag):      #过滤非标签信息
            tds = tr("td")      #查询td标签
            tagas = tr("a")     #查询a标签
            ulist.append([tds[0].string.strip(),tagas[0].string.strip(),tds[2].string.strip(),tds[3].string.strip(),tds[4].string.strip()])
    pass

def printUnivList(ulist,num):
    a = "{0:^10}{1:{5}^10}{2:^10}{3:^10}{4:^10}"
    print(a.format("排名","学校","地域","类型","总分",chr(12288)))
    for i in range(num):
        u = ulist[i]
        print(a.format(u[0],u[1],u[2],u[3],u[4],chr(12288)))

def save(path,ulist):
    Excel = open(path,'w',encoding = 'gbk')
    Excel.write('排名\t学校\t地域\t类型\t总分\n')
    for i in range(len(ulist)):
        for j in range(len(ulist[i])):
            Excel.write(str(ulist[i][j]))
            Excel.write('\t')      #相当于Tab一下，换下一个单元格
        Excel.write('\n')          #写完一行，换行
    Excel.close()

def main():
    uinfo = []
    url = "http://www.shanghairanking.cn/rankings/bcur/2020.html"
    html = getHTMLText(url)
    print("get成功")
    fillUnivList(uinfo,html)
    print("fill成功")
    printUnivList(uinfo,20)     #20univs
    print("print成功")
    save("大学排名.xls",uinfo)
    print("save成功")

main()