Python爬虫，批量获取知网文献信息

hzqadmin 阅读：13 2024-08-24 19:26:34 评论：0

一、前言

最近临近毕业，写毕业论文需要从知网查找大量的文献。但去知网一条一条进去看摘要又略显麻烦和浪费时间。于是，反手写一个爬虫，批量获取基本信息，岂不美哉？

在开始这个项目之前，我抱着不重复造轮子的心态，寻思着去Github先找找。结果发现基本上都是几年前的项目，现在早已不能使用。最后证实了，靠别人不如靠自己，撸起袖子就开干！

1. 爬虫基础

网络爬虫

就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

目前爬虫主要分为以 requests 库为代表的模拟请求类爬虫和以 selenium 为代表的模拟浏览器用户行为的爬虫两类。:Requests 是用Python语言编写，基于 urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以节约我们大量的工作，完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的，所以它比 urllib 更加 Pythoner。Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE，Mozilla Firefox，Safari，Google Chrome，Opera等。中国知网作为国内最知名的文献数据库之一，有着复杂的反爬虫机制，包括：动态JS、iframe、验证码等等。直接模拟请求难度较大，且容易被封IP地址，所以本文主要介绍如何使用Selenium来爬取知网。

2. Selenium基本用法

声明浏览器对象

Selenium支持非常多的浏览器，如Chrome、Firefox、Edge等，我们只要首先下载好相应浏览器的webdriver到python主目录中，或者加入环境变量即可。

不同浏览器的初始化：

from selenium import

webdriver

browser = webdriver.Chrome()browser = webdriver.Firefox()browser = webdriver.Edge()browser = webdriver.Safari()

访问页面

我们可以用get()方法来请求一个网页，传入参数链接URLbrowser.get(https://www.bing.com)

查找元素

find_element_by_id()

find_element_by_name()

find_element_by_class_name()

find_element_by_tag_name()

find_element_by_link_text()

find_element_by_partial_link_text()

find_element_by_xpath()

find_element_by_css_selector()

在element变成elements

就是找所有满足的条件，返回数组。

另外，我经常使用的查找元素方法为selenium中selenium.webdriver.common.by的By, 联合隐士等待EC用法如下：# 单个元素WebDriverWait( driver, 10 ).until( EC.presence_of_element_located((By.XPATH ,"") ) )# 多个元素WebDriverWait( driver, 10 ).until( EC.presence_of_all_elements_located( (By.CLASS_NAME ,"fz14") ) )# 元素类型有：CLASS_NAME = class nameCSS_SELECTOR = css selectorID = idLINK_TEXT = link textNAME = namePARTIAL_LINK_TEXT = partial link textTAG_NAME = tag nameXPATH = xpath

常用方法

在找到相应元素位置后，我们常用的交互动作包括：点击、输入、清楚、获取属性、获取文本

等element = find_element_by_id(id)

element.send_keys(Hello) # 传入Hello

element.clear() # 清除输入框

element.click() # 点击元素

element.text # 获取元素文本信息

element.get_attribute(href) # 获取元素属性

还有大量的方法这里没有提及，不过有了以上基本知识，我们就可以开始项目了！

二、知网爬虫实战

1. 知网页面元素分析

知网首页中，我们仅需要先在输入框中键入主题词，然后点击搜索图标，即可跳转到结果页面。

我们通过浏览器的检查页面，得到输入框和搜索图标的XPATH分别为：input_xpath = /html[1]/body[1]/div[1]/div[2]/div[1]/div[1]/input[1]

button_xpath = /html[1]/body[1]/div[1]/div[2]/div[1]/div[1]/input[2]

只需要在输入框键入我们要搜索的主题，然后操作搜索按钮即可转到结果页。以搜索Python为例，结果页如下所示，共找到15,925条，300页。每页中包含20个条目，每个条目包含题目、作者、来源等信息。

通过对当前页面分析，发现每个条目对应的的xpath的规律。

/html[1]/body[1]/div[5]/div[2]/div[2]/div[2]/form[1]/div[1]/table[1]/tbody[1]/tr[1]/td[2]

即倒数第二个标签数字代表本页的第几个条目，最后一个标签 2 - 6 分别代表题目、作者、来源、发表时间和数据库

。

在当前页面无法或者文献的摘要信息，下载链接等等,需要进一步点击进入相关文献条目。

进入详情页面后，我们根据class name：abstract-text 能够很容易定位到摘要的文本，class name： btn-dlcaj

定位到下载链接，其他元素同理。

完成以上知网页面的分析后，我们就可以根据需求开始写代码了！

2. 代码示例

引用所需要的库

import

time

from selenium import

webdriver

from selenium.webdriver.support.ui import

WebDriverWait

from selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import

from selenium.webdriver.common.desired_capabilities import

DesiredCapabilities

from urllib.parse import

urljoin

创建浏览器对象

这里我们创建一个Chrome浏览器的窗口，并设置相关参数：#get直接返回，不再等待界面加载完成

desired_capabilities = DesiredCapabilities.CHROME

desired_capabilities["pageLoadStrategy"] = "none"

# 设置谷歌驱动器的环境

options = webdriver.ChromeOptions()

# 设置chrome不加载图片，提高速度

options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})

# 设置不显示窗口

#options.add_argument(--headless)

# 创建一个谷歌驱动器

driver = webdriver.Chrome(options=options)

# 设置搜索主题

theme = "Python"

# 设置所需篇数

papers_need = 100

打开页面并搜索关键词

# 打开页面driver.get("https://www.cnki.net")# 传入关键字WebDriverWait( driver, 100 ).until( EC.presence_of_element_located( (By.XPATH ,//*[@id="txt_SearchText"]) ) ).send_keys(theme)# 点击搜索WebDriverWait( driver, 100 ).until( EC.presence_of_element_located( (By.XPATH ,"/html/body/div[1]/div[2]/div/div[1]/input[2]") ) ).click()time.sleep(3)# 点击切换中文文献WebDriverWait( driver, 100 ).until( EC.presence_of_element_located( (By.XPATH ,"/html/body/div[5]/div[1]/div/div/div/a[1]") ) ).click()time.sleep(1)# 获取总文献数和页数res_unm = WebDriverWait( driver, 100 ).until( EC.presence_of_element_located( (By.XPATH ,"/html/body/div[5]/div[2]/div[2]/div[2]/form/div/div[1]/div[1]/span[1]/em") ) ).

text

# 去除千分位里的逗号res_unm = int(res_unm.replace(",",))page_unm = int(res_unm/20) + 1print(f"共找到 {res_unm} 条结果, {page_unm} 页。")

解析结果页

# 赋值序号, 控制爬取的文章数量count = 1# 当，爬取数量小于需求时，循环网页页码while count <= papers_need: # 等待加载完全，休眠3S time.sleep(3) title_list = WebDriverWait( driver, 10 ).until( EC.presence_of_all_elements_located( (By.CLASS_NAME ,"fz14") ) ) # 循环网页一页中的条目 for i in range(len(title_list)): try: term = count%20 # 本页的第几个条目 title_xpath = f"/html[1]/body[1]/div[5]/div[2]/div[2]/div[2]/form[1]/div[1]/table[1]/tbody[1]/tr[{term}]/td[2]" author_xpath = f"/html[1]/body[1]/div[5]/div[2]/div[2]/div[2]/form[1]/div[1]/table[1]/tbody[1]/tr[{term}]/td[3]" source_xpath = f"/html[1]/body[1]/div[5]/div[2]/div[2]/div[2]/form[1]/div[1]/table[1]/tbody[1]/tr[{term}]/td[4]" date_xpath = f"/html[1]/body[1]/div[5]/div[2]/div[2]/div[2]/form[1]/div[1]/table[1]/tbody[1]/tr[{term}]/td[5]" database_xpath = f"/html[1]/body[1]/div[5]/div[2]/div[2]/div[2]/form[1]/div[1]/table[1]/tbody[1]/tr[{term}]/td[6]" title = WebDriverWait( driver, 10 ).until( EC.presence_of_element_located((By.XPATH ,title_xpath) ) ).

text

authors = WebDriverWait( driver, 10 ).until( EC.presence_of_element_located((By.XPATH ,author_xpath) ) ).

text

source = WebDriverWait( driver, 10 ).until( EC.presence_of_element_located((By.XPATH ,source_xpath) ) ).

text

date = WebDriverWait( driver, 10 ).until( EC.presence_of_element_located((By.XPATH ,date_xpath) ) ).

text

database = WebDriverWait( driver, 10 ).until( EC.presence_of_element_located((By.XPATH ,database_xpath) ) ).

text

# 点击条目 title_list[i].click() # 获取driver的句柄 n = driver.

window_handles

# driver切换至最新生产的页面 driver.switch_to_window(n[-1]) # 开始获取页面信息 # title = WebDriverWait( driver, 10 ).until( EC.presence_of_element_located((By.XPATH ,"/html/body/div[2]/div[1]/div[3]/div/div/div[3]/div/h1") ) ).text # authors = WebDriverWait( driver, 10 ).until( EC.presence_of_element_located((By.XPATH ,"/html/body/div[2]/div[1]/div[3]/div/div/div[3]/div/h3[1]") ) ).text institute = WebDriverWait( driver, 10 ).until( EC.presence_of_element_located((By.XPATH ,"/html[1]/body[1]/div[2]/div[1]/div[3]/div[1]/div[1]/div[3]/div[1]/h3[2]") ) ).

text

abstract = WebDriverWait( driver, 10 ).until( EC.presence_of_element_located((By.CLASS_NAME ,"abstract-text") ) ).

text

try: keywords = WebDriverWait( driver, 10 ).until( EC.presence_of_element_located((By.CLASS_NAME ,"keywords") ) ).text[:-1] except: keywords = 无 url = driver.

current_url

# 获取下载链接 # link = WebDriverWait( driver, 10 ).until( EC.presence_of_all_elements_located((By.CLASS_NAME ,"btn-dlcaj") ) )[0].get_attribute(href) # link = urljoin(driver.current_url, link) # 写入文件 res = f"{count}\t{title}\t{authors}\t{institute}\t{date}\t{source}\t{database}\t{keywords}\t{abstract}\t{url}".replace("\n","")+"\n" print(res) with open(CNKI_res.tsv, a, encoding=gbk) as f: f.write(res) except: print(f" 第{count} 条爬取失败\n") # 跳过本条，接着下一个 continue finally: # 如果有多个窗口，关闭第二个窗口，切换回主页 n2 = driver.

window_handles

if len(n2) > 1: driver.close() driver.switch_to_window(n2[0]) # 计数,判断需求是否足够 count += 1 if count == papers_need:break # 切换到下一页 WebDriverWait( driver, 10 ).until( EC.presence_of_element_located( (By.XPATH ,"//a[@id=PageNext]") ) ).click()# 关闭浏览器driver.close()至此，所有功能都已实现，代码中写了详细的注释。需要获得完整代码的可以直达我的Github下载，CNKI_Spider.py（https://github.com/byemaxx/BioTools）。