python3 采集网页

楚文滨 2周前 13浏览 0评论

Python3是一种通用、高级、面向对象的编程语言,已经成为现代数据科学和计算机科学的重要工具。Python3还具有广泛的库和工具,它们使数据处理、自然语言处理、机器学习等任务变得更加容易。

用Python3编写网络爬虫是它变得非常流行的一个领域之一。Python3提供了一些非常强大的库和工具,使得编写网络爬虫变得容易。

import requests
from bs4 import BeautifulSoup

url = "https://www.example.com"

res = requests.get(url)
# 确定响应状态码是否为200,表示成功
if res.status_code == 200:
    # 解析HTML页面
    soup = BeautifulSoup(res.text, "html.parser")
    # 找到网页中的所有链接
    links = soup.find_all("a")
    # 遍历每个链接元素
    for link in links:
        # 提取链接URL
        href = link.get("href")
        # 输出链接URL
        print(href)

在这个例子中,我们使用了requests库来发送HTTP请求,并使用BeautifulSoup来解析HTML页面。我们找到了页面中的所有链接,然后输出它们的URL。

使用Python3编写网络爬虫非常容易,但是请注意,爬取网站时需要遵守道德规范。不要过度爬取网站或使用爬虫行为侵犯其他人的隐私或知识产权。