python3 soup

洛仁耀 4天前 9浏览 0评论

Python3中的BeautifulSoup又称为bs4,它是一款用Python语言编写的HTML和XML解析库。BeautifulSoup不仅能够将HTML和XML的数据进行解析,还可以遍历文档树、搜索HTML节点和修改HTML节点属性等操作。同时,BeautifulSoup能够支持多种解析器,如Python标准库中的HTML解析器、lxml解析器等。

#导入BeautifulSoup
from bs4 import BeautifulSoup

# 创建HTML文档
html_doc = """示例

这是一个测试标签

链接
  • 列表项一
  • 列表项二
  • 列表项三
""" # 解析HTML soup = BeautifulSoup(html_doc, 'html.parser') # 获取p标签的属性值 p_tag = soup.find('p', class_='testTag') print(p_tag.string) # 获取a标签的href属性值 a_tag = soup.find('a') print(a_tag['href']) # 获取所有li标签 li_tags = soup.find_all('li') for li in li_tags: print(li.string)

在以上示例中,我们首先创建了一个HTML文档,并通过BeautifulSoup对其进行解析。接着我们通过find()方法获取了p标签和a标签的属性值,并通过find_all()方法获取了所有的li标签。使用BeautifulSoup可以让我们轻松地进行HTML和XML的解析和操作,大大提高了开发效率。

上一篇 python3 sock