PDF是一种广泛使用的文档格式,Python也提供了多种读取PDF文档的库。Python3中使用PyPDF2和pdfplumber两个库进行PDF读取。
PyPDF2库是通过PDF文件对象读取并且写入PDF文件中的Python模块。使用该库可以实现从PDF中提取文本、分离页面、合并页面、加入密码等操作。下面是使用PyPDF2库提取PDF文档中的文本的代码:
import PyPDF2 file = open('example.pdf', 'rb') pdf_reader = PyPDF2.PdfFileReader(file) for page_number in range(pdf_reader.numPages): page = pdf_reader.getPage(page_number) text = page.extractText() print(text) file.close()
pdfplumber是一个比PyPDF2更强大的PDF解析库。它不仅可以提取文本,还可以提取数据、图形等。使用这个库还可以进行表格识别、PDF文档中的链接提取、对多列文字的对齐性识别等操作。下面是使用pdfplumber库提取PDF文档中的文本的代码:
import pdfplumber file = open('example.pdf', 'rb') pdf_reader = pdfplumber.open(file) for page in pdf_reader.pages: text = page.extract_text() print(text) file.close()
两个库都是非常强大的PDF解析库,在实际工作中可以根据需求自由选择使用哪一个库。
上一篇 jquery 三态树
下一篇 html文字标题代码