跟着孙兴华学习Python办公自动化之PDF篇 【本季完】Python自动化
孙兴华zz:
python全系列课件及笔记下载:
https://pan.baidu.com/s/162dV7YSt3KkRFIGnrLGmUg
提取码:2545
Python基础教程:
https://www.bilibili.com/video/BV1HE41157bu
正则表达式及网络爬虫:
https://www.bilibili.com/video/BV1kp4y1C7c8
Python Numpy教程:
https://www.bilibili.com/video/BV1R64y1u7zX
Python Pandas教程:
https://www.bilibili.com/video/BV1Dt4y1C7Mx
【回复】Python办公自动化之exlce篇:https://www.bilibili.com/video/BV1L5411W7wD
Python办公自动化之PDF篇:https://www.bilibili.com/video/BV1YK411n7od
Python办公自动化之文件与文件夹篇:https://www.bilibili.com/video/BV1mK411p7Uv
孙兴华zz:
python全系列课件及笔记下载:
https://pan.baidu.com/s/162dV7YSt3KkRFIGnrLGmUg
提取码:2545
Python基础教程:
https://www.bilibili.com/video/BV1HE41157bu
正则表达式及网络爬虫:
https://www.bilibili.com/video/BV1kp4y1C7c8
Python Numpy教程:
https://www.bilibili.com/video/BV1R64y1u7zX
Python Pandas教程:
https://www.bilibili.com/video/BV1Dt4y1C7Mx
Python办公自动化之文件与文件夹篇:
https://www.bilibili.com/video/BV1mK411p7Uv
Python办公自动化之exlce篇:
https://www.bilibili.com/video/BV1L5411W7wD
Python办公自动化之PDF篇:
https://www.bilibili.com/video/BV1YK411n7od
Python办公自动化之Word篇
https://www.bilibili.com/video/BV1FC4y1Y7QC
Python办公自动化之PPT篇
https://www.bilibili.com/video/BV1Sk4y1z7RN
ysm6677:
def pdf2word():
fn = open(file_name, 'rb')
parser = PDFParser(fn)
doc = PDFDocument(parser)
parser.set_document(doc)
doc.set_parser(parser)
resource = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(resource, laparams=laparams)
interpreter = PDFPageInterpreter(resource, device)
for i in doc.get_pages():
interpreter.process_page(i)
layout = device.get_result()
for out in layout:
if hasattr(out, "get_text"):
content = out.get_text().replace(u'\xa0', u' ')
document.add_paragraph(
content, style='ListBullet'
)
document.save(l + '.docx') 第65行 pdf2word()
qyqhh22:
提取图片 报错'Document' object has no attribute '_getXrefLength'
乄名王萍:
老师,我想问如何批量在PDF里面插入文字
无影独白:
您好,请教一下如果需要对pdf里面的单页分割为两页或者更多页,这个pypdf2能做吗?在其他所有地方看到的分割都指的是拆分,我这里说的分割是对单页进行分割,例如在纵向50%的地方进行分割,然后pdf的一页变成2页。
【回复】这个需要提高英语水平,然后去读帮助文档,因为我学的时候没有中文的现在我不知道有没有,我的英语能力有限,所以没有继续往下深入研究。(⌒▽⌒)
【回复】你的应用场合是什么,文件很多吗
【回复】回复 @孙兴华zz :好的,多谢孙老师~
小河_0728:
感谢前辈的教程,真的很好懂,非常有帮助!
60F60Z60Y:
fitz re os模块清华镜像和阿里云网站都下载安装不了?请问孙老师,这个如何是好?
【回复】回复 @孙兴华zz :方法在哪?哪个视频或文档?
西山夕照:
"E:\Program Files\python310\python.exe" "E:/Program Files (x86)/python/pythonProject/孙兴华pandas/test.py"
Traceback (most recent call last):
File "E:\Program Files (x86)\python\pythonProject\孙兴华pandas\test.py", line 7, in <module>
文件.write(文本)
UnicodeEncodeError: 'gbk' codec can't encode character '\u2751' in position 179: illegal multibyte sequence
Process finished with exit code 1
文件.write(文本) 这个地方老是报以上错误,为什么?用老师的代码、文件可以通过,换了一个PDF文件就不行了,这个怎么解决?
【回复】改成 文件.write(文本.encode('GBK','ignore').decode('GBK')) 就可以了
注意encode decode 括号 中的单引号
风化的羽翼:
关于去除dataframe到excel的索引列问题,pd.to_excel方法中有一个参数index=False,这样出来的excel就没有索引列,这样就不需要在vba里再操作一遍[呲牙]
【回复】那请问下在这个视频中的代码下应该怎样将这行代码插入进去才能去除索引列啊
牛仔吾北虎:
对初学者,讲不错,起码可惜大概懂。很不错。[呲牙]
FHexun:
RuntimeError: Directory 'static/' does not exist
up主,请问出现这个错误是什么原因 原封不动复制的代码
【回复】讲pycharm中的代码和报错一起截图,私信我
xuechenqi:
孙老师您好,请问如何从不同的几个PDF里面(在同一个文件夹内)批量提取表格或者文字呢
【回复】回复 @孙兴华zz :好的,明白了,我一会儿看看这套课程。谢谢您,感恩
【回复】办公自动化是一套课程,你现在看到的只是其中之一,这套课程主要讲怎么针对一个PDF,进行操作。BV1mK411p7Uv,我这套课程就是主要讲的,如何从文件夹里把所有的文件都拿出来,然后再用针对一个文件进行操作的代码进行操作就可以了
Allen_Wolf:
目前听过最好的python应用教程[呲牙],我是自学的基础,然后看了孙老师文件与文件夹、pdf(提取文字部分)和excel(只看了写入数据的那一集)就实现了批量从固定格式的pdf中提取数据,以后遇到想学的人也会推荐孙老师的课程