发现-时光导航网 发现-时光导航网

郴州,阴,97-发现-时光导航网

HTML文档是互联网上的首要文档类型,但还存在如TXT、WORD、Excel、PDF、csv等多种类型的文档。网络爬虫不只需求能够抓取HTML中的灵敏信息,也需求有抓取其他类型文档的才能。下面扼要记载一些个人已知的根据python3的抓取办法,以备查阅。 抓取TXT文档 在python3下,常用办法是运用urllib.request.urlopen办法直接获取。之后运用正则表达式等办法进行灵敏词检索。

上面的办法是已知方针网页为txt文本时的抓取。事实上,在主动抓取网页时,有必要考虑方针网页是否为纯文本,用何种编码等问题。 假如仅仅编码问题,能够简略运用print(textPage.read(),’utf-8’)等python字符处理办法来处理,假如抓取的是某个HTML,最好先剖析,例如:

2.抓取CSV文档 CSV文件是一种常见的数据存档文件,与TXT文档根本相似,但在内容安排上有必定格局,文件的首行为标题列,之后的文件中的每一行表明一个数据记载。这就像一个二维数据表或excel表格相同。 python3中包括一个csv解析库,可用于读写csv文件,但其读取方针一般要求是在本地,要读取长途网络上的csv文件需求用urllib.request.urlopen先获取。例如:

csv文档的标题行(首行)需求特别处理,csv.DictReader能够很好的处理这个问题。DictReader将读取的行转换为python字典目标,而不是列表。标题行的各列名即为字典的键名。

3.抓取PDF文档 pdf文档的长途抓取与操作,可凭借比较盛行的pdfminer3k库来完结。

4.抓取WORD 老版word运用了二进制格局,后缀名为.doc,word2007后呈现了与OPEN OFFICE相似的类XML格局文档,后缀名为.docx。python对word文档的支撑不行,好像没有完美处理方案。为读取docx内容,能够运用以下办法:

(1)运用urlopen抓取长途word docx文件;

(2)将其转换为内存字节省;

(3)解紧缩(docx是紧缩后文件);

(4)将解压后文件作为xml读取

(5)寻觅xml中的标签(正文内容)并处理

作者:admin 分类:我们的头条 浏览:284 评论:0