一直以来老有朋友问我怎么写爬虫,还有想拜我为师的。愧不敢当啊,我也是个边学边卖的新手。
开个贴子,列出一些通用技能,与大家一起分享。
首先是学习一门语言,如果你啥都不会,或者学啥都行,那就学 python 吧,推荐一个学习 python 的非常优秀的国人写的网站 http://www.liaoxuefeng.com 他的教程可能非常适合有少许编程基础的朋友快速上手,至于完全 0 基础的能不能看得懂,需要倾听朋友们的反馈。其实 0 基础学啥都是万事开头难,刚开始不懂也正常。
另外提个忠告:可能你会想买本书学 python,再买本书用 python 写爬虫的书。
我的建议是:python 的教材可以买,当工具书或者系统深入学习 python 还是有必要的。比如国人写的《跟老齐学 python 轻松入门》,质量还是很不错的。
但是专门讲 python 写爬虫的书不需要买,或者说性价比不高,因为做爬虫常用的技术就那么几条,完全可以找几篇精华贴子看看就搞明白了,另外一点是近一两年许多国人蹭热点写了许多 python 爬虫相关的书,我翻过几本,依然是国产书的典型水样:凑字数、大段粘贴代码,讲不透彻讲不系统。当然如果您发现有这方面不错的书也欢迎推荐。
要学习的 python 库,主要是两个:
1、Beautifulsoup 解析网页用的,比如你想从一篇公众号文章中解析出它的标题,或者解析出所有的图片,都是通过这个库来实现。
2、Requests 下载网页、图片、css、js 等文件用的,此库可以方便得设置 header 头,特别是 ua,以达到伪装为正常用户浏览的目的,稍高级一点的还可以在 requests 中设置代理服务器,以达到并行下载而不被封。