用python写爬虫的一些经验(持续更新)

一直以来老有朋友问我怎么写爬虫，还有想拜我为师的。愧不敢当啊，我也是个边学边卖的新手。

开个贴子，列出一些通用技能，与大家一起分享。

首先是学习一门语言，如果你啥都不会，或者学啥都行，那就学 python 吧，推荐一个学习 python 的非常优秀的国人写的网站 http://www.liaoxuefeng.com 他的教程可能非常适合有少许编程基础的朋友快速上手，至于完全 0 基础的能不能看得懂，需要倾听朋友们的反馈。其实 0 基础学啥都是万事开头难，刚开始不懂也正常。

另外提个忠告：可能你会想买本书学 python，再买本书用 python 写爬虫的书。

我的建议是：python 的教材可以买，当工具书或者系统深入学习 python 还是有必要的。比如国人写的《跟老齐学 python 轻松入门》，质量还是很不错的。

但是专门讲 python 写爬虫的书不需要买，或者说性价比不高，因为做爬虫常用的技术就那么几条，完全可以找几篇精华贴子看看就搞明白了，另外一点是近一两年许多国人蹭热点写了许多 python 爬虫相关的书，我翻过几本，依然是国产书的典型水样：凑字数、大段粘贴代码，讲不透彻讲不系统。当然如果您发现有这方面不错的书也欢迎推荐。

要学习的 python 库，主要是两个：

1、Beautifulsoup 解析网页用的，比如你想从一篇公众号文章中解析出它的标题，或者解析出所有的图片，都是通过这个库来实现。

2、Requests 下载网页、图片、css、js 等文件用的，此库可以方便得设置 header 头，特别是 ua，以达到伪装为正常用户浏览的目的，稍高级一点的还可以在 requests 中设置代理服务器，以达到并行下载而不被封。

本文标题：用 python 写爬虫的一些经验(持续更新)
转载请保留页面地址 https://www.xiaokuake.com/p/pychon-crawl.html

Hi，您需要填写昵称和邮箱！