首先,说明一下我已经用 python 和 C#完整实现了批量爬取微信公众号历史文章的功能,而且已经做成 GUI 式的软件。虽然跟专业选手相比我深知差距巨大,但是把经验分享出来至少能帮助到一部分新人朋友,所以抖胆写这个话题。还是请高手们轻喷。
但是,想找我要现成源代码的,想免费摘桃子的,请看这篇文章。
如果您能看到第二行,感谢您的耐心。
公众号里该写什么我是越来越搞不懂了,写太初级的吧没人看还容易掉粉,写太技术的吧更没人看,写干货吧我哪来那么多东西写。
还是自己的一亩三分地博客好,想写啥就写啥,随时能改,放个广告都可以放心大胆得随便放,哈哈哈。
首先,想学爬虫不是看几篇贴子就能搞定的,也不是你朋友嘴里说的“很简单”几个字就能概括的,一切的一切都要从你自己的实际出发才行,比如有没有编程基础,一个文科生和一个过了计算机二级的理科生底子肯定是不一样的,但即使是后者仍然也要学很多东西才能做一个能跑起来并且他自己能说得懂为啥能跑起来的爬虫。
第一篇:爬虫,“爬”的是什么东东。
其实“爬虫”这个词汇挺贴切的,就是像蜘蛛这种“虫”一样去“爬”取网络上的资料,个人认为这个“爬”有两层含义:一是指互联网就是一个大网,我们要像蜘蛛一样在这个网上到处去爬,到处去搜集信息。二是指单个网页上可能有你需要的信息,我们要把这些信息从别人的网页上抓取到自己的本地,为我所用。
所以,顺着上面的两个含义,我们要学习这两个爬取的标的:
1、网络:即你要怎么从一个节点开始不停得去搜索到下一个目标节点,因特网太巨大了你不可能全爬下来,所以一定要有寻找目标的策略。不过好在问题不大,因为你可以先人工百度出你想要搜集的信息范围,或者,其实多数时候我们的爬取任务都是比较明确的,比如我要爬取微信公众号的文章,我一定是想知道我要爬取具体哪一个公众号的文章,而不是全网都爬(当然搜索全部公众号的文章也有办法),又比如我想爬取微博某个名人说过的话,那我直接去有针对性的爬取就可以了。
2、有了目标网页,还要会分析目标网页,而网页是由什么构成的呢?html 代码,加 js 和 css,多数网页你只会 html 也行,了解 js 和 css 则更好。大概随便找一本书或者一个在线免费网站学个三五天应该就差不多了。然后,一定要先试着自己用 html 写几个网页,加深对其语法的理解。然后,才能更准确得去解析这个网页。
OK,第一篇,先讲最基础的“概述”的第一部分,我们有的是时间,慢慢讨论。