书接上文
再强调一下,你要爬什么就要先了解什么,要对网页的呈现原理非常熟悉才可以,也许你现在还写不出漂亮的网页代码,但最最起码你看到一段源代码要知道它是啥意思。
不能眉毛胡子一把抓看着差不多就觉得爬了再说,也不能说“我觉得这个能爬”,“我看都看到了,难道不能保存下来吗”
以上这些,牛逼一点说,肯定能爬。现实一点说:够你爬一壶的。
基础牢固,事半功倍,基础不牢,事倍功半。
至于网页学习资料,网上太多了,就不讲了,但要注意一点:不要用 Dreamweaver 这种拖拉式的 IDE,用这玩意你就走歪路了,用记事本直接自己写代码才是正道,但是不推荐 windows 下的记事本,有 bug。可以下一个免费版的 notepad++ ,不要以为我这是随便讲讲,等你被坑的时候就知道该听我的了。
学 html 的同时你应该自然而然得就会学到一些 css 相关的知识,提醒一点:css 绝不是你想象的那么简单易学的,有非常多的窍门和暗坑。我到现在都经常遇到怎么看代码都觉得应该能正常显示但实际看到的就是元素位置错乱的问题。这玩意需要经验积累,所以要虚心点学。
然后是 js,最简单的学一点吧,还是那句话:要做到也许你还不会写,但起码要能看懂,如果看不懂也起码要能知道怎么去根据其中的关键字去百度搜索学习。
以上这些,是让大家了解自己要抓取的标的的基本信息。所谓知敌才能克敌嘛。
但是要怎么克?那就要找到自己克敌的武器了。也就是说,你还得学一门把网页上的内容抓取下来,然后分析和保存的语言。有很多种语言都可以实现这个功能,且基本每种语言都有一些现成的很好用的库,最常见的是 python C# java php nodejs 等等,如果你只学一门的话建议学 python,因为这玩意用的人多,现成的爬虫工具也多,你遇到问题时容易搜索到答案。
还有一个原因是:我对这个相对来说熟悉点。
再有一个原因:python 语言除了能做爬虫几乎能做任何其他事情。
最后一个原因:这玩意现在火呀,你还不得追追时髦啊,这样吹牛皮时也显得高端不是。
OK,今天先扯这么多。未完待续。