根据之前学过的基础知识,现在爬取一些简单的静态页面是不成问题了。百度百科页面爬虫,爬取页面词条并打印。因为每个页面词条是很多的,所以每个页面随机取一个词,不断的往下爬取。总共分为3部,即爬取网页、分析网页数据、输出所需资源。组成本爬虫的关键模块分别是URL管理器、HTML下载器和HTML解析器。

- 阅读全文 -