抓取百度百科关键字

根据之前学过的基础知识,现在爬取一些简单的静态页面是不成问题了。百度百科页面爬虫,爬取页面词条并打印。因为每个页面词条是很多的,所以每个页面随机取一个词,不断的往下爬取。总共分为3部,即爬取网页、分析网页数据、输出所需资源。组成本爬虫的关键模块分别是URL管理器、HTML下载器和HTML解析器。

- 阅读全文 -

Category相关

分类添加的方法可以“覆盖”原类方法同名分类方法谁能生效取决于编译顺序,后编译先执行名字相同的分类会引起编译报错Category的实现原理通过Runtime加载某个类的所有Category数据把所有Category的方法、属性、协议数据,合并到一个大数组中。后面参与编译的Category 数据,会在数组的前面。将合并后的分类数据(方法、属性、协议),插入到类原来数据的前面Category和Exten

- 阅读全文 -

typeof与instanceof的区别

先说结论,通俗易懂一点的理解就是 typeof和instanceof都是用来检测变量类型的操作符,typeof是判断变量是什么基本类型的; instanceof是判断对象到底是什么类型的typeof主要用于判断数据是不是基本数据类型:String、Number、Object、Null、Undefined、Boolean,但是无法判断出function、array、regExp返回值是一个字符串,该

- 阅读全文 -

用 Python 分析微信好友

微信几乎是每天都会打开的一个App,今天就来简单分析一下微信好友的一些基本信息。最终目标是爬取所有微信好友并且分析男女比例、个性签名等数据。看似简单的功能用到的库其实不少。主要用到了itchat、matplotlib、wordcloud、jieba、PIL等库。不得不说Python的库是真的多,不过也确实好用。真的是感谢前辈们的付出。

- 阅读全文 -

爬虫入门(三):掌握常用正则表达式

当获取到页面的内容之后,怎么样提取想要的文字呢?正则表达式就是一个很好用的工具。在很多编程语言里面都有正则表达式的概念。正则表达式比较常见的是对字符串操作,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。除了提取文字外,比较常见的还有判断是不是email,是不是手机号等功能。

- 阅读全文 -