标签:数据抓取

整理文件夹,居然发现一篇2012年4月写的关于微博的论文,居然没有投出去,居然忘记了它的存在。本着不浪费的原则,更新一下里面的数据,尝试再投投。

当时的数据是自己临时写了个小程序抓取的,中间无数bug,搞得灰头灰脸,作为一个新时代厚颜无耻的拿来主义者,这种事情是不能再干的了,所以,得找找有什么现成的工具。

GOOGLE一下,不得不说,这几年大数据的兴起,催生了一批非常不错的数据采集工具,针对新闻、游戏等不同类型的信息站点,或者针对具体的某个信息的传播路径如某条微博,都能找到相应的工具,什么火车头、八爪鱼等都尝试用一下,其实蛮有趣的。我的需求很简单,就是抓一下评论数、转发数和内容之类的,很多工具都能完成,当然有些工具在规则配置上、AJAX数据请求和登录处理上,确实会让一个新手鬼打墙,不过总的来说,比起一页页点击和一条条数据去CTRL C,已经好太多太多了。

回到主题,折腾了半天,最后我用了firefox的插件metaseeker,36.x版本的,37.x的安装不成功哦。

不多说,基本的介绍、下载地址、配置方法和使用样例都在这里:

网站采集器MetaSeeker v4.x速成手册

 

然后,关于weibo数据抓取的,在这里:

自动滚屏抓取新浪微博

 

最后,其实这篇口水多过茶的博文,就想讲下面三句话:

1、微博或者网页,是结构化的。打个比方,页面上的一条微博含内容、评论,都放在一个div里面,这个div有个CSS属性,暂且叫它为:nishilaoda;里面的内容啊,评论啊,分别放在一个css属性同为nishibiesan的span里面。

2、那么这时我们需要做的是,分别把对应dom节点的text属性,通过“内容映射”,把内容映射到整理箱的字段里面去,这时测试,这条数据已经可以出来了。

3、那么循环读出全部的数据该如何做呢?很简单,把nishilaoda的CSS属性,通通采用“freeformat映射”给各个字段及整个节点,就OK了,就不要管nishibiesan的CSS属性啦。