李成笔记网

专注域名、站长SEO知识分享与实战技巧

不用写代码,30 秒抓取李笑来所有微博

不知道大家发现没,《得到》专栏的导师,李笑来、万维钢、古典等,在专栏的分享中,都曾讲过这么一个道理——“最有效的学习方法就是教别人”。

如果我们学到某些知识,能清楚的讲给别人听;

或者我们学会某些技能,可以教给别人使用;

那就说明,我们真的学会了。

我们这里,互联网从业者可能比较多,平时可能需要到微博、百度,知乎之类的网站,统计一些数据,做产品分析,用户喜好之类的分析。

但是有时候数据量比较大,手动统计太费时间,编程的话,门槛太高。

我给大家分享一个谷歌插件,webscraper,不用写代码,点点鼠标就可以抓取互联网上大量的数据。

这个插件,功能十分强大。

微信公众号,微博,百度,知乎、淘宝等等,只要是网页上可以显示的信息,都可以抓取到。

比如:咪蒙的公众号。我只用了30秒设置插件,然后出去喝了杯水,回来后,就看到数据结果:咪蒙的631篇文章标题。

由于数量太大,我只截取了最后一段。

真是太爽了,有没有。

想象一下,你打开一个网页,设置抓取格式,软件开始工作。你站起来,伸个懒腰,去外面倒一杯咖啡,回来后,需要的数据已经完整展现在你面前,多方便。

今天我来给大家分享这个软件——webscraper。

我们一步一步来,这次我们用李笑来微博作为例子。

一、下载安装

我们需要安装两个软件:

- Chrome浏览器

- webscraper插件

谷歌浏览器,大家根据自己的操作系统,windows或者mac,百度搜索,下载安装即可。

webscraper插件安装方法有两种:

1、直接在浏览器输入地址:http://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn

按照提示点击“安装”即可

2、从云盘下载webscraper安装包:

下载好以后,

(1)Chrome 浏览器中输入:chrome://extensions/

(2)将下载好的文件拖动到此此页面

(3)根据提示点击:Add extensions;即完成安装。

以上,所需软件就已安装完毕。

二、打开软件

webscraper打开的入口有三种方法:

1、windows, linux:Ctrl+Shift+I 或者 f12, 或者 Tools / Developer tools

2、mac: Cmd+Opt+I, 或者 Tools / Developer tools

3、或者:右键——> 审查元素(适用于各个系统)

如上图,大家可以看到,红框标注的地方,出现了一个webscraper,没有安装之前是看不到的。

三、创建sitemap

如上图,我们点击“create sitemap”,进入下面图片;

如上图:

这个步骤需要输入 2 个信息:

  • Sitemap name:根据自己的实际情形自定义,比如抓的是张佳玮的文章,就取名 zhangjiawei。

  • Start URL:当前网址 (可直接从浏览器复制)。我们的话要抓取李笑来的微博,就填 https://weibo.com/bylixiaolai?refer_flag=1001030101_&ssl_rnd=1509760362.444&is_hot=1

最后点击 Create Sitemap 按钮即可

四、设置selector

如上图,点击“Add new selector”,进入下图;

如上图,我们按照标号来挨个看。

1. 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))

2. 选择 “Type”,此处选择Element scroll down

3. 点击 “Select” 进行元素抓取

4. 上一步,点击“Select”后,会出现标号4出悬浮的工具框

5. 点击第一个帖子

6. 点击第二个帖子,完成后,点击悬浮工具框蓝色的“Done slecting!"

7. 勾选 “Multiple”

8. 输入 Delay(延迟时间,意思是等待多长时间后,再进行抓取,建议填 2000)

9. 点击”Save Selector“

这步完成后,你会发现,sitemap下出现了一个叫content的选择器,如下图

点击上图的“content”,进入下图:

如上如,标号1,你会发现,这里多了一个content。

我们点击这里,标号2的地方,“Add new selector",进入下图:

如上图:我们按照标号依次看:

1. 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))

2. 选择 “Type”,此处选择Text

3. 点击 “Select” 进行元素抓取

4. 上一步,点击“Select”后,会出现标号4出悬浮的工具框

5. 注意,当我们点击上一步4的select后,第一个帖子会**变黄**,我们点击这个黄色区域,它会变为红色。

6. 点击”Save Selector“,其他的都不用设置。

以上,我们抓取李笑来微博的所有设置都已完成。

#五、开始抓取

这步,我们开始正式抓取:

如上图,点击中间这列,点击下拉框中出现的“Scrape”,进入下图:

这几个都默认就行,直接点击标号4的“Start scraping”。

点击后,浏览器会弹出一个新窗口,进行抓取工作,不要关闭,等待他抓取完毕。

你会发现,弹出的窗口,会自动下拉鼠标,模拟人的手,自动化的将这页全部的帖子全部抓取下来。

完毕后,会出现抓取的数据,如下图:

#六、导出到本地电脑

如上图,点击中间这列,点击下拉框中的“Export data as CSV”,会进入下图。

如上图,点击“Download now”,即可将数据下载到本地,以表格的形式存储。

文件可以用excel打开,mac下用numbers打开即可。

至此,李笑来的微博我们已经全部抓取完毕了。

怎么样,是不是很厉害。

其实这个软件的功能远不止此,大家操作起来吧。

发表评论:

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言