不知道大家发现没，《得到》专栏的导师，李笑来、万维钢、古典等，在专栏的分享中，都曾讲过这么一个道理——“最有效的学习方法就是教别人”。

如果我们学到某些知识，能清楚的讲给别人听；

或者我们学会某些技能，可以教给别人使用；

那就说明，我们真的学会了。

我们这里，互联网从业者可能比较多，平时可能需要到微博、百度，知乎之类的网站，统计一些数据，做产品分析，用户喜好之类的分析。

但是有时候数据量比较大，手动统计太费时间，编程的话，门槛太高。

我给大家分享一个谷歌插件，webscraper，不用写代码，点点鼠标就可以抓取互联网上大量的数据。

这个插件，功能十分强大。

微信公众号，微博，百度，知乎、淘宝等等，只要是网页上可以显示的信息，都可以抓取到。

比如：咪蒙的公众号。我只用了30秒设置插件，然后出去喝了杯水，回来后，就看到数据结果：咪蒙的631篇文章标题。

由于数量太大，我只截取了最后一段。

真是太爽了，有没有。

想象一下，你打开一个网页，设置抓取格式，软件开始工作。你站起来，伸个懒腰，去外面倒一杯咖啡，回来后，需要的数据已经完整展现在你面前，多方便。

今天我来给大家分享这个软件——webscraper。

我们一步一步来，这次我们用李笑来微博作为例子。

一、下载安装

我们需要安装两个软件：

- Chrome浏览器

- webscraper插件

谷歌浏览器，大家根据自己的操作系统，windows或者mac，百度搜索，下载安装即可。

webscraper插件安装方法有两种：

1、直接在浏览器输入地址：http://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn

按照提示点击“安装”即可

2、从云盘下载webscraper安装包：

下载好以后，

（1）Chrome 浏览器中输入：chrome://extensions/

（2）将下载好的文件拖动到此此页面

（3）根据提示点击：Add extensions；即完成安装。

以上，所需软件就已安装完毕。

二、打开软件

webscraper打开的入口有三种方法：

1、windows, linux：Ctrl+Shift+I 或者 f12, 或者 Tools / Developer tools

2、mac： Cmd+Opt+I, 或者 Tools / Developer tools

3、或者：右键——> 审查元素（适用于各个系统）

如上图，大家可以看到，红框标注的地方，出现了一个webscraper，没有安装之前是看不到的。

三、创建sitemap

如上图，我们点击“create sitemap”，进入下面图片；

如上图：

这个步骤需要输入 2 个信息：

Sitemap name：根据自己的实际情形自定义，比如抓的是张佳玮的文章，就取名 zhangjiawei。
Start URL：当前网址 (可直接从浏览器复制）。我们的话要抓取李笑来的微博，就填 https://weibo.com/bylixiaolai?refer_flag=1001030101_&ssl_rnd=1509760362.444&is_hot=1

最后点击 Create Sitemap 按钮即可

四、设置selector

如上图，点击“Add new selector”，进入下图；

如上图，我们按照标号来挨个看。

1. 输入 “Id”。（自定义，不能为空，至少三个字符（数字，字母均可））

2. 选择 “Type”，此处选择Element scroll down

3. 点击 “Select” 进行元素抓取

4. 上一步，点击“Select”后，会出现标号4出悬浮的工具框

5. 点击第一个帖子

6. 点击第二个帖子，完成后，点击悬浮工具框蓝色的“Done slecting!"

7. 勾选 “Multiple”

8. 输入 Delay（延迟时间，意思是等待多长时间后，再进行抓取，建议填 2000）

9. 点击”Save Selector“

这步完成后，你会发现，sitemap下出现了一个叫content的选择器，如下图

点击上图的“content”，进入下图：

如上如，标号1，你会发现，这里多了一个content。

我们点击这里，标号2的地方，“Add new selector"，进入下图：

如上图：我们按照标号依次看：

1. 输入 “Id”。（自定义，不能为空，至少三个字符（数字，字母均可））

2. 选择 “Type”，此处选择Text

3. 点击 “Select” 进行元素抓取

4. 上一步，点击“Select”后，会出现标号4出悬浮的工具框

5. 注意，当我们点击上一步4的select后，第一个帖子会**变黄**，我们点击这个黄色区域，它会变为红色。

6. 点击”Save Selector“，其他的都不用设置。

以上，我们抓取李笑来微博的所有设置都已完成。

#五、开始抓取

这步，我们开始正式抓取：

如上图，点击中间这列，点击下拉框中出现的“Scrape”，进入下图：

这几个都默认就行，直接点击标号4的“Start scraping”。

点击后，浏览器会弹出一个新窗口，进行抓取工作，不要关闭，等待他抓取完毕。

你会发现，弹出的窗口，会自动下拉鼠标，模拟人的手，自动化的将这页全部的帖子全部抓取下来。

完毕后，会出现抓取的数据，如下图：

#六、导出到本地电脑

如上图，点击中间这列，点击下拉框中的“Export data as CSV”，会进入下图。

如上图，点击“Download now”，即可将数据下载到本地，以表格的形式存储。

文件可以用excel打开，mac下用numbers打开即可。

至此，李笑来的微博我们已经全部抓取完毕了。

怎么样，是不是很厉害。

其实这个软件的功能远不止此，大家操作起来吧。

李成笔记网

专注域名、站长SEO知识分享与实战技巧

不用写代码，30 秒抓取李笑来所有微博

一、下载安装

二、打开软件

三、创建sitemap

四、设置selector