知乎蓝海：2000W流量机会掘金指南

根据我本地数据的不完全统计(知乎百度top3关键词)

百度PC端关键词总流量为：1亿2743万

知乎实际获取总流量为：1亿2743万 x 0.15(平均点击率) = 1911万

这只是单看PC端，一个超过2000W的流量机会摆在我们面前

一切依靠互联网赚钱的前提，就是必须先获取流量，而现在流量比黄金还宝贵

真实情况是，我身边已经有5+位的朋友，在近半年内，依靠此次机会获得了6W~25W不等的收益

而我们只需要一双勤劳的双手和一个思维清晰的大脑

那么

为什么会有这个流量机会?

流量机会具体指的是什么?

我们如何从中获取流量?

下面，让我来为你打开这扇流量的大门

阅读指导：不同于市面上的各种“爽文”，本文按照我的实际思路，使用了正叙的方式讲述如何“从0到1”，需要朋友一边阅读一边思考，建议拿出一整块的时间(10-20分钟)进行阅读

1. 资本的游戏

在“江湖”上流传着这么一段话，大致内容是：

站长收割机，流量截胡达人百度daddy在2019年8月跟投知乎，快手领头，随后，百度对知乎提权，流量表现节节攀升

当时我看到这段话的时候，对接受的信息量打了一个问号，为什么?

熟悉传播学的朋友应该知道一条基本原则：

对于任何事情，我们要尽量关注事实判断，而非价值判断

因为事实判断是确凿的，能够达成共识 ;而价值判断是依赖于视角和立场的，可以有多种解读

这里的投资事件为事实描述，后面产生的影响为价值描述

然而就这么一个简单的事实性描述网上却有N个版本，有说错时间点的，还有说错投资方的

进行验证后，你还会发现百度也投资过快手，可能是另外一个机会?

有时候思路就是根据事实发散出来

那么关于价值判断，是不是真的有流量增长?是不是真提权?

直接上数据验证(这里从投资时间点2019.8分段取爱站半年的数据，稍有误差并无大碍)：

词量数据

通过词量数据我们可以观察到以下2点：

从2019年11月中旬开始，流量跳跃式增长，词量从30W涨到270W，近10倍!

从2020年7月开始，流量增长放缓，但仍保持增长趋势

那么，这些流量是以何种方式增长的?

收录数据

通过收录数据我们可以观察到以下两点：

虽然数据口径不同，但在流量跳跃式增长期间，收录量并无增长趋势，也就是说，原收录页面在对应搜索词下的排名提升了，提权实锤

当已收录的页面不能覆盖更多搜索词的时候，百度给知乎的定向流量将到达临界值，嗝~

上面的分析很容易造成一种“废话感”，因为分析结果跟首次接收的信息基本相同，我们的大脑不能处理相同的信息

这恰恰是两个思维方式“归纳法”和“演绎法”的不同之处

如果不做验证，归纳思维隐含假设了百度提权是真实的，导致后面的动作全部基于一个假设

而演绎思维的每一步完全基于条件为“真”的前提，想想看，如果分析结果相反会导致什么结果

在这个信息爆炸的时代，我们实在太需要筛选信息的能力，其中保持独立思考显得尤为重要，但独立思考并不是针对everything都要提出不同观点

有效思考是必须建立在足够的知识积累之上，不然就是盲目思考

如果身处陌生领域，学习同行仍然是不错的选择

那么虽然流量增长放缓，但如此巨大的流量知乎并没有全量“吞下”，现在仍然有且肯定有机会来利用这个红利期获取流量并且赚钱

Let’s keep going !

2. SEO?

收录?排名?提权?如果你产生了疑问，那你可能还不太了解SEO这个领域，下面简要描述

SEO即通过了解搜索引擎(以下简称SE)的规则来调整网站，使其在目标搜索引擎上的排名提高，达到获取流量的目的

收录：SE的爬虫系统抓取网页后，缓存在服务器上的行为

权重：SE对站点的综合评分，排名的主要依据

排名：页面缓存在搜索结果中的排列位置

以上3点均为动态变化

那么，一个搜索流量是如何产生的呢?

首先用户输入搜索词(query)，向SE发起搜索请求，SE将已缓存的页面通过算法进行排名计算，然后返回给前端(浏览器)，用户观察搜索结果，根据自己的喜好从搜索结果中点击页面

一个页面要想有流量，就得先有收录(被SE缓存)，然后还得排名靠前(top10)，然后还得有人搜(搜索量)，最后还得看了让人想点击(标题+描述)

在点击的环节，知乎具有重要的先天优势，经过多年“知识型”平台的定位与发展，用户对知乎品牌建立起天然的信任感，可能导致即便排名不在前3名，但仍然能获得超过同位大盘的点击率

此次双剑合璧，百度给知乎做定向流量，而知乎又将流量效率提升了一截，美哉美哉

3. 蓝海问题 + 蓝海流量

那么我们的机会在哪呢?

宏宏最近缺钱，于是去百度上搜了“怎么来钱快”(真实数据，仅做示例)，发现知乎某个页面排名第1

然后小手一抖点击进入，望着空荡荡的页面，面部表情发生了细微的变化

坑爹呢这是!

5年的网赚经历给了我敏锐的嗅觉，这是机会

于是我拿到了百万级关键词+知乎数据，筛选分析后发现，有相当一部分问题页面有搜索流量但是存在以下情况：

回答未解决搜索需求

回答质量低

回答少

回答前N名赞少

那么我们能不能找到这类问题，自己编写答案，然后使得排名靠前，向我们自己的载体(微信 / 公众号等)导流?

答案是肯定的!

综上所述，有搜索流量并且竞争低的问题，我们统称为“蓝海问题”，这些问题流量的集合，我们统称为“蓝海流量”

下面来个小炸弹，朋友们体验先~(SE排名是动态的，大家实际搜索可能略有出入，另外考虑到公开性，大概选了一个例子)

BOOM!没错就是gay，同一个问题PC和移动端排名都是第2，移动月均搜索量44.7W，PC月均搜索量9.5W，加起来50W，排名第2的点击率为20%左右，也就是说这个问题一个月有10W的SEO流量，里面的回答呢?

第1名只有58个赞，有机会上去吗?有!有方法变现吗?

4. 突破认知局限

有些朋友们可能到这里就坐不住了，脑子里开始构思所在行业应该如何操作

可是，万一你所在的行业没有蓝海流量呢?为什么一定要在你熟悉的领域做呢?

流量高手的思维，从来都是大盘思维，即以全局的视野来思考问题

而此次，我们要分析知乎整体搜索流量的分布，哪里有蓝海流量，我们就去到哪，而不只局限于某个问题，某个行业

甚至知乎好物完全可以基于蓝海流量的思维

始终记住我们的目的只有一个，那就是赚钱

同时，这也是我写【TACE】(Traffic ACE，流量高手)这个公众号的主要思想，只不过后来去折腾项目，很少发文，咳咳….

前面讲了不少内容，那是因为我想把“道”这个层面讲清楚，即为什么这么干;而“法”是死的，规则发生变化，方法立即失效

举个例子：特斯拉诞生之初，电池成本比当时市面上低了10倍，CEO马斯克为什么能做到?

那是因为他的道是“物理学思维”，把事物拆解成最小单元寻求解决方案(TED有演讲)

但是，80%的人都喜欢直接得到方法，why?

爸爸说他听爷爷的姥爷说过，在几十万年前，人类还在狩猎阶段的时候，为了存活下去，才诞生了大脑

而大脑的进化需要上百万年，人类诞生历史不过才二十万年左右，也就是说现在我们还是用着“旧脑子”

其中“旧脑子”一个显著的特点是最小作用力原理，人类天生会默认做出消耗脑力低的行为，即能不用脑就不用脑，而道理的学习用脑程度较高

包括我，每当自己懒得动脑的时候，我就嘲讽自己是个原始人，咳咳…

那么下面，就让我们一步步的进入“战场”

5. 打造百万级词库

词库是用户搜索词和词属性的集合

我们尽可能的收集N个渠道的关键词，因为每个渠道或第三方平台都有他的局限性

在流量高手眼里，词库里躺的不是一个个的关键词，而是一张张的RMB

以搜索流量的视角来看，在大多数情况下，加词等于加流量

你能找到别人找不到的词，你就能拿到别人拿不到的流量，从而赚到别人赚不到的钱

关于数据的储存格式，个人建议直接使用csv形式，以逗号为分隔符的本地文件储存，相比于mysql类的数据库，用Bash shell来查询和分析不要太方便

拿词渠道：

5118，爱站，站长之家。

下面我用5118举例

5.1 母词获取

1)5118

分别下载百度PC关键词和移动关键词，分开处理

没有会员的朋友自行淘宝，有企业版的朋友建议全量导出

接下来的步骤，我们会开始涉及一些编程知识：

Bash shell(Linux) + Python

因为此次数据计算的需求常规工具已经不能满足，所以我们要动用“神秘”的编程力量

我自己已经全部开发完毕，部分简单的Bash shell命令行直接在文章内给出

但是我相信就这一点会让80%的人知难而退，可是包括我，谁又不是从小白一步步走过来的呢?

编程真的没有那么难，trust me!如果可以，告诉自己做那20%

另外请记住，我们不是要成为一个专业的程序员，编程能力能满足我们当前所需就好

2)初始处理

转码(GBK > UTF-8)，因为5118给出的数据编码是GBK，而Linux里需要UTF-8

只输出关键词，不使用其他数据，因为第三方数据的准确度实在差强人意，像5118这种量级每天的更新量少说也要1亿，成本摆在这。

获取前100名第一因为数据准度低，后面我们要自己验证数据第二前面提到过动态排名 & 百度提权，在你获取数据和验证数据中间存在时间差，在时间差里排名可能已经发生了变化。

bash shell：

cat 输入文件名| iconv -c -f GB18030 -t utf-8| grep -Ev “整域百度PC关键词排名列表|百度指数|100以外”|awk -F, ‘{print $1}’ > 输出文件名

3)关键词清理

特殊符号

[s+.!?/_,$%^*()+”‘]+|[+——!，:：。√?、~@#￥%……&*()“”《》～]

非常容易忽视的一步，很多人天然信任不同渠道产出的关键词数据(包括百度)，但是“流量高手，”与“流量高手”的搜索量数据差了十万八千里

网址

www|com|cn|cc|top|net|org|net|cn|rog|cn|tv|info|wang|biz|club|top|vip

年份替换，例如2010年替换为2020年

中文长度 >=2 (可选)

4)去敏感词

非法词汇你懂得，这里我们使用了DFA算法，平均处理一个关键词不到0.1s

5) 去重

去重是非常重要的一步，但对内存要求比较高，也就是说你要去重的文件大小不能超过可使用内存大小

目前的解决方法是用sort + uniq，先用split将目标文件分割，然后用sort逐个排序，然后sort+uniq合并去重

虽然没有大幅减少内存使用大小，但提升了计算效率

bash shell 简版：

cat 输入文件名 | sort | uniq > 输入文件名

bash shell 大数据版：

#!/bin/bash#命令行参数：#$1 输入文件#$2 输出文件basepath=$(cd `dirname $0`; pwd)echo `date` “[wordsUniq.sh DEBUG INFO] 开始文件分割…”split -l300000 $1 ${basepath}/words_split/split_ #文件分割echo `date` “[wordsUniq.sh DEBUG INFO] 开始单个排序…”for f in `ls ${basepath}/words_split/`dosort ${basepath}/words_split/${f} > ${basepath}/words_split/${f}.sort #单个排序doneecho `date` “[wordsUniq.sh DEBUG INFO] 开始合并去重…”sort -sm ${basepath}/words_split/*.sort|uniq > $2echo `date` “[wordsUniq.sh DEBUG INFO] 删除缓存数据…”rm ${basepath}/words_split/*

使用方法：