基于数据分析
寻找和验证商业机会

日PV50W的美国黄页yellowpages.com网站数据采集

网民搜索量趋势查询

数据哥哥提供各类品牌/产品的数据分析信息,数据主要来源各搜索引擎平台。
文章提供的品牌相关检索量数据均来自百度,请读者谨慎参考。

如果您有感兴趣的品牌/产品需要数据分析,可以在文章下方关注数据哥哥公众号并留言。

一,前言

这次采集的目标选择了北美的一家比较大型的黄页网站,yellowpages.com。目标源的选型决定了获取数据的质量,所以动手前对目标源做一个基本的分析还是非常必要的。

二,采集源分析

首先我们看一下网站的基本数据表现。


从截图来看,21年的老域名,是不是比你年纪还大?从搜索引擎的权重表现来看,yellowpages.com主打的还是美国本地或者国际市场,在国内搜索引擎中表现的很差。(本来就是北美本地的黄页网站,感觉自己在说废话。)


从搜索的收录数量来看也是印证了前面的判(fei)断(hua)。yellowpages.com的谷歌收录页面数量达到了1.84亿。相比国内的百万级收录数量差距还是挺大的。


ALEXA的流量预估,日IP已经达到了30万级别,PV50万,IP,PV比1.6,算是非常低了。不过这类黄页网站往往大量通过搜索引擎作为流量入口,用户的检索行为发生在进站之前,访客对内容阅后即走应该也是IPPV比值较低的原因之一。当然也有ALEXA的预估偏离比较大的可能。

三,网站数据采集分析和规则制作

网站质量没毛病,看来数据准确性也是比较有保障的,下面我们开始数据采集工作。

采集工具使用了火车头,下载地址点这里

火车头的基本操作下次专门开一篇来讲,今天直接说一下案例的采集思路和实现方法。

从网站首页来看,额。。。最麻烦的搜索框入口,对数据采集来说是最讨厌的设计,难以遍历全站。

接着往下。一路看到最后。

popular cities,嗯,,好吧还好他做了类目,也就这个城市分类入口看起来有点靠谱。

点开休斯顿HOUSTON这个城市类目链接看看。链接点这里

看下来大多数的推荐类目,商家,文章等等内容都无法达到我们全量数据遍历的需求。

好在看到最下面有一个“Currently Trending Searches and Business in Houston, TX”板块,看起来是给商业做了分类,目测有一百个类目。

我们点开右下角的 see more trending.

看到头部的面包屑导航和下面密密麻麻的分类,到这里我们基本搞清楚了yellowpages.com的类目结构。

网站是以:“州>>市>>商业分类”的结构构成。

下面我们首先要解决的是遍历和采集全站的数据列表页,就是这个层级的页面。链接点击这里

列表页全量获取

州列表获取

共计获得51个州URL。

城市列表获取

2级列表获取了州下面的城市的按字母排序的列表。

3级列表获取了州下面城市按照字母分类后的城市列表URL,有点拗口。

做到这一步可以获得全站的城市数据咯。然后开始下一步。

获取商业分类列表

4级列表获取了see more trending链接的URL,其实这里有个小问题,例如阿拉斯加的Anchorage(链接),第一个页面显示是从21条数据开始,Local Trends for Anchorage, AK 21 – 220。猜测是在Anchorage的首页推荐了一部分TRENDS,但Anchorage首页显示”Currently Trending Searches and Business in Anchorage, AK”数量却远不止20条。可怜我的鸟语实在垃圾这里也没有彻底弄明白。后面我会把城市首页推荐的Currently Trending Searches and Business补充到采集数据库做比对和去重。

5级列表增加了分页采集设置

从测试数据看,到这一步已经可以获取全量的商业类目列表数据了。然后开始下一步。

获取全量商家URL

6级列表获取商家URL,从测试截图可以看到,分页和商家URL获取都生效了,截图这里有个错误采集到了URL包含/c/特征的文章页面,已经在上面的过滤规则加入了相应的排除规则来修正。

然后就是最后一步,内容页面的采集。

商家页面的内容采集

通过十来个页面测试,设置了以下采集字段。

名称,地址,电话,其他电话,营业时间,品牌,付款方式,社区,别名,网站,分类,其他信息,SLOGAN,EXTRA LINE,GENERAL INFO,LOGO,产品和服务,AMENITIES,语言,行业协会,banner,位置,PHONE BOOK,ADDITIONAL TEXT.

翻译可能不太准,我要用的是前面几个主要字段,后面的就做的有些敷衍,有需要的可以仔细看看HTML修改相应规则。

字段采集规则截图如下,字段的过滤规则看各自使用需求进行微调吧。

名称:

地址

电话

其他电话

营业时间

品牌

付款方式

社区

别名

网站

分类

其他信息

slogan

extra line

general info

logo

产品和服务

amenities

语言

行业协会

banner

位置

phone book

additional text

采集测试如下

由于采集源不是每个字段都有数值,所以测试结果有些是空的也是正常。

至此yellowpages.com采集规则就算完成了

赞(0) 打赏
未经允许不得转载:数据哥哥 » 日PV50W的美国黄页yellowpages.com网站数据采集
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏