ラウンドナップ・コンサルティング公式ブログ 代表中山陽平が記事執筆。コンサルのノウハウ進化のための情報収集の一部を発信中。2004年〜開始。

SEOmozが発表したGoogleの上位表示調査、その裏側

SEOmoz発SEO対策の方法論

先日書いたSEOmozの2011年SEO振り返りの記事、想像以上の反響でした。

そこで、追加してSEOmozがどんな「手法」でこの結果を出したか、ご紹介します。検索エンジン調査の手法と考え方の基本。

※前回の記事はこちらです。
まだご覧になっていない方はまずこちらをどうぞ。

2011年のGoogle上位表示SEOmozが発表した「大事なポイント」

今回は、検索エンジンの動きについて自分で細かく分析したい、という方向けの内容です。
ただ、そうでない方も知っていて損は無いと思います。

前提:データについて

SEOmozの調査結果ですが

  • あくまで「米国Google」における調査結果(いずれは他の言語も対応したいそうですが)
  • データはパンダアップデート以降のデータを使った

ものです。パンダ前後は大きく違うのでここをきちんと押さえてもらっているのは、ありがたいです。

1.調査対象キーワードはどうやって選んだ?

  • さまざまなタイプのキーワードがまんべんなく入っていなければならない
  • そのために、Adwordsの15コある最上位カテゴリーと、その下にあるそれぞれの800キーワードを選んだ。これで合計12,000個のキーワードが集まった。

日本のAdwordsキーワードツールだともっとカテゴリーは多いですが、この部分かと思います。

日本Adwordsのトップレベルカテゴリー

米国だと「Apparel」「Beauty and personal care」「Computers」「Consumer electronics」「Finance」「Food」「Gifts and occasions」「Health」「Hobbies」「Home and Garden」「Media events」「Sports and fitness」「Travel and tourism」「Vehicles」です。

その中で重複する物を取り除き、最終的に今回調査対象となった10,980キーワードのリストを作ったとのことです。

それぞれのキーワードの検索数もばらけているか

また、それぞれのキーワードのローカル検索数も調べて、偏りが無いかチェックしています。

結果としては以下の表のようになりました。ばらけていますね。

ローカル月間検索数キーワードの数 
 1,000以下723 
 1,000~5,0003574 
 5,000~10,0002875 
 10,000~20,0001435 
 20,000以上1864 

2.検索結果について(SERPsについて)

  • 10,980キーワードそれぞれについて、GoogleUSAにおいてトップ30サイトをピックアップ
  • 地域やパーソナリゼーションは可能な範囲で排除
  • 画像・動画・ニュースなどの結果は除外
  • 15より少ない結果しか返さないキーワードは、先ほどのリストから除外
  • 結果として10,271のキーワードに対して、223,737のユニークなサイトをリストアップした

3.要因について

ここまでで手に入れたリストについて、後はSEOmozのLinkScapeを使っていくだけです。

3_1.サイトのURLメトリクス

APIで取れるURLメトリクスです。具体的には以下の様な物です。
※詳細は「「SEOmozまとめ」SEOmozAPIを使うとできること(1)|海外WEB戦略戦術ブログ

項目(原文)項目詳細
Titleタイトルページのタイトル
URLURLそのページのURL
External Links外部リンク数(nofollow除く)リンクジュースを流してくれる、意味のあるリンクの本数
Linksリンク数十把一絡げなリンクの本数(nofollowやリダイレクト、内部リンクなどもろもろ)
mozRankmozRankSEOmozが提供しているPageRankのようなもの。10点評価。GoogleのPageRankより少し多めの数字である。Googleの検索結果と相関が取れるように常にチューンしているらしい。
Subdomain mozRankサブドメインのmozRankそのURLのサブドメインのmozRank
HTTP Status CodeHTTPステータスコードそのサイトが返してきたステータスコード。200OKであったり、404NotFoundだったりと。
Page Authorityページの信頼度SEOmoz独自の指標で、そのページに対する信頼度。主に信頼度の高いドメインからリンクをもらうことで上がっていく。
Domain Authorityドメインの信頼度ドメイン全体での信頼度。

3_2.アンカーテキスト

これもAnchor Text APIを使って得られる項目と同じです。

アンカーテキストの中にキーワードが入っているか、その位置はどこか、nofollowかそうじゃないか、などなど…

3_3.ソーシャルメディアシグナル

Facebook、Google Buzz(Plusではない、たぶんAPIがなかったから、というかサーブスが無かった)、Twitterでの言及をTopsyのAPI経由などで調べたそうです。

3_4.ページ内要因

これは単純にそのサイトの中身から調べているようです。URLの中にキーワードが入っているか、コンテンツはどのくらいの長さがあるか、といったものなので。

3_5.ドメイン要因

これもシンプルに調べたようです。

4.解析方法

基本的にはスピアマンの順位相関係数(Wikipedia)を使って相関を出していくようです。データ的に正規分布(ガウス分布)しているとも思えないので、そうなりますね。

スピアマン相関を使ってそれぞれのキーワードごとに一つ一つ調査をしていき、最終的に全てのキーワードのデータを平均してデータを作ったという流れだそうです。検定はt検定を使ったとのこと。また、Normalized Discounted Cumulative Gain(NDCG)などの結果とも付き合わせたとのことです。

※すいません統計はかじっただけなので、妙なところがあったら教えてください。

 

このようにして出た結果が前回のGoogleの上位表示調査結果だそうです。

ここまで公開してくれると、他の人が検証できるのでとてもいいですね。こういう姿勢はぜひ見習いたいです。

また、検索エンジンに関わる大規模データの処理手法としても、参考になる情報なんじゃ内かな、と思いました。

 

また、実際の生データが元記事の右上「Full Results Download」からEXCEL形式でダウンロードできます。

http://www.seomoz.org/article/search-ranking-factors#methodology

ご興味のある方はぜひ(^_^)

Webコンサルタント中山陽平公式サイトお悩みの方へ。一回のご相談で解決することもあります
ラウンドナップ・コンサルティングへのお問合せ方法 お電話でのご相談もお気軽に。[048-234-3361](10〜16 土日祝日除)全国対応 24時間受付 お問合せメールフォーム

コメントはこちらから

Loading Facebook Comments ...

No Trackbacks.