ラウンドナップ・コンサルティング公式ブログ 代表中山陽平が記事執筆。コンサルのノウハウ進化のための情報収集の一部を発信中。2004年〜開始。

Googleの「クロール・バジェット」とは?大規模サイト・ECサイトが押さえるべき隠れた数字

2013年11月13日_Crawl-Budget

「クロール・バジェット(Crawl Budget)」という言葉は聞き慣れないものかもしれません。

しかし、この概念を頭のなかに入れてサイトを構築・運営しておくことは大事です。

特に大規模サイト・システムによって大量のページが生成されるサイトを運営する際には、プラスになります。

2013-11-13_12-06-02なぜなら、Googleのクローラーがサイトの中のコンテンツを、より効率よく回れるようにできるからです。そのため、クロールバジェットを理解して策を打つことは「クロール・オプティマイゼーション(クロール最適化)」とも呼ばれています。

クローラがうまく回ってくれないとどうなるのか?

では、クローラがうまく回ってくれないとどうなるのか、それは

  1. クローラが回ってくれなければ、そのサイトの情報はGoogleには届かない
  2. Googleに届かないということはインデックスに載らない、
  3. すなわち検索結果に表示されない
  4. ということは、誰かに見つけてもらう可能性が大きく減ってしまう

もしサイトの大部分が「未クロール」のままだったら、非常にもったいないですよね。

そこで今回は、AJ KORN氏のBlind Five Year Oldから、クロールバジェットについての記事をご紹介します。

今年の7月29日の記事ということで最新記事ではありません。
しかし、現時点で押さえるべき情報が端的にまとまっている、素晴らしい記事です。

▶Crawl Optimization: You Are What Googlebot Eats : http://www.blindfiveyearold.com/crawl-optimization

クロールバジェットとは?

※以下、特に断りのない場合、箇条書き部分は元記事からの引用です。

  1. クロールバジェットとは、Googleがサイトごとに割り当てている、クローラが回る「時間」と「ページ数」のこと
  2. 具体的にその数字が明かされているわけではない
  3. クロールバジェットは、そのサイトの価値で決まる。アルゴリズム的にはPageRank(※訳注:ツールバーのではない)でおおまかに決まる
  4. そのため、必然的にトップページなどの方からクロールされ、下層ページはクローラが回りづらい
  5. PageRankの低いページは、それほど頻繁にクローラーがやってこない。
  6. 逆に「重要だ」と考えているページはできるだけ「フレッシュ」な情報を検索結果に出せるように、頻繁にクローリングしている。

下層ページヘの外部リンクは、クロールバジェットの観点でも重要です。それがオーソリティのあるページ、PageRankの高いページならなおさらです。従って、クローラがなかなか回ってこないページがあれば「トップページなどからリンクする」「外部の価値の高いリンクから直接下層ページにリンクを貼る」などが有効だと言えます。

また、特に「出来立てのサイト」はクローラが回ってこない傾向があるので、Fetch As Google は必須ですね。

ページネーションをした所、トラフィック(アクセス数)が減ってしまった例

下記の図は、GoogleAnalyticsの訪問数のグラフです。「Pagenation」と書いてある所が、サイトの商品紹介のページにページングを仕込んだ時期です。大きくアクセスが減ってしまっているのが分かります。

具体的には、すべての商品を1ページに詰め込んで表示していたものを、数個ごとにページングしたものです。

NewImage

このデータは元記事のデータですが、これを著者は以下のように分析しています

  • ページングを行わないようにしたらアクセスが戻ったので、問題はページングにあることは明らか
  • ページングしたトップページは、悪く放っていなかったが、2ページ目以降があまりクロールされなくなってしまっていた
  • その結果、アクセス数が減ってしまった
  • ページングを無くしたら、もとに戻った

どうしてアクセス数が減ったのかは定かではありませんが、ロングテールでの流入や、2ページ目以降に押しやられた商品名・型番での検索でヒットしなくなってしまったのかもしれません。

これは難しい問題です。ユーザビリティの観点でページングを行ったり、あるはモバイル対応のためにエンドレスページネーションを選ぶこともあるかと思います。そことどうしても相反してしまうかもしれません。

打開策としては「一覧ページ」と「ページングしたページ」両方を作成して、canonical設定をするなどでしょうか。

内部リンクを使って、大事なページはきちんとクロールさせる

このように、クローラは「CrawlBudget」に基づいて、サイト内を巡回します。ライフがゼロになってしまったら、もうそれ以上クロールはしません。なので、大事なページは、早めにクローラに来てもらって、きちんとクロールしてもらうようにすべきです。

そのために「内部リンク」が役立ちます。

現状のサイト内の内部リンク構造を見て「重要度」がどうなっているか知る

2013 11 13 02 47 04

ウェブマスターツールを見ると、「検索トラフィック」の中に「内部リンク」という項目があります。

これを開くと、サイトの中で、どのページが内部リンクを多数もらっているかが分かります。

厳密に言うと切りがありませんので、ざっくり

「たくさん内部リンクをもらっているページは「クロールされやすくなっている」

と考えるのがいいです。

この一覧の中に、大事なページが入っていなければ要注意です。クローラがうまく回ってこないかもしれません。

その場合は

  • トップページからリンクを貼る
  • 所属カテゴリのトップページからリンクを貼る
  • ウェブマスターツールの内部リンクリストの中で上位に入っているページから、リンクを貼る(ただし、関連性のあるページ同士のみ)

と言った方法で、クローラを呼び込むことをおすすめします。

また、「できるだけ少ないクリックで全ページに到達できるような仕組み」を作ることも重要です。それだけクローラの負担が減ります。クロールバジェットはページ数と時間が大事です。

シンプルなHTMLサイトマップもいいのでは、と元記事には書いてあります。

その他の対策

その他には以下の様な対策が紹介されています。

  1. Googlebotの動きをウェブマスターツールでチェックし、問題がないか監視する。
  2. URLパラメータを整理する。無駄に量産しない。同じページなのに別URLとしてGoogleはクロールするので、クロールバジェットを浪費してしまう
  3. Robots.txtを適切に使い、そもそもクロールする必要がないページはクロールさせない
  4. HTMLサイトマップを使って、すべてのコンテンツにクローラがアクセスしやすくする
  5. 内部リンクを最適化する(先ほどの話)

NewImage

クロールバジェットと言う概念自体は、中小規模のサイト運営者にとっては、あまり考えても仕方ないことかもしれません。

ページ数が500を超えたら少し考え始めた方がいいですね(といいつつ、うちのブログとサービスサイト、合わせると1000ページ以上あるのですが、何もしていない…)

ECサイトや、システムで生成される物が多いサイトは、気付かずに大量のページができている可能性があります。その場合はまずは

  • サイトの頁数を把握する(ウェブマスターツール、ScreamingFrog、AhrefsのSEOReportなど)
  • 1000以上あれば、いくつかの代表的なページをピックアップして、更新日時をチェック。問題がないか探す
  • 問題があれば、内部リンクを改善するか、オーソリティのある外部リンクで下層ページに直リンクするなどして、クローラが回りやすいようにする
  • 同時に先ほどのような対策を行う

といったことを行ってみてはいかがでしょうか。また

  • 動的に生成されるURLクロールバジェットを食う
  • canonicalリダイレクトの処理自体もクロールバジェットを食っている

ということもあるとのことです。できるだけどちらも使わずスッキリしたサイトにしておきたいですね。

XMLサイトマップを送信していても、それすなわち全ページを頻繁にクローリングしてくれるということではありません。毎日Fetch As Googleを行うのもナンセンスです。

クローラが回りやすい仕組みを入れて、検索エンジンからのファインダビリティを上げてみてはどうでしょうか。

この記事がお役に立てていれば幸いです。

 

 

photo by OakleyOriginals

Webコンサルタント中山陽平公式サイトお悩みの方へ。一回のご相談で解決することもあります
ラウンドナップ・コンサルティングへのお問合せ方法 お電話でのご相談もお気軽に。[048-234-3361](10〜16 土日祝日除)全国対応 24時間受付 お問合せメールフォーム

No Responses