Google の検索ロボットは何を見てインデックスしているのか?

Posted by
ぴろり
Posted at
2008/09/27 15:41
Trackbacks
関連記事 (0)
Comments
コメント (2)
Post Comment
コメントできます
Category
電算室 カテゴリ

 ブログを書いて出力されたページを確認したところ、ページ内に設置した Google AdSense に記事内容と関係する広告が早速表示されていました。そこでもしやと思い、すぐさま Google 検索で先ほど書いたばかりのページを検索したところ、すでにその記事がインデックスされていたのです。AdSense に適切な広告が表示されていることから、記事内容がクロールされた結果だとは思うのですが、AdSense によってクロールされた内容は検索にも反映されるのでしょうか? この疑問をサーバのアクセスログの内容と併せて調べてみました。

この記事を Delicious に追加する   このエントリーをはてなブックマークに追加  

 以下がブログ記事を作成してから、Google のクローラが訪問してくるあたりの Apache サーバのアクセスログになります(一部抜粋)。

# 記事を公開し、Google Sitemaps にサイトマップの更新を通知
*.ocn.ne.jp [25/Sep/2008:16:42:29 +0900] "POST /cgi-bin/mt/mt.cgi HTTP/1.1" 200 "Mozilla/5.0..."
*.ocn.ne.jp [25/Sep/2008:16:42:56 +0900] "GET /cgi-bin/mt/mt.cgi?__mode=rebuild... HTTP/1.1" 200 "Mozilla/5.0..."
*.ocn.ne.jp [25/Sep/2008:16:42:57 +0900] "GET /cgi-bin/mt/mt.cgi?__mode=view... HTTP/1.1" 200 "Mozilla/5.0..."

# 早速、クローラがサイトマップを取りに来た
66.249.73.246 [25/Sep/2008:16:42:57 +0900] "GET /sitemap.xml HTTP/1.1" 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

# 出力されたページ内容をブラウザで確認しているところ
*.ocn.ne.jp [25/Sep/2008:16:43:43 +0900] "GET /archive/2008/09251642/ HTTP/1.1" 200 "Mozilla/5.0..."

# Google AdSense のクローラが早速訪問してきた
crawl-66-249-73-246.googlebot.com [25/Sep/2008:16:43:48 +0900] "GET /archive/2008/09251642/ HTTP/1.1" 200 "Mediapartners-Google"

# なぜか再びサイトマップを取りに来たクローラ
66.249.73.246 [25/Sep/2008:16:43:57 +0900] "GET /sitemap.xml HTTP/1.1" 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

# RSS を取得しているクローラ
66.249.73.246 [25/Sep/2008:16:45:13 +0900] "GET /index.rdf HTTP/1.1" 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

# ここでページをリロードして広告内容が変化していることに気が付く
*.ocn.ne.jp [25/Sep/2008:16:51:01 +0900] "GET /archive/2008/09251642/ HTTP/1.1" 200 "Mozilla/5.0..."

# もしやと思ってすぐさま Google の検索ページで記事を検索。4 分前にインデックスされているとの表示。

# それから間もなくGoogle のクローラが訪問してきた
crawl-66-249-73-246.googlebot.com [25/Sep/2008:16:52:09 +0900] "GET /archive/2008/09251642/ HTTP/1.1" 301 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
crawl-66-249-73-246.googlebot.com [25/Sep/2008:16:52:10 +0900] "GET /archive/2008/09251642/... HTTP/1.1" 200 "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

まとめ

 今回、アクセスログからクローラの訪問履歴を併せて見てみると、検索結果に書いたばかりの記事がヒットするまでに、Google のクローラによって該当ページと RSS が取得されていることがわかります。AdSense のクローラである "Mediapartners-Google" について調べると、2004 年頃に書かれた古い記事では AdSense のクローラは検索インデックスには関係ないことが書かれていましたが、現在の仕様ではどうなっているのか、今回の検証ではそれを否定することは完全にはできませんでした。
 検索結果ページに表示されていた "4分前" という表示から、むしろ、RSS の内容がインデックスされたと考えるのが可能性として濃厚な線と見てよいでしょう。もし RSS の内容がインデックスに関係しているとすれば、RSS は概要文のみの配信よりも全文配信の方が、SEO の観点からすると有効かもしれません。

この記事を Delicious に追加する   このエントリーをはてなブックマークに追加  


この記事のアーカイブ

全ての記事 »
2008年
全てのカテゴリ »
電算室
全てのタグ »
, , , ,

関連記事/トラックバック

関連記事/トラックバックはまだありません

この記事にトラックバックを送るには?

寄せられたコメント (全 2 件中、最新 5 件まで表示しています)

Posted by
ぴろり ◆OLEEi.VOX.ぴろり ◆OLEEi.VOX.
at
2008/09/29 14:10
ID
rrqHfV8Q
ここ最近どこかで読んだ記事ではRSSの利用は4割くらいらしいですね。
人間が使うメリットよりもむしろ機械的に処理がし易いので>RSS
そっち方面の利用はだいぶ進んでいるような気がします。
Posted by
てらぽん♪てらぽん♪
at
2008/09/28 21:43
ID
P/egRbsc
ここ半年ほどで、無料ブログの一部でRSSに挿入される広告が急に増えたような気がします。
裏返せばそれだけRSSの利用が一般化してきたと言うことでしょうか。

コメントを投稿する

 
 (必須, 匿名可, 公開, トリップが使えます)
 (必須, 匿名可, 非公開, Gravatar に対応しています)
 (必須)
スパム コメント防止のため「投稿確認」欄に ランダムな数字 CAPTCHAについて を入力してから送信してください。お手数ですがご協力のほど宜しくお願いいたします。