重複メタデータとタイトルタグの解消方法 robots.txtの使い方解説

サイトを運営しているとGoogleウェブマスターツールに
「重複するメタデータ」「短いメタデータ」などの表示がでてきます。
（HTMLの改善を見るとでてきます）

上記のような重複するメタデータや、タイトルタグなどです。

これらをこのまま放置していてあまりに数が多くなると
Googleより低品質サイトの判断をされる可能性があり検索エンジン上よくありません。

重複するコンテンツは、Googleのサイト評価が下がります。

必要ないURLはインデックスさせない設定ができるので、こちらで解説していきます。

Googleウェブマスターツールを確認する

Googleウェブマスターツールに、運営するサイトを登録しておくと、
サイトのHTML重複コンテンツなどが反映されてきます。

下記の画面で確認していきます。

画面の「検索のデザイン」→「HTMLの改善」で重複などが表示されます。

こちらで表示される以下のような表記を確認します。

（例）
/author/kyoheistyleky/page/4
/author/kyoheistyleky/page/5
/author/kyoheistyleky/page/7
/author/kyoheistyleky/page/8
/author/kyoheistyleky/page/9
/category/otokojuku/page/2
/category/otokojuku
/category/like-or-love

上記でわかる重複するコンテンツで、

例えば、/author/のコンテンツが重複なのでインデックスさせなくても良い場合
例えば、/category/のコンテンツが重複なのでインデックスさせなくても良い場合

（これらをインデックスさせなくても、単独のURLがインデックスされているので良いとする）

robots.txtを利用してnoindex（インデックスさせない指定）設定にすることができます。

サイトURLがインデックスされているかどうかを確認するには

サイトURLがインデックスされているかどうかは
【site:example.com】と検索する事で表示されます。

参照：検索エンジンにURL登録インデックスされていることを確認する方法

各種SEOツールで確認もできます。
Googleウェブマスターツールのエラー内容の確認にも使えます。

robots.txtの使い方

robots.txtとは、
サイト内のインデックスしたくないURLをテキストに記述して
運営サイトのサーバー指定箇所にアップしておくことにより
そのURLがインデックスされなくなります。(noindex設定）

手順は以下になります。

noindexしたいURLをピックアップする。
robots.txtファイルを作成する。
運営サイトのサーバー指定箇所にアップロードする。

それぞれ解説していきます。

noindexしたいURLをピックアップする。

Googleウェブマスターツールで、
重複コンテンツなどを確認し、noindexにしたいURLを確認します。

robots.txtファイルを作成する。

robots.txtの中身は以下の様に記載します。

User-agent: *
Disallow: /author/

「Disallow:」の後ろに記載しているディレクトリ名が
noindexにしたいディレクトリとなります。

複数のエントリーを記述する事もできます。

記述例

サイト全体のブロック
Disallow: /
testディレクトリの、index.htmlをブロック
Disallow: /test/index.html
サイト全体のpdfファイルだけをブロック
Disallow: /*.pdf$

[実用的な記述例]

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/cache/
Disallow: /wp-content/languages/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/upgrade/
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: */?tag$

Sitemap: あなたのドメイン/sitemap.xml
Sitemap: あなたのドメイン/sitemap.xml.gz

「Disallow:」の後ろにウェブマスターツールで確認した
noindexにしたいURLディレクトリを追加していきます。

記述が終了したら、当然ながら
テキストファイルで「robots.txt」というファイル名で保存します。