最近サーチコンソールの未登録件数が異常に増えすぎて50万件以上の内部検索スパムがnoindexで除外されていた事に気付きました。
実際にはGoogle検索にインデックス登録されていないので問題は無いのですが、かなり目障りなのでRobots.txtでクロールをブロックしてしまいます!
記事内の目次
目障りなSEO To66.Asia 内部検索スパムをRobots.txtでブロック!意地でもクロールさせたくない!
増え続ける内部検索スパム SEO To66.Asia
久しぶりにgoogleサーチコンソールを眺めていると、ページのインデックス登録で未登録件数が異常に増え続けている事に気付きました。
ほとんどの場合はnoindexタグでインデックス登録自体を除外できているものの、一部はクロール済み – インデックス未登録となっております。
これは内部検索スパムと言って、内部検索フォームに様々な文字列を入力してクローラーに巡回させるスパムらしいのです。
ほとんどの場合はcontent=”noindex”でGoogle検索にインデックスをさせないように制御をできるものの、metaタグにnoindexを入れていないウェブサイトは、Google検索に内容の無いページが検索登録されてしまっている状況です。
URLに決まったパターンがあれば特定のURLにcanonicalを入れたり404ページにしたり出来るのですが、ドメイン直後の文字列に決まったパターンがなく、ランダムな文字列を入れてその後にギャンブル系の文字列を入力しているのです。
黒幕は中華系のSEO業者らしいのですが、登録されたページにはギャンブル系の文字列に関する内容のページが存在しておらず、内部検索スパムをする意図も全く分からないものとなっておりますので、ほぼ嫌がらせに近いのではないかとも言われているようです。
ほとんどの場合は文字列の中に[To66.Asia]が入っているのが特徴ですが、ドメインの後にランダムな文字列が入ってから[To66.Asia]が入っているので、悩みに悩んでどうやってクローラーの巡回を止めるか考えてみました。
WordPressは仮想Robots.txtを編集する仕組みが必要
WordPressテーマにTCDのGENSENを使用しているのですが、noindexとnofollowでクローラーを制御する仕組みが無く、プラグイン頼りでWP Custom Noindex Nofollowをインストールしておりますので、検索フォームの制御はnoindex化しかできません。
つまり、このままでは50万件近い内部検索スパムのURLにクローラーが巡回してしまうのです。
これを止めてしまおうという事で、Robots.txtで特定文字列が入ったURLにクローラーが巡回しないようにすれば良いのではないかと考えました。
Robots.txtは通常ディレクトリ直下に配置されますが、WordPressは仮想Robots.txtが生成される仕組みになっているため、このファイル自体がサーバー内に存在しておりません。
つまり、仮想Robots.txtの内容を読み込んで編集できるようにしないといけないのです。
WP Robots Txtをインストールしてクローラーの巡回を停止させる
ワードプレス用プラグインのWP Robots Txt By George Pattihisをインストールして、有効化します。
有効化をしたら、設定の表示設定の欄にRobots.txt Contentという項目が追加されますので、これでWordPressの仮想Robots.txtを編集できるようになります。
Disallow: *キーワード*をRobots.txtに書き込むと、このキーワードが入ったURLへのクローラーの巡回を停止させられる事が出来るはずです。
Disallow: *to66.asia*でもクローラーの巡回をブロック出来ると思いますが、念のためDisallow: *To66.Asia*も入力して、大文字と小文字の両方を仮想Robots.txtに書き込みました。
ちなみにXMLサイトマップのURLが記載されていないのは、XMLサイトマップ作成プラグインのGoogle XML Sitemaps Generator Proが自動で出力しているためで、実際に出力しているRobots.txtにはXMLサイトマップのURLが入っております。
実際に読み込ませたいXMLサイトマップのURL以外をサーチコンソールに認識せないためにもWP Robots Txtは有効なのです。
これで様子を見続けておりましたが、「クロール済み – インデックス未登録」と「noindexタグによって除外されました」の項目にはTo66.Asiaが入った新たなURLは表示されなくなりました。
しかし、インデックス未登録の項目に「robots.txt によりブロックされました」の項目が追加されてしまったので、未登録が増え続ける事自体の根本的な解決には至っておりません。
サーチコンソールに表示される項目が変わらない限り増え続けるのだと思いますが、クローラーの巡回自体は停止させられていると思うので、しばらくこのまま様子を見ていこうと思います。
この内部検索スパムは何をしたいんでしょうね。意図があってやっているのか、ただ単に頭が悪いだけなのか・・。この文字列を好みそうな人同士で勝手にやってくれれば良いけど、関係ないウェブサイトまで巻き込むのは非常に迷惑です。
この記事へのコメントはありません。