webサイトの80%はスパム目的? メディアがハックされスパムbotに変身するまで

webサイトの80%はスパム目的? メディアがハックされスパムbotに変身するまで

捨てる神あれば拾うスパム業者あり。

インターネットにあふれるスパム・サイト。大量のスパムサイトの中には、いかにも実在していそうな団体のものもあります。こういったサイトが生まれる舞台裏を、実際に体験した米Gizmodo記者Ariel Stulberg氏がレポートしています。


「Morningsife Postのサイト、ハッキングされた?」

始まりは一人の友人からのメールだった。The Morningsife Post(モーニングサイド・ポスト。以下MP)とは私が以前編集者として関わっていたサイトで、少し前に更新が止まりサイトとしては死んでいたはずだった。ところが、確認してみるとまるでゾンビのように生き返っていたのだ

MPはコロンビア大学の学生によって運営されているニュース・サイトで、私が去った後も学生が引き継いで存在していたのだが、つい5カ月前に担当者が誤ってドメイン登録の更新を怠ってしまった。どうやらこの時に謎の人物がドメインをかっさらってしまい、サイトの中身もクローンのように複製して、似ているけれど異なるゾンビ・サイトを作ってしまったのだ。

タイトル部分に付けられていた「コロンビア大学」の文字は消されている。しかし旧い投稿はそのままコピーされて使われている。もちろん、MPのライターたちが書いた文章なのだから著作権侵害だ。文章のフォーマットはぐちゃぐちゃ。ただ文字が壁のように存在しているだけ。それぞれの記事の著者名は消えて「Writer」とだけ表示されている。コメント欄は閉じられている。

170920_spamsite1
以前のモーニングサイド・ポスト(左)と現在の姿(右)。

ゾンビに乗っ取られて以降、6月の段階では新しい投稿は一つしかされていない。トロントを拠点とするドローン写真を提供するSkySnapという会社の広告記事だ。記事内に埋め込まれたリンクを辿るとSkySnapのウェブサイトに飛ばされる。そこには記事とよく似た文言が並んでいる。

MPのサイトに何が起きたのか、探っているうちに被害者はどうも我々だけではないことがすぐに分かった。犯人は、他人のサイトの死んだドメインを買い、それをSEO(検索エンジン最適化)のために利用するというテクニックを使っているのだ。

インターネットには、拙い文章で書かれたマーケティングやダイエットのブログ、ただビジネス・キーワードが列挙されているだけのページ、クリックしてもひたすらリンクのリストが続くサイトが溢れている。これらはSEOのために、ひたすらグレーゾーン(場合によってはブラックゾーン)を攻める人々によって生み出されている。

業界のベテランでSEOデータを扱うthe.domain.nameの共同ファウンダーであるJason Duke氏によると、死んだドメインをSEOに利用するために買う、というテクニックは15年ほど前から存在しているそうだ。

170920_spamsite2
記事のレイアウト。左が以前のもの、右が現在。

誰がMPのドメインを買ったのか。私はSkySnapにコメントを求めた。何度もしつこく送られてくる私からの連絡に折れたのか、CEOのSlava Gravets氏は次のように語った。

スポンサード・リンクのように見えますね、(広告として)購入されたリンクのようだ。我が社はリンク収集をたくさん行います。外部のウェブサイトへの投稿をスポンサーすることはよくあります。複数のリンクをセットで購入した中にこれが含まれていた可能性は非常に高いです。

Googleのランキングを向上させるためにSkySnapはブロガーを雇うことがあるそうだが、そのうちの誰かがMPのドメインをFiverrといったサービスを通じて購入して利用したのかもしれない、とGravets氏は言った。

会社のサイトにトラフィックを送ってくる1つ1つのリンクが誰によるものなのかを知ることはできず、そのリンクがハイジャックされたものだとしても、それを回復させる術はSkySnapには無いとのことだった。

誰がMPのドメインを買ったのか? 分からないものの(MPは諦めて違うドメインに移動し、そこで活動を続けている)その動機はとても明確だ。あるサイトへと流れるバックリンクを作ることで、特定のサイトのGoogle上のランクを上昇させることだ。

ラリー・ペイジとセルゲイ・ブリンが作った検索エンジンGoogleの根幹にあるのは「バックリンクが集まるサイトには重要な情報がある」という考えだ。バックリンクの数が多いほど、サイトの質が良く、多くの人が必要としている情報がある可能性が高いというわけだ。

もともとのMPのサイトは、コロンビア大学やハーバード大学、アトランティックやビジネス・インサイダー、アル・ジャジーラ、ハフィントン・ポストといった国際的に信頼を得ている機関やメディアからのバックリンクを多く集めていた(Moz.com調べ)。これらのバックリンクを持っていることで、MPはGoogle上の「重要度」を勝ち取っていたのだ。その結果、たとえ他のサイトがまったく同じ情報を提供していたとしても、検索結果ではMPが上位に表示されていた。

170920_spamsite3
MPに追加されたドローン記事(左)とSkySnapのサイト(右)

この仕組自体は多くの専門家の同意を得られているようだ。

SEOと検索エンジン・マーケティング(SEM)にまつわるニュース・サイト「Search Engine Land」のニュース・エディタであるBarry Schwartz氏は「CNNがどこかのウェブサイトにリンクを貼ったとする、(CNNでなくとも)どこかのメディアがリンクを貼ったとする、そうするとGoogle的には、これらのメディアがリンク先のサイトを信頼している、という目安になるわけです。そのウェブサイトのランクは高くなるべきです」と語ってくれた。

知名度が高く、世間から信頼されているウェブサイトからのバックリンクを多く抱えることで、MPからのリンクもまた、価値を持っていたわけだ。SEOの視点からMPには価値があった。SEOの現状をDuke氏は端的に表わしてくれた。

(検索結果の)1ページ目に表示されなければ、存在しないのと同じです。これがGoogle上で金を生むということの現実です。1ページ目に表示されなければ、存在しないのと同じなんです。

その一方で、精通している人からするとSEOは非常に利益の高いビジネスでもある。ウェブ・マーケティングデータ企業であるBorrell Associates氏によると、2016年にはアメリカの企業はSEO関連のサービスに推定650億ドルを費やしている。650億ドルだ。

昔の電話帳では、最初に表示されるためにわざとアルファベット順の早い単語を会社の名前にすることがあった。イエローページを開くと「AAAA 修理工」といった名前があるのはそのためだ。何らかのニーズがあって電話帳を開く人は隅から隅まで会社の名前を調べたりしない。最初に目についたものに電話するのが普通だったからだ。

もちろん、電話帳とGoogleは同じではない。Googleの検索の仕組みについて知るために私はSEOコンサルタント企業Triumph.aiのファウンダー、Kyle Duck氏の話を聞いた。

彼はかつて、リンク貸出取引で仲介業をするだけで、月に1万ドルも稼いでいたという。しかし彼曰く、人工知能やディープラーニングの発展で、Google自体も仕組みをすべて把握はできていないのではないかとのことだ。

Googleは公にはどう説明しているのだろうか。Googleウェブマスター・ガイドラインでは、質の良いコンテンツを論理的に整頓された形で作ること、そしてシステムを逆手に取るようなテクニックは避けることを推奨している。リンクを売ったり、大規模にリンクを取引したり、自動でリンクを生成するような「リンク・スキーム」はしないように警告している。また見えない文字を潜ませたり、偽のフォントサイトを検索エンジンに提出したり、ユーザーにマルウェアやウイルスをインストールさせて情報を盗み、システムに悪用するようなこともしないように警告している。ここに一部を引用したい。

基本原理

・検索エンジンではなく、ユーザーの利便性を最優先に考慮してページを作成する。

・ユーザーをだますようなことをしない。

・検索エンジンでの掲載位置を上げるための不正行為をしない。ランクを競っているサイトや Google 社員に対して自分が行った対策を説明するときに、やましい点がないかどうかが判断の目安です。その他にも、ユーザーにとって役立つかどうか、検索エンジンがなくても同じことをするかどうか、などのポイントを確認してみてください。

・どうすれば自分のウェブサイトが独自性や、価値、魅力のあるサイトといえるようになるかを考えてみる。同分野の他のサイトとの差別化を図ります。

Googleはガイドラインに違反しているサイトを頻繁にリストから削除しています。どうやってそれを検知するかは公表していません。しかし、スパムサイトの兆候を探すアルゴリズムや、Google従業員による「マニュアル作業」によって(自動で検知されたものを人間がチェックしたり、ユーザーからのスパム報告を確認したり)サイトのランキングを下げることをしています。

170920_spamsite4
Googleによって罰された時にサイト運営者が受け取るメッセージ。

WordpressでトップのSEOプラグインとなっているYoastのCEO兼ファウンダーであるJoost de Valk氏にEメールで話を聞いてみたところ、「グレーゾーンは広く存在している」とのことだ。Yoastは世界中で460万ものサイトで利用されている。

捨てられたドメインや関連性のある名前のドメインを購入して、捨てられたサイトを復活させてリンクを付け足すといった手口。ドメイン自体のそれまでの流れや歴史を完全に無視して、古いドメイン上に巨大なサイトのネットワークを構築するといった手口。こういった(グレーゾーンの)手口をしないSEOもある一方で、「手早く簡単に、騙す」方法を好む人達も大勢います。それが現実です。

the.domain.nameのDuke氏によると、グレーゾーンの手口を悪用するSEO業者たちは発見されるのを防ぐためのテクニックを駆使しているという。その一つが、サイト上には広告を載せない、というものだ。

Google Ad Wordsなどに広告アカウントを作成すると、サイトのソースに入れ込むコードを渡される。それによって広告収入が特定のアカウントに流れるようになっている。アカウントにはクレジットカードが登録される。調べてみて、もしも何百ものサイトのネットワークが同じAd Wordコードを持っていた場合、一つの団体や個人によって全てが運営されている可能性は極めて高い。しかしコードが無ければ、この方法で特定することはできない。

MPのゾンビサイトは案の定、何も表示されていない広告スペースがいくつも墓石のように並んでいる。

170920_spamsite5
追加されたトランプ大統領に関する記事。スパムリンクが入っている。

当然、私はサイトの連絡フォームを通じてMPの新しいドメイン所有者に連絡を取った。すると次の日(2017年6月7日)、急に新しい記事が二つMPのゾンビサイトに投稿されたのだ(画像上)。

1つはトランプ大統領とドローン規制についての記事。1行目から文法ミスが悪びれなく展開されている文章だ。2つ目はアップルとアマゾンのプロダクトについて。そこには他のスパム・サイトのリンクが紛れ込まれている。

皮肉だろうか、この中にはGizmotimesという名前のサイトもあった。Tirumph.aiのDuck氏はこの二つの記事が「リンク・ロンダリング」目的であるとEメールで説明してくれた。

(これらの記事は)SEOターゲットであるサイトのリンクを含まない、関連性のあるコンテンツを加えるために投稿されています。これによって言語学の博士号を持つGoogleの従業員による査定をパスするのが目的です。

こういった手法は一定の成果を見せているようだ。「ブラックハット」SEOフォーラムや、Googleのサポートフォーラムを覗くと、システムを騙そうとする方法についての議論や報告がさかんに行われている。「ちょっとGoogleのウェブマスター・ガイドラインはしばらく読んでいませんが」と前置きをした上でDuck氏は語る。Googleが「一番良い方法」として推奨している方法がSEOで必ずしも一番良い方法ではないとのことだ。そのためSEOで近道をしようとしている人たちに対しては、ウェブマスター・ガイドラインは抑止力にはなっていない。「鹿を狩猟しようとしている時に、「どこにいますか?」と鹿に尋ねるようなものです」とDuck氏。なるほど、それでは鹿は見つからないだろう。

170920_spamsite6
PBN(プライベート・ブログ・ネットワーク)はSEO対策としてターゲットのサイトにリンクを貼るために作られたサイト群。巨大なPBNを見つけたユーザーがディスカッションをしている。

彼によると、MPのようなサイトをバックリンクのために”貸し出す”というビジネスは月に50ドルから60ドルを請求できるとのことだ。MPのドメインが誤って登録から外れてしまった時に、オークションでは1000ドルほどの値段がついたのではないかとDuck氏は推測する。金額を聞くと1つのサイトに注意が行ってしまうが、これは大きなシステムの小さい一部に過ぎないと彼は説明してくれた。

私はビジネスパートナーと一緒に、こういった(リンクの価値を持つ)サイトをかつて3000個ほど所有していました。50人ほどが毎日ネットワークの構築に取り組んでいたんです。

50人の中にはインターンや、フィリピンで雇われた契約社員も含まれている。サイトを作り、管理して、投稿をし、検知を避ける、こういったステップはすべて自動化できる。

170920_spamsite7
Fiverrで「Domain authority 40+」で検索した結果。

SEOという観点で価値を持っているドメインは、どんな物でもすぐに買われてしまいます。歴史上作られたウェブサイトすべてを考慮しても、もはやちゃんとしたドメインで残されているものを見つけるのは非常に難しくなっています。ウェブの大部分がすでに植民地化されてしまっているからです。

170920_spamsite8
以前のthedoubledouble.com(左)とスパムサイト化した現在のthedoubledouble.com(右)

Duck氏はここで驚くべき数字を出してきた。存在する全ウェブサイトのうち、約80%ほどはSEO目的で存在しているものだと彼は推測している。そして前述のDuke氏もこの概数に同意している。

しかし、Moz.comのマーケティング研究者であるPete Meyersのように異論を唱える専門家もいる。Search Engine LandのSchwartz氏も「(80%という数字は)ちょっとクレイジーに思える」と言う。Meyers氏はラフな計算に基いて、インターネットに存在する120億のウェブサイトのうち、約19.5%がSEOスパムとして存在していると推測してくれた。面白いことに、Meyers氏はGoogleにこの質問を尋ねている。

面白いからGoogleに聞いてみたんです。そしたら「(具体的な数字を)知っていたとしてもお教えすることはできないでしょう」と言った上で、彼らも知らないという答えでした。

170920_spamsite9
全国催眠術師組合の以前のサイトが左。スパムサイト化した今では全国の鍵屋にリンクが貼られている。

バックリンクの次に検索ランキングに影響を与えているのは、ソーシャル・メディアのトラフィックだと語る専門家も多い。サイバーセキュリティ・広告詐欺コンサルタントであり、ニューヨーク大学准教授であるAugustine Fou氏は次のように語ってくれた。

ボットによるトラフィックをダイレクトに購入することができます。記事をPRしたければ、ボットによるネットワークでその記事を10万回ツイートさせられます。

一方、ソーシャル・メディアのトラフィックはSEOに影響はほとんど無い、と自信を持って言う専門家もいる。しかしFou氏によると、ソーシャル・メディアはまだ新しく、これを悪用したテクニックを防ぐ方法の開発は遅れている。そしてそれには理由がある。Googleはスパムやボットを取り締まる役割を担っている一方で、こういったスパムやボットが生み出すトラフィックからも利益を得ている。ここには利害の衝突があるのだ。

170920_spamsite10
教育関連の非営利団のサイト。コメント欄はキーワードとリンクで埋まっている。

「Googleを批判しているわけではないけれど、経済的なモチベーションについて考えた時、彼らには急ぐ理由があまりありません。ボットによるトラフィックをたくさん検知して、それを駆除したとしても、それによって広告収入を半分失うということになり得るからです」とFou氏は語る。そしてこれは多くの専門家が同意する意見だ。

とりあえず、私は私ができることをするしか無い。Googleにはリンクスパムを報告するツールがある。それを使ってモーニングサイド・ポストのゾンビサイトを報告しておいた。それでも今日も、ゾンビは元気に存在し続けている。


Ariel Stulberg - Gizmodo US[原文

(塚本 紺)

あわせて読みたい

powered by