Googleに挑戦状!見破れないスパムサイトを考える

個人事業主

1 :クリックで救われる名無しさんがいる 2012/09/13(木) 23:25:09.27 ID:WNv1ki1y0

プログラム技術やSEO対策について研究し
Google検索アルゴリズムに駆逐されないスパムサイトを作るスレです

3 :クリックで救われる名無しさんがいる 2012/09/13(木) 23:37:18.25 ID:WNv1ki1y0

Googleはワードサラダをどうやって見分けているかわかりますか?
日本語が正しいか見分けるのって意味の通る文章を1から作るのと同じくらい難しい気がします

5 :クリックで救われる名無しさんがいる 2012/09/14(金) 19:59:06.01 ID:8ue7qQeO0

>>3
形態素解析
出現比率

6 :クリックで救われる名無しさんがいる 2012/09/14(金) 22:42:43.68 ID:8wLcHIyN0

ベイジアンは計算が楽だけど
単語の前後関係を見ないからスパマーに付け込まれる

マルコフ過程を考慮すればワードサラダに対象できる

ただ、助詞などの品詞を文法的に見ることはできても
意味に踏み込むことはなかなか難しい

面白いかどうかは文章自体を読むより
参照数や協調フィルタリングなどで
関節的に評価する方が実用的
ただそれを見越してスパマーに仕込まれれば
アルゴリズムは破綻する

7 :クリックで救われる名無しさんがいる 2012/09/15(土) 02:29:02.91 ID:fGpv0IKb0

8 :クリックで救われる名無しさんがいる 2012/09/15(土) 10:15:45.52 ID:ZaPL7KDy0

金沢工業大がコピペルナとかいう
論文のコピペ率を調べるソフトを売り出した
このソフトで検出できない文章変換ソフトを作れば
Googleを出し抜ける

9 :クリックで救われる名無しさんがいる 2012/09/15(土) 13:42:21.31 ID:unjio4l90

あくまで計算機相手だから意味の通る文かどうかより
コピペだとバレないことの方が重要なのかな

11 :クリックで救われる名無しさんがいる 2012/09/19(水) 12:34:11.94 ID:Ut2x8yXN0

>>9
意味が通らないと直帰率が高くなる
はてぶ自演とセットだな

>>10
別に学生が作ってるわけじゃないし
形態素の出現数を統計的に調べるぐらい
Fランの先生でもできるでしょ

10 :クリックで救われる名無しさんがいる 2012/09/18(火) 09:23:07.71 ID:bTD9mPr/0

>>8
ヒント:Fラン

12 :クリックで救われる名無しさんがいる 2012/09/20(木) 03:00:21.27 ID:kS6c2T510

多分>>10は
技術力においてGoogle > | 超えられない壁 | > Fラン大学 ってことじゃね

13 :クリックで救われる名無しさんがいる 2012/09/21(金) 10:56:44.23 ID:q3zuKK3K0

コンテンツファーム作ってる奴は
Googleより技術があるわけじゃない
何か勘違いしてないか?
スパマーは東大卒じゃないと無料とか?

14 :クリックで救われる名無しさんがいる 2012/09/21(金) 14:18:32.89 ID:WKUFOwVZ0

でもコンテンツファームはもう既に駆逐されていってるだろ?

どっかの記事で読んだが
訪問者のページ滞在時間によってサイトの質を判断したりするそうだ
意味解析はあまり進んでないってことだよな

15 :クリックで救われる名無しさんがいる 2012/09/21(金) 20:05:01.27 ID:q3zuKK3K0

イタチごっこだから
また何か斬新な手法がまた発見される
その繰り返し
Googleの方が頭がいいとかいって
初めから諦めてるのは負け犬の発想

16 :クリックで救われる名無しさんがいる 2012/09/22(土) 23:45:14.71 ID:oNTXDe960

詳しくは書けないが1日数百個の記事を生成するシステムを作った
とりあえず2週間ほど設置して様子を見てみようとおもう

17 :クリックで救われる名無しさんがいる 2012/10/01(月) 13:38:32.83 ID:/kE423bx0

>>16
俺も半年前ぐらいにやったが
パンダ来てから全然だめになった

要は類似コンテンツとGoogleにばれない
ようにする必要がある
自然言語処理で文章を改変する技術を
研究中
あと別のアプローチで出し抜くアイデアも
練ってるところ

18 :みつまJAPAN 2012/10/10(水) 20:02:00.83 ID:py00A/X30

そんな研究をする熱意があるのなら、
本当に良いサイトを作ったほうがマシ。

ま、そんな事どーでもいいんですけどね。

19 :クリックで救われる名無しさんがいる 2012/10/10(水) 20:43:18.41 ID:rueaIZY80

お前ら無駄な努力してんなーw
この文章読んだだけで真正のヴァカだったわかるわ↓

要は類似コンテンツとGoogleにばれない
ようにする必要がある
自然言語処理で文章を改変する技術を
研究中
あと別のアプローチで出し抜くアイデアも
練ってるところ(キリッ

20 :クリックで救われる名無しさんがいる 2012/10/10(水) 21:55:03.25 ID:gqRuRBMJP

自然言語処理を勉強するほどGoogleは複雑じゃないでしょ

あからさまにスクレイピングしてない限り全然警告こないもの

21 :クリックで救われる名無しさんがいる 2012/10/10(水) 22:27:55.68 ID:nWcYKU0H0

文章が同じでもぜんぜん問題ない
もし問題なら知恵袋とかQ&A系、まとめが飛ぶことになる
でも実際はほとんど飛ばない

ソーシャル

コメントする