ロボット検索にひっかからないページにするには?

[上に] [前に] [次に]
ミルファ [HomePage] 1998/09/01(火) 01:08:14
みなさんどうもはじめまして。

gooなどの検索ロボットで検索されたくない場合、
どうしたらいいのか教えてください。
できるだけ簡単な方法がいいです。

検索されたいページとされたくないページが、
同じディレクトリ内にあります。
リンクは張っていません。

もし以前に同じような質問があったり、
ここのHP内に解決方法が書いてあったのなら、
ごめんなさいです。

Masa [E-Mail] 1998/09/01(火) 03:48:56
それはgooのサイトに解説されています。
http://www.goo.ne.jp/help/faq3.html#web
です。他のエンジンに対してもある程度有効なやり方なようです。
ただし完璧ではないと思います。

mo [E-Mail] 1998/09/01(火) 18:28:32
ロボットではリンクを辿りまくるのが基本なので、リンクされている
ページはどうしてもロボットに検索されてしまいます。robots.txt を
用意する手もありますが、当然、これを無視するロボットもいろいろあります。
ちなみに、

http://www.planet.kobe-u.ac.jp/~takawata/robots.html

にいろいろなロボット達が紹介されています。

とわ [HomePage] 1998/09/02(水) 09:37:35
 ロボット規制法のうちrobots.txtですが、これは基本的にサーバ管理者用なので、
ロボット規制したいホームページ製作者はMETAを必ず使いましょう。

 無論robots.txtを置いておいても損はないと思います。
 あと「robots」でなく「robot」を読む変な奴もいるようです。
# 両方置くと気休めくらいにはなります。

 METAに付いてですが、これは中途半端に解釈(曲解?)してページを持っていく
ロボットもおりますので完全ではないです。
 やるならトップページだけでなく徹底的にやる事をお勧めします。

 ちなみに我が家は昔は「ロボット完全却下」だったのですが、それでもページを
持って行くやつがいたので、現在は緩和しています。
# 正直なロボットが馬鹿を見るのは可哀相だし(^^;

 でわ

ミルファ [HomePage] 1998/09/07(月) 01:04:14
[[解決]]
とても丁寧な返答、どうもありがとうございました。
検索ロボットにこんなにたくさん種類があることを、
いままで知りませんでした。
とりあえず、METAタグをつかってみます。
gooだけでも避けられればかなり安心です。

匿名希望 1998/10/02(金) 02:18:30
gooのヘルプページにあったメタタグの NOFOLLOW を入れてもシッカリ検索してくれてます.
リンク先がテキストファイル(*.txt)の為に,そのファイルにメタタグを入れられませんし.

URLの表示だけなら兎も角,ファイルの内容まで自分の所に取得してデータベース化するのは『著作権の侵害』ですよね.
リンクは自由だけど,内容の無断コピーは私用以外禁止と注意書きしてあるのに.
その辺の事って誰も問題視してないのかしら?

moci [E-Mail] 1998/10/02(金) 03:58:40
どうしても、ということであれば、トップページをCGI化するか、
特定のページを検索させたくないということならそのページをCGIにして、
ユーザエージェントをチェックし、ロボットとおぼしきアクセスには、
何も出力しないかまたは、Location:でどこかにでも飛ばしてしまうとか(^_^;)

検索ロボットに中身を持っていかれても、検索サイト上で100字程度を見て
用が足りるようなページでもあるまいし、むしろそこから自分のページに
来てくれる人もたくさんいるので、問題視されないのだと思います。

B-Cus 1998/10/02(金) 06:24:26
先頭部分100字の出力はとても便利です。
そこを見れば、ログっぽいものや、英語のページなどは
飛ばせますから。

通りすがりの者 1998/10/02(金) 18:48:09
100字程度であれば、出展も明記されているので『引用』とみなされ、
『著作権侵害』には相当しないのではないかと思います。

最初の100文字ではなく、該当する単語の周りを表示してくれれば
いいのにな。本文自体はすでにインデックス化されているから最初
の100文字しか覚えていないのかな。

匿名希望 1998/10/07(水) 00:42:06
「引用」とは「引き合い」に出す事です.
例えば,自分の論文(主)内で他の人の論文(従)を出す,など.
gooの場合,検索結果が「主」であり「従」ではないので「引用」とは言えませんね.
しかも,表示される100字は検索キーワードの前後では無くて決め打ちで先頭100文字なので
引用だとしても「まったく無意味な引用」になる事の方が多いです.
文字数や出展以前の問題ですね.

moci [E-Mail] 1998/10/07(水) 02:23:06
「ホームページ作成に関するQ&A」にからめて、ではなく、
100字表示の是非だけについて言及するのであれば、
同じ議論がfjで行われているかと思いますので、
fjで行ってはいかがでしょう?

B-Cus 1998/10/07(水) 03:24:31
fjのどのNewsGroupですか?

moci [E-Mail] 1998/10/07(水) 05:04:00
失礼、そこまで書いておくべきでしたね。
fj.soc.copyright です。

# 自宅から見たら、既に議論が発散していました(^_^;;
# 肝心の100行表示の記事はどこへやら…

ゆま 1998/10/09(金) 20:47:24
素朴な疑問なんですが・・・
サーチされたくないページに一切文字が書かれていなかったら、
(例えば画像だけとか)
やっぱりサーチエンジンにはひっかからずに済むのでしょうか?

さくな 1998/10/16(金) 12:52:03
画像だけでもサーチエンジンにひっかかりますよ〜。
タグをみるやつもいますから。
画像の検索というのもありますし。

わーわーどうしよう 1998/10/21(水) 12:44:34
それじゃ、例えとして、
「自分宛てメールフォーム」だけのページ
(もちろんどこからもリンクしてません)を作っても、
タグ検索かけられるとバレちゃうんですか?
イヤだなあ。

でもタグを見る検索エンジンってどこだろう・・・?

匿名希望 1998/10/21(水) 15:30:33
本当にプライベートなものにしたいのでしたら
アクセス制御を掛けるかCGI自体にパスワードを入れるかした方が良いでしょう。

匿名希望 1998/10/21(水) 22:55:50
ロボットの他に、「EmailSiphon」という名のソフトも気に入らない。
webページ文中からメールアドレスを抜き出し収集することを目的に
したロボット・ソフトで、市販品。実際意外とちょくちょくやってく
る。

僕はSSIでuser_agentを見てEmailSiphonには爆弾を食らわせるよう
にしている。

しかしそもそもEmailSiphonは日本語のページからでもメールアドレス
を抜き出せるのだろうか。JISコードで書かれたページだと@が沢山出
てくる。

匿名希望 1998/10/23(金) 00:27:55
 横槍です。読んでいてあまりに……と思ったもので。

> 僕はSSIでuser_agentを見てEmailSiphonには爆弾を食らわせるよう
> にしている。

 これは流石に問題だと思います。自衛の名を借りた攻撃だと思い
ますけど……ちなみに、私はEmailSiphonというソフトは使ってま
せん、というか知りませんでしたし。

 そもそも、見られたくないとか思うのならホームページなど作ら
なければ良いのでは、と思いますが……言い過ぎですかね?

moci [E-Mail] 1998/10/23(金) 01:18:58
いや、気持ちは分かる(と思う)。

ページを見てもらいたくて、公開しているわけですよね。
にも関わらず、メールアドレスのみを収集して、SPAMメールを
送りつけてくるんだから、その意味ではページを見てすらいない。

自分のページの掲示板などに書き込みしてくれたお客さんに
その書き込みが元でSPAMメールが送られたりしたら、という
申し訳ない気持ちもあるんじゃないでしょうか?

防御手段としては、ページそのもののCGI化によって、
そのようなエージェントには情報を与えないというのも手です。
しかし、そもそもまともな動機でメールアドレスだけを
収集することなどあるのでしょうか。SPAMメールを
元からたつ、という意味において、どんどんやってくれて
構わないと思います。

しかし、たとえば無限にデータを送り続けるなど、自分のWWWサーバへも
「攻撃」を加えてしまうようでは、意味がありません(^_^;;
かといって、ここで詳細な手段を論じることは、困ったちゃんたちに
まともなエージェントへの攻撃方法を教えることにもなってしまいますから、
やめておいたほうがよいでしょう。その意味においては、たとえ聞かれても、
ずっと前に書いているように、何も出力しないか、どこかありもしないURLに
Location:で飛ばしてしまうなどにとどめておくことしかおすすめできません(^_^;;

omi [E-Mail] 1998/10/23(金) 08:41:57
へーぇ、ロボットって、いやらしいやつなんですね。

例えばwwwlng.cgiを以下に変えると、
"覗き"を撃退できるようにも思うけど、どうでしょうね。

  $_ =~ s/^E-Mail: //;
  $a = index( $_, '@');
  $em = substr( $_, 0, $a);
  $ail = substr( $_ , $a+1 );
  print "<A HREF=\"mail","to:$em","@","$ail\">Mail</A>\n";

あちこちに "," を入れて、
mailto: や xxx@xx.xxnet.co.jp を隠そうとする訳です。
頭かくして尻かくさず、かもしんないね。
それより、どっ素人のコードがもっとスマートにならないかな。

みんこ@横レス 1998/10/23(金) 09:26:17
ロボットがやんらしい、というか
使用目的がいやーんですね。名簿業者とかね。

ところで時々見かける「SPAM」って何ですか?

omi 1998/10/23(金) 10:05:39
わー、間違ってる。  print "<A  ・・・は以下に修正してね。
  print "printEmail('$em', '$ail');\n";

  print "function printEmail( EM, AIL ) {\n";
  print "s =\"<A href=mail\"+\"to:'\"+EM+\"@\"+AIL+\"'>Email</A>\";\n";
  print "document.write( s );\n";
  print "}\n";

あー頭が痛くなってきた。なんで、だんだん複雑になるんだろうね。

とわ 1998/10/23(金) 10:43:31
 横槍ぃ〜〜〜!(失礼)

>SPAMとは?
 SPAMとは肉の缶詰のお名前ですが・・・(一応本当)
 「楽して儲けませんか?」とか「なんか買うてくれ〜」とかのメールを
無差別に送り付けるメールの総称です。はい。
 アメリカじゃ違法行為となっています。
 日本の場合、掲示板爆撃も含まれるんでしょうかね?

 出す奴が節操が無いので、メールの方も節操が無いのが特徴で、

>メール収集ロボット
 発信元を調べてそこのウェブマスターにたれ込むとか、もっと効果的
(悪質?)なものではSPAM対抗サイトにたれ込むとかが一番効果的では?(笑)

 でわ

moci [E-Mail] 1998/10/23(金) 10:51:35
omiさんへ

ロボットが見るのはCGIスクリプトではなく、出力されたHTMLですから、
CGIスクリプトを見づらくしても、困るのは自分だけなのです(^_^;;

ミルファ [HomePage] 1998/10/27(火) 23:27:59
robots.txt というものがちょっと気になって、自分なりに探してみたのですけど、
いまだによくわかりません(;_;)
robots.txt とはどういった内容のテキストで、どこに置いておけばいいのでしょう。
もしかしたらものすごく「基本」なことを聞いているのかもしれないのですけど、
どなたか親切な方がいらっしゃいましたら、教えてください。
よろしくおねがいします。

P.S.
「EmailSiphon」というソフト、なんだか怖いですね。
このソフトを使っている方は、どんな目的で使っているのでしょうね。

ごとう [E-Mail] 1998/10/28(水) 07:13:50
http://www02.so-net.ne.jp/~okuda/tech/norobots.html
をご覧ください。


とわ 1998/10/28(水) 09:49:50
 続きますねぇ、このネタ。

>「EmailSiphon」というソフト、なんだか怖いですね。
>このソフトを使っている方は、どんな目的で使っているのでしょうね。

1.SPAMを出すために使う
2.SPAMを出す人に売るアドレス名簿を作成するために使う。
3.その他(趣味とか学術目的とか)
 3は多分ほぼ0でしょう。よってろくな人がいないと考えられます。

 これら自動収集ソフトでメールアドレス集めると「SPAM対抗MLにSPAM」
とか間抜け極まりない事をやると思うんですがねぇ。
 っていうかそもそもSPAM反対!
 ほとんどメールボムと同じようなもん送ってくんなぁ!
# クラッシュしかけが2回ほど・・・・ぶ〜ぶ〜

[上に] [前に] [次に]