February 26, 2005
本題こっち。
HTTP_USER_AGENT などに残っている上記のロボット検索エンジンのボットは、次の通りです。
Googlebot(グーグルボット)
Yahoo! Slurp(ヤフースラープ)
MSNBot(エムエスエヌボット)
Ask Jeeves(アスク ジーブス)
現在、各ボットに対して処理を変更させ、検索結果を色々チェックする実験を行っています。
この方法が、うまくいけば望みどおりの結果を検索エンジンに表示可能です。
なお、他のボットについて調べたければ、
GETメソッドでトップページまたはHTMLを要求しているログだけを取り出す
既に見つけているUser-Agent文字列を含むログは除去
というスクリプトを書いて、Apacheのアクセスログ過去数週間分に対して実行すればよろし。
見つけたら、次のように配列に入れて、各ボットごとに処理を与えればよいでしょう。
1 2 3 4 5 6 7 8 9 10 11 |
$bot = array(<br /> "Bulkfeeds", "Hatena Antenna",<br /> "BlogRanking", "ichiro",<br /> "Technoratibot", "CaptainNAMAAN",<br /> "Download Ninja", "ping.blogger.jp",<br /> "Wget", "Nutch",<br /> "Tarantula", "Pockey",<br /> "Microsoft URL Control", "Livedoor SF", "Bloglines"<br /> ・ ・<br /> ・ ・<br /> ); |
てか、ボット多すぎ・・・
February 26, 2005
検索エンジン「 Naver Japan 」のサービスが終了し、代わりに「 Ask.jp 」が正式公開となった。
今後は、次の 4 大検索エンジンが、独自性を出しながら熾烈な争いを繰り広げることになります。
Google – 言わずと知れた Google
Yahoo! – 米Yahoo! が買収した Overture+Inktomi、 Alltheweb、 altavista を融合
MSNβ – マイクロソフト独自開発の検索エンジン
Ask.jp – Google キラーと呼ばれた TEOMA を買収した Ask Jeeves の日本語版
基本的に主要なロボット型検索エンジンは、テキストマッチ(内部要因)とアンカーテキストマッチ(外部要因)の双方のスコアで決まるようになっています。
アンカーマッチは、
「重要なページはリンクされている数も多いはずである」
「重要なページからリンクされたページは重要である」
と言うアルゴリズムに基づくのは承知の通り。
ただ、Blog や 掲示板などに 言わば「宣伝乙」処理を行い、ページランクを上げようとする輩が多い。
たとえば、「政治問題」について議論するためのBlogに 宣伝乙のコメントスパムがリンクする。
そうすれば、「リンクされた」という事実だけで 宣伝乙サイトの評価が上がる可能性がでてきます。
もちろん、検索エンジン会社も、見過ごすわけがありません。
それに対応するために、先月 Google が 新たな属性 を 発表しました。
<a href=”○○○” ref=”nofollow”>宣伝リンク</a>
この属性が付加されていれば、Googleのページランクの対象から除外されます。
これを、Blog 管理会社などに導入してもらえば、一応の対応策にはなります。
なお、米Yahoo!と MSN Search は、これを支持。米Ask Jeevesは明確な支持は表明してません。
これは、アルゴリズムの問題で、次のような違いがある。
Google、Yahoo!(YST)、MSNβ —— スタティック(静的)なリンク解析
Ask Jeeves(Teoma)—————ダイナミック(動的)なリンク解析
たとえば、「政治問題」について議論するためのブログに宣伝乙サイトのコメントスパムがリンクされたとする。
このとき、Ask Jeeves(Teoma)では、「政治問題」と「宣伝乙」サイトは全く別のサブジェクトであるため、サイト評価に影響を与える度合いは少ないと判断する。
てか、当然といえば当然でしょう。この点では Ask Jeeves が一歩先をいっているが、むしろ他のロボットが優秀でない。
私のサイトでは、根本的なヒット数を増加させる方法が異なっているので、あまり気にしていませんが・・・・
February 25, 2005
とりあえず、大学院生活 終了までに、論文を二本書き上げよう。
奈良先端やら、岡大の教授に大きなことを言ったわりには、大学院1年からずっと論文書いてないし・・・・
しかも、就職先ではソルジャー決定ですから・・・
これから一人暮らし?
お父さん泣いてた・・・
さみしいもんね。
ちがう。4畳の寮生活だから!
レオパレスCM より
よく考えたら、魚を釣っても さばく環境がありません・・・
安いビジネスホテルと一緒です。こんな生活 1 年もちません。
ヒロシです。
うちの周りでは皆が「うさぎ小屋・・?」と馬鹿にするとです。
ヒロシ・・
で無く 狭し(セマシ)です・・・。
ネタもくだらん・・・_| ̄|○
上見て暮らすな、下見て暮らせ。
私の記憶が確かなら「永井隆」博士は、二畳一間で子供2人と暮らしていたそうな。
ちなみに「永井隆」博士は、「この子を残して」「ロザリオの鎖」など平和関連の書物を執筆された方です。
・・・駄目です。
既に入社前から、やる気がありません・・・・。
トイレは共同・お風呂は多分近くの銭湯に行きます。まさに神田川の世界です。
若かったあの頃 何も恐くなかった・・・・。
いや、「恐さ」に「若さ」は関係ありませんから・・・・
February 22, 2005
私の 5 大秘戦法
マインドコントロール戦法
おべっか(ゴマすり)戦法
パクリ戦法
ハッタリ戦法
小判サメ戦法
駄目じゃん・・・
私みたいな奴が研究室の質を下げるようです・・・_| ̄|○
ちなみに「小判サメ戦法」ってのは、頭の良い先輩や地位の高い上司に付き添い、後釜や手助けなどのオコボレを貰う戦法です。
社会人でもきっと役立つことでしょう・・・・。
February 21, 2005
私の研究は3年間ずっと同じテーマ。
大学4年の時、講座に配属されて5月ごろに作った PowerPoint には次のように書いてある。
一番 面白く無さそう & 先輩に無理やり勧められたので選択しましたが・・・
ゴメンナサイ。
やっぱり楽しく無かったです・・・_| ̄|○
しかも、自動抽出やインターフェースって、3年間テーマすら一緒・・・
岡大には、この研究だけの講座がある(うちより凄いが)・・・ガクガク(((( ;゚Д゚))))