ねほり.com

何もないから何かみつかる

研究は3年間「形状復元」をやってきましたが・・・

      2019/01/04

February 26, 2005

本題こっち。

HTTP_USER_AGENT などに残っている上記のロボット検索エンジンのボットは、次の通りです。

 
 

Googlebot(グーグルボット)
 
Yahoo! Slurp(ヤフースラープ)
 
MSNBot(エムエスエヌボット)
 
Ask Jeeves(アスク ジーブス)
 

 
 

現在、各ボットに対して処理を変更させ、検索結果を色々チェックする実験を行っています。

この方法が、うまくいけば望みどおりの結果を検索エンジンに表示可能です。

 
 

なお、他のボットについて調べたければ、

GETメソッドでトップページまたはHTMLを要求しているログだけを取り出す
 
既に見つけているUser-Agent文字列を含むログは除去

というスクリプトを書いて、Apacheのアクセスログ過去数週間分に対して実行すればよろし。

 
 

見つけたら、次のように配列に入れて、各ボットごとに処理を与えればよいでしょう。

てか、ボット多すぎ・・・

February 26, 2005

検索エンジン「 Naver Japan 」のサービスが終了し、代わりに「 Ask.jp 」が正式公開となった。

今後は、次の 4 大検索エンジンが、独自性を出しながら熾烈な争いを繰り広げることになります。

 
 

Google – 言わずと知れた Google
 
Yahoo! – 米Yahoo! が買収した Overture+Inktomi、 Alltheweb、 altavista を融合

 
MSNβ – マイクロソフト独自開発の検索エンジン
 

Ask.jp – Google キラーと呼ばれた TEOMA を買収した Ask Jeeves の日本語版

 
 

基本的に主要なロボット型検索エンジンは、テキストマッチ(内部要因)とアンカーテキストマッチ(外部要因)の双方のスコアで決まるようになっています。

アンカーマッチは、
 
 

「重要なページはリンクされている数も多いはずである」
 
「重要なページからリンクされたページは重要である」
 

 
と言うアルゴリズムに基づくのは承知の通り。

 
 

ただ、Blog や 掲示板などに 言わば「宣伝乙」処理を行い、ページランクを上げようとする輩が多い。

たとえば、「政治問題」について議論するためのBlogに 宣伝乙のコメントスパムがリンクする。

そうすれば、「リンクされた」という事実だけで 宣伝乙サイトの評価が上がる可能性がでてきます。

 
 

もちろん、検索エンジン会社も、見過ごすわけがありません。

それに対応するために、先月 Google が 新たな属性 を 発表しました。

 
 

<a href=”○○○” ref=”nofollow”>宣伝リンク</a>

 
 

この属性が付加されていれば、Googleのページランクの対象から除外されます。

これを、Blog 管理会社などに導入してもらえば、一応の対応策にはなります。

なお、米Yahoo!と MSN Search は、これを支持。米Ask Jeevesは明確な支持は表明してません。

 
 

これは、アルゴリズムの問題で、次のような違いがある。

Google、Yahoo!(YST)、MSNβ —— スタティック(静的)なリンク解析
 
Ask Jeeves(Teoma)—————ダイナミック(動的)なリンク解析
 

 
 

たとえば、「政治問題」について議論するためのブログに宣伝乙サイトのコメントスパムがリンクされたとする。

このとき、Ask Jeeves(Teoma)では、「政治問題」と「宣伝乙」サイトは全く別のサブジェクトであるため、サイト評価に影響を与える度合いは少ないと判断する。

 
 

てか、当然といえば当然でしょう。この点では Ask Jeeves が一歩先をいっているが、むしろ他のロボットが優秀でない。

 
 

私のサイトでは、根本的なヒット数を増加させる方法が異なっているので、あまり気にしていませんが・・・・

February 25, 2005

とりあえず、大学院生活 終了までに、論文を二本書き上げよう。

奈良先端やら、岡大の教授に大きなことを言ったわりには、大学院1年からずっと論文書いてないし・・・・

しかも、就職先ではソルジャー決定ですから・・・

 
 
 

これから一人暮らし?

 
 

お父さん泣いてた・・・

 
 

さみしいもんね。


 
 
 

ちがう。4畳の寮生活だから!
 レオパレスCM より

 
 

よく考えたら、魚を釣っても さばく環境がありません・・・

安いビジネスホテルと一緒です。こんな生活 1 年もちません。


 

 
 

ヒロシです。
 
うちの周りでは皆が「うさぎ小屋・・?」と馬鹿にするとです。
 

 

 

 

 
ヒロシ・・

 

 

 

 
で無く 狭し(セマシ)です・・・。
 

 
 

ネタもくだらん・・・_| ̄|○

 
 

上見て暮らすな、下見て暮らせ。

私の記憶が確かなら「永井隆」博士は、二畳一間で子供2人と暮らしていたそうな。

ちなみに「永井隆」博士は、「この子を残して」「ロザリオの鎖」など平和関連の書物を執筆された方です。

 

 

 

 

・・・駄目です。

既に入社前から、やる気がありません・・・・。

トイレは共同・お風呂は多分近くの銭湯に行きます。まさに神田川の世界です。

 

 

 

 

若かったあの頃 何も恐くなかった・・・・。

 

 
 

 

 

 

 

いや、「恐さ」に「若さ」は関係ありませんから・・・・

February 22, 2005

私の 5 大秘戦法

 
 

マインドコントロール戦法
 
おべっか(ゴマすり)戦法
 
パクリ戦法
 
ハッタリ戦法
 
小判サメ戦法
 

 
 

駄目じゃん・・・

私みたいな奴が研究室の質を下げるようです・・・_| ̄|○

 
 

ちなみに「小判サメ戦法」ってのは、頭の良い先輩や地位の高い上司に付き添い、後釜や手助けなどのオコボレを貰う戦法です。

社会人でもきっと役立つことでしょう・・・・。

February 21, 2005

私の研究は3年間ずっと同じテーマ。

大学4年の時、講座に配属されて5月ごろに作った PowerPoint には次のように書いてある。

 
 

ノリでこの研究を選択します

 
 

一番 面白く無さそう & 先輩に無理やり勧められたので選択しましたが・・・

 
 

ゴメンナサイ。
 やっぱり楽しく無かったです・・・_| ̄|○

 
 

しかも、自動抽出やインターフェースって、3年間テーマすら一緒・・・

岡大には、この研究だけの講座がある(うちより凄いが)・・・ガクガク(((( ;゚Д゚))))

 - 2005年(社会人1年), テクノロジー, 未分類

  関連記事

さくらでnode.jsを利用してJavaScriptの勉強

2011年12月21日(水) さくらでnode.jsを利用してJavaScrip …

Bootswatchによる2rowデザイン&軽量化の検討

この2ヶ月間で「ランキング出力のOAuth 2.0対応」「Yahooコメントラン …

人工知能で「くずし字」の文字認識の現状調査

日本人の多くは、日本人が150年前の文書が読めません。 家系図調査は「除籍謄本」 …

安芸郡倉橋町でカワハギ釣りに行ってマダイやメジナを釣る、知り合いが・・

2005年11月30日(水) カワハギ釣り 貴重な週休一日を使って火曜の深夜から …

AWS Summit Tokyo 2013 は飯が食べれず

仕事をサボってAWS(Amazon web service) Summit To …

TwitterからツイートをTwitterScraperでスクレイピングする

新コロナウイルスの猛威の中、ゴールデン・ウィークに突入しました。 政府の発表にて …

サラリーマンは安泰?誰に仕事を奪われのか?

年収が同期の中でも底辺です・・・ 同期がどれだけ出世しているのか概算しました。 …

ドライブAのFATを読み取り中に、データエラー

やはり夏休みは暇でならない。 しかし、従来の休みであれば、プログラム能力はみるみ …

個人的に広島一美味しいラーメン調査(若貴・八戒・山頭火・大統領)

学生時代にラーメン店をかなり回りましたが、    「ねぶかラ …

金属アレルギーだけどCartier キーリングをつけて販売応援

2005年11月03日(木) 今日他社のLCDが15台売れました なんとなく購入 …