欢迎来到天天文库
浏览记录
ID:61433955
大小:190.50 KB
页数:37页
时间:2021-01-30
《Web検索における リンク構造解析を利用した ランキング法.ppt》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、Web検索におけるリンク構造解析を利用したランキング法中窪仁†佐藤隆士‡†大阪教育大学大学院総合基礎科学専攻‡大阪教育大学情報処理センター発表内容背景研究目的関連研究提案手法考察実験概要まとめ今後の課題背景WWW空間上には膨大な情報が存在膨大な情報から必要な情報のみを抽出することは困難情報抽出支援ツールであるWeb検索システムを利用Web検索システムの検索精度は未だ十分ではない研究目的Webページ特有の情報であるリンク構造を利用した手法を提案Web検索システムの精度向上を図る現在のWeb検索システムWebペ
2、ージ本文と検索語句による全文検索Webページ間のリンク構造解析による文書抽出関連研究-PageRankアルゴリズム(1)-PageRankアルゴリズムWebページ間のリンク構造にランダムウォークモデルを適用WWW空間上の全Webページへの遷移確率をもとにスコアリング関連研究-PageRankアルゴリズム(2)-9030453030301515151515PageRankアルゴリズム例関連研究-PageRankアルゴリズム(3)-PageRankアルゴリズムの特徴WWW空間上の各Webページの被参照度を示す固定値
3、検索語句によって左右されない静的スコアPageRankアルゴリズムの問題点リンク構造上隣接していないWebページへの影響が減少関連研究-HITSアルゴリズム(1)-HITSアルゴリズムリンク構造を利用して検索語句に対して適切なコミュニティを抽出“authority”検索語句に関する的確な情報を持つWebページ集合“hub”リンク構造上,“authority”に含まれるWebページと隣接関係を持つWebページ集合関連研究-HITSアルゴリズム(2)-auth:0.408hub:0.000auth:0.408hub
4、:0.000auth:0.000hub:0.816auth:0.816hub:0.000auth:0.000hub:0.408auth:0.000hub:0.408HITSアルゴリズム例関連研究-HITSアルゴリズム(3)-HITSアルゴリズムの特徴“authority”,“hub”の二種類のスコアを算出検索語句によって左右される動的スコアHITSアルゴリズムの問題点常に適切なコミュニティを抽出できるとはかぎらない提案手法概要(1)提案概要Webページ本文と検索語句による全文検索結果+リンク構造解析による静的ス
5、コアリング+リンク構造解析による動的スコアリングWeb検索システムの精度向上ランキング提案手法概要(2)提案手法手順Corpus動的スコア#2動的スコア#1LinkStructureDataResult静的スコアグループ化全文検索スコアスコアリングWebページのグループ化(1)Webページのグループ化Webページ群をグループとして扱うグループの定義同一の作成者が作成し,類似分野の情報を持つと思われるWebページ群グループ化手法「類似分野の情報は同一の親を持つ部分木である」と仮定ディレクトリ構造,リンク構造の二通
6、りのアプローチ:グループWebページのグループ化(2)ディレクトリ構造方式EDCBAディレクトリ構造を木構造とみなしてグループ化リンク構造解析が不要作成者のディレクトリ分類法によってグループの質が変化ルート:グループWebページのグループ化(3)リンク構造方式リンク構造を木構造とみなしてグループ化作成者の意図通りにグループ化が可能リンク構造によるグループ化は難易度が高いEDCBAルート静的スコアリング(1)静的スコアリング小規模コミュニティのスコアリングが目的グループ化済みのリンク構造についてスコアリングスコア
7、リングにはPageRankアルゴリズムを使用静的スコアリング(2)静的スコアリング例EDCBAFHG:WebサイトAFHGBCDEFHGABCDEディレクトリ構造方式リンク構造方式グループ化(A..Eはグループ化例と同じ構造を持つ)静的スコアリング(3)静的スコア例リンク構造上隣接関係にないWebページへの影響度が増加グループからリンクされているWebサイト外ページのスコアが増加静的スコアリング(4)静的スコア例本来のリンク構造が表す各Webページの特性が失われているグループ化によりスコアが均一化動的スコアリン
8、グ(1)動的スコアリング全文検索結果集合に含まれるリンク構造についてスコアリングスコアリングにはPageRankアルゴリズムを使用グループ化適用の前後二種のスコアを算出グループ化適用前を#1,適用後を#2とする動的スコアリング(2)動的スコアリング#1(グループ化適用前)全文検索結果集合内での有用なWebページの抽出が目的動的スコアリング#2(グループ化適用後)全文検索結果集合内のWe
此文档下载收益归作者所有