坂本比呂志 准教授

my DBLP  English page

<経歴>

<業績リスト>

<担当講義> 特別講義の資料はこちら

<これまでの配属学生>

<興味がある学生さんへ> 学外からの入学や研究室見学も歓迎します.

<研究分野> 巨大テキストからの重要情報の発掘(マイニング)を可能にする新しい技術の開発

データ圧縮は次世代の情報検索技術になり得ます.私の研究室では,巨大なテキストデータに対するデータマイニングやパターン検索をデータ圧縮によって実現しようとしています.例えば,東日本大震災時のtwitterでのつぶやきは数百GBにもなり,このクラスのデータになると情報検索のために特別な技術が必要です. 私たちがウェブから素早く情報を見つけることができるのは,ページ同士を結ぶリンク構造から重要度を計算したり,キーワード検索の準備を事前にしているからですが,明示的なリンク構造を持たないテキストデータではそのような前処理が困難です.私たちは,これらの問題を究極のデータ圧縮によって解決しようとしています.上の図は実際の圧縮データを視覚化したものです.わずかこれだけの構造に1GB(およそ10億文字)に相当する情報が詰め込まれています.この技術は通常のデータ圧縮と違い,不要な情報を自動的に削除したり,重要情報をまとめて取り出すことが可能で,しかも,そのために圧縮データを復号する必要もありません.また最近の成果によって,データを圧縮することで情報検索のスピードも高速化できることがわかってきました.このような技術によって,これまでは困難であった遺伝子データ全体の比較による生物の進化の解析や科学技術文献から類似技術の抽出,文書やプログラムソースの改竄箇所の特定など,様々な応用が期待できます.

<最近の研究活動>

<関連リンク>