九州工業大学 大学院情報工学研究院 知能情報工学研究系 知能数理学部門 坂本 比呂志 研究室

  • TOP
  • ENGLISH

研究紹介

研究分野

データ圧縮は次世代の情報検索技術になり得ます.私の研究室では,巨大なテキストデータに対するデータマイニングやパターン検索をデータ圧縮によって実現しようとしています.例えば,東日本大震災時のtwitterでのつぶやきは数百GBにもなり,このクラスのデータになると情報検索のために特別な技術が必要です. 私たちがウェブから素早く情報を見つけることができるのは,ページ同士を結ぶリンク構造から重要度を計算したり,キーワード検索の準備を事前にしているからですが,明示的なリンク構造を持たないテキストデータではそのような前処理が困難です.私たちは,これらの問題を究極のデータ圧縮によって解決しようとしています.上の図は実際の圧縮データを視覚化したものです.わずかこれだけの構造に1GB(およそ10億文字)に相当する情報が詰め込まれています.この技術は通常のデータ圧縮と違い,不要な情報を自動的に削除したり,重要情報をまとめて取り出すことが可能で,しかも,そのために圧縮データを復号する必要もありません.また最近の成果によって,データを圧縮することで情報検索のスピードも高速化できることがわかってきました.このような技術によって,これまでは困難であった遺伝子データ全体の比較による生物の進化の解析や科学技術文献から類似技術の抽出,文書やプログラムソースの改竄箇所の特定など,様々な応用が期待できます.