大量データ編集集計処理サービス

数GBからテラバイトを超えるような大量のテキストファイルのデータを高速に編集集計処理するサービスです。

近年、特に増大している情報には、メッセージや説明文などのテキストデータがあります。例えば、ホームページへのアクセスログには、「誰がどのページをよく見ているか」、「どういったキーワードで検索しているか」などの情報を、テキストデータとして蓄積しています。このログデータを分析することで、より効果的なWEB上でのPR効果をあげていくことが可能です(SEO分析)。

しかし、これらのテキストデータをそのままデータベースに格納したのでは、格納したデータを分類集計することがうまくできない場合が多く、事前に、テキストデータをキーワードで分割して必要なデータのみ切り出しておくことが必要になります。

このようにデータ量の増加とともに、このテキスト処理に多くの時間がかかるということが新たな問題としてクローズアップしています。

一般に、データ処理の方法には、データベースに格納してDB操作するやり方と、データベースに格納しないでファイルのまま処理するやり方の二通りがあります。処理内容により以下のように使い分けるのが適切ということになります。

DB操作/ファイル処理:
  処理内容 アクセス 保存
DB操作 不定型 ランダム 永続的
ファイル処理 定型 一方向 一時的

処理内容としては以下のようなものがあります。

  • コード変換(EBCDIC/SJIS/EUCなど)
  • 固定長/可変長変換
  • カラム切り出し・カラム分割
  • SORT
  • 検索・集計
  • ファイル分割・結合

    高速屋の高速ファイル処理技術を使えば、今まで数時間かかっていたものが数分程度で処理することができるようになります。