R で大規模データを処理する

R では大規模なデータを扱うのは無理で、そのようなデータは SAS や SPSS、またはなんらかのライブラリを使うということは常識なのか?
以下に大規模データを処理する方法を書いていくつもり...

RDBMS を使う

並列処理を使う

大規模な計算をする中で、並列処理が可能な計算を行う場合、以下のようなライブラリを利用することが可能。
基本的には「分割」→「演算」→「集約」の手順で実装してある。
もちろんマルチコアかクラスター環境じゃないとあまり意味が無いのだが…。

とりあえず、列挙。使い方はしばし待たれよ…。

  • snow:(Simple Network On Workstationの略)並列計算クラスターを作成するためのライブラリ。
  • foreach:バックエンドに依存しない形で並列処理をするためのライブラリ。
  • doSNOW:foreach内部で利用できるsnow。特にsnowライブラリはいらないが、ちょっとsnowとは使い方が違う。

大規模なメモリーを扱えるパッケージ

汎用

  • bigmemory: 「big.matrix」形式のデータを扱うための基本ライブラリ。
    • biganalytics: 「big.matrix」形式に対応した基本的な分析ツール。applyやbiglm(要biglmライブラリ)などが利用できる。
    • bigtabulate: 「big.matrix」形式に対応した基本的な集計ツール。「big.matrix」版table「bigtable」などが利用できる。
  • filehash
    • Peng RD: Interacting with data using the filehash package. R News 6(4):19-24, 2006.
  • biglm 大規模データ用回帰モデル
  • R.huge: 大規模データへのアクセスメソッド
  • rindex: Indexing for R
  • DatABEL: HDD 上にバイナリ形式で蓄積された巨大行列へのファイルベースのアクセス

特定用途向け

  • biglm

R と Big Data 処理

参考リンク


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Google
WWW を検索 OKADAJP.ORG を検索
Last-modified: 2015-03-01 (日) 01:15:59 (1697d)