R で大規模データを処理する - RjpWiki

[ トップ ] [ 編集 | 凍結 | 差分 | バックアップ | 添付 | リロード ] [ 新規 | 一覧 | 検索 | 最終更新 | ヘルプ ]

R で大規模データを処理する†

R では大規模なデータを扱うのは無理で、そのようなデータは SAS や SPSS、またはなんらかのライブラリを使うということは常識なのか？
以下に大規模データを処理する方法を書いていくつもり．．．

RDBMS を使う†

surveyNG

並列処理を使う†

大規模な計算をする中で、並列処理が可能な計算を行う場合、以下のようなライブラリを利用することが可能。
基本的には「分割」→「演算」→「集約」の手順で実装してある。
もちろんマルチコアかクラスター環境じゃないとあまり意味が無いのだが…。

とりあえず、列挙。使い方はしばし待たれよ…。

snow:(Simple Network On Workstationの略)並列計算クラスターを作成するためのライブラリ。
foreach:バックエンドに依存しない形で並列処理をするためのライブラリ。
doSNOW:foreach内部で利用できるsnow。特にsnowライブラリはいらないが、ちょっとsnowとは使い方が違う。

大規模なメモリーを扱えるパッケージ†

汎用†

bigmemory: 「big.matrix」形式のデータを扱うための基本ライブラリ。
- biganalytics: 「big.matrix」形式に対応した基本的な分析ツール。applyやbiglm(要biglmライブラリ）などが利用できる。
- bigtabulate: 「big.matrix」形式に対応した基本的な集計ツール。「big.matrix」版table「bigtable」などが利用できる。

memisc: データ管理、シミュレーションと評価の表示
- Management and Analysis of Large Survey Data Sets Using the 'memisc' Package

filehash
- Peng RD: Interacting with data using the filehash package. R News 6(4):19-24, 2006.

ff: memory-efficient storage of large atomic vectors and arrays on disk and fast access functions

biglm 大規模データ用回帰モデル

R.huge: 大規模データへのアクセスメソッド

rindex: Indexing for R

DatABEL: HDD 上にバイナリ形式で蓄積された巨大行列へのファイルベースのアクセス

特定用途向け†

biglm

R と Big Data 処理 †

参考リンク†

Quickly reading very large tables as dataframes in R sqldf

最新の20件

2025-04-14

Tips紹介

2025-04-05

トップ頁へのコメント

2024-11-07

R掲示板

2024-07-26

Ｑ＆Ａ (初級者コース)/18

2024-02-16

Tips/山椒Tips集

2023-09-12

RecentDeleted

2023-08-30

晴猫

2023-07-27

河童の屁は，河童にあらず，屁である。

2023-04-06

NA,NaN,NULL,Inf

2023-01-13

grid パッケージ事始

2023-01-10

R のインストール

2022-09-04

投稿における注意事項

2022-05-29

線形不等式制約付きの最適化関数 constrOptim

2022-05-04

Rweb

2022-02-11

データフレームTips大全

2022-01-30

ベクトルTips大全

2021-11-10

base(基本)パッケージ中のオブジェクト一覧

2021-09-07

R AnalyticFlow

2021-08-20

Ｑ＆Ａ (初級者コース)/17

2021-05-17

BigQueryにShapeFileを取りこむ

Last-modified: 2023-03-25 (土) 11:19:17