R の文字列処理関数

R の文字列処理関数に付いて解説(ほとんどオンラインヘルプそのもの)します。これらは、文字列データの処理、データラベル、 出力・グラフィックス用の文字列、等に使われます。


文字ベクトルの一部を取り出す、置き換える substr, substring

文字列ベクトルの要素を与えられたパターンにしたがって分解 strsplit

文字列(への変換と)の結合 paste

文字数を数える nchar

nchar は文字ベクトル x を引数に取り、 その要素中の文字数からなるベクトルを返す

文字列の部分的マッチング charmatch

charmatch は、その第一引数の要素にマッチするものを、第二引数の中から探す

大文字/小文字変換 toupper, tolower

splus2R パッケージの、upperCase, lowerCase 関数
今更そんなもの。もともと base には toupper, tolower があります。実行速度もほぼ同じ。

toupper は、引数の文字列ベクトルの英小文字を英大文字に変換する。
tolower は、引数の文字列ベクトルの英大文字を英小文字に変換する。

文字変換 chartr

chartr は、第3引数の文字列ベクトル中の第1引数の文字を第2引数の文字に変換する。

文字コード変換

 Windows 上で、日本語を含む文字列を処理した際に、そのままではwrite.dbf を実行すると、UTF-8 で出力されてしまう。このため iconv 関数を利用して以下のようにする必要がある。

library(foreign)
dbf <- read.dbf("test.dbf")
jchars <- gsub(" ","",chartr("$役所","  ",as.character(as.vector(dbf$textfield))))
dbf$textfield <- iconv(jchars,'UTF-8','SHIFT_JIS')
write.dbf(dbf,"testnew.dbf")

参考リンク


添付ファイル: filepaste1.png 1400件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2015-03-01 (日) 01:15:59