RMeCab以外のテキスト解析

RjpWiki

Rでテキストマイニングをする場合、RMecabや、RCaBoChaがあるんですが、事前にMecabやCaBoChaをインストールする必要があり、これから始める人にはちょっと敷居が高いところがあるかと思います。 YjdnJlpパッケージは、Yahoo! Japanが提供しているテキスト解析APIを使うパッケージで、R上だけで手軽にテキスト解析を行うことが出来ます。

以下の3つの機能をサポートされています。

形態素解析
係り受け解析
キーフレーズ抽出

インストールと読み込み†

> install.packages("YjdnJlp")
> library(YjdnJlp)
 要求されたパッケージ XML をロード中です 
 要求されたパッケージ RCurl をロード中です 
 要求されたパッケージ bitops をロード中です

↑

初期化†

> con <- initYjdnJlp("********")    # アプリケーションID

アプリケーションIDを持ってない方は、こちらから登録してください

↑

形態素解析†

形態素解析を行うには、MAService関数を使います。 toDataFrame関数で、データフレームに変換することが出来ます。

> txt <- "庭には二羽ニワトリがいる。"
> ma.result <- MAService(con, txt)
> ma.result.df <- toDataFrame(ma.result)
> ma.result.df[, c("surface", "pos", "count")]
   surface    pos count
1       。   特殊     1
2     いる   動詞     1
3       が   助詞     1
4       に   助詞     1
5       は   助詞     1
6 ニワトリ   名詞     1
7       二   名詞     1
8       庭   名詞     1
9       羽 接尾辞     1

↑

係り受け解析†

係り受け解析を行うには、DAService関数を使います。これもtoDataFrame関数で、データフレームに変換することが出来ます。

> txt
[1] "庭には二羽ニワトリがいる。"
> da.result <- DAService(con, txt)
> da.result.df <- toDataFrame(da.result)
> da.result.df
  chunk.id dependency  surface  reading baseform    pos
1        1          3       庭     にわ       庭   名詞
2        1          3       に       に       に   助詞
3        1          3       は       は       は   助詞
4        2          3     二羽      2わ      2羽 接尾辞
5        2          3 ニワトリ にわとり ニワトリ   名詞
6        2          3       が       が       が   助詞
7        3         -1     いる       い       い   動詞
8        3         -1       。       。       。   特殊
                                 feature
1             名詞,名詞場所,*,庭,にわ,庭
2                 助詞,格助詞,*,に,に,に
3                 助詞,係助詞,*,は,は,は
4             接尾辞,助数,*,二羽,2わ,2羽
5 名詞,名詞,*,ニワトリ,にわとり,ニワトリ
6                 助詞,格助詞,*,が,が,が
7            動詞,一段,基本形,いる,い,い
8                   特殊,句点,*,。,。,。

↑

キーフレーズ抽出†

Keyphrase関数で、日本語文から特徴的な表現（キーフレーズ）を抽出することが出来ます。形態素解析、係り受け解析と同様、toDataFrame関数で、データフレームに変換することが出来ます。

> txt <- "東京ミッドタウンから国立新美術館まで歩いて5分で着きます。"
> key.result <- Keyphrase(con, txt)
> key.result.df <- toDataFrame(key.result)
> key.result.df
         keyphrase score
1     国立新美術館   100
2 東京ミッドタウン    72
3              5分    10