RMeCab以外のテキスト解析
の編集
http://www.okadajp.org/RWiki/?RMeCab%E4%BB%A5%E5%A4%96%E3%81%AE%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E8%A7%A3%E6%9E%90
[
トップ
] [
編集
|
差分
|
バックアップ
|
添付
|
リロード
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
-- 雛形とするページ --
(no template pages)
[[RjpWiki]] Rでテキストマイニングをする場合、RMecabや、RCaBoChaがあるんですが、事前にMecabやCaBoChaをインストールする必要があり、これから始める人にはちょっと敷居が高いところがあるかと思います。 YjdnJlpパッケージは、Yahoo! Japanが提供している[[テキスト解析API:http://developer.yahoo.co.jp/webapi/jlp/]]を使うパッケージで、R上だけで手軽にテキスト解析を行うことが出来ます。 以下の3つの機能をサポートされています。 - 形態素解析 - 係り受け解析 - キーフレーズ抽出 ** インストールと読み込み [#z2a64a48] > install.packages("YjdnJlp") > library(YjdnJlp) 要求されたパッケージ XML をロード中です 要求されたパッケージ RCurl をロード中です 要求されたパッケージ bitops をロード中です ** 初期化 [#lb64cf16] > con <- initYjdnJlp("********") # アプリケーションID - アプリケーションIDを持ってない方は、[[こちら:https://e.developer.yahoo.co.jp/webservices/register_application]]から登録してください ** 形態素解析 [#e16bc615] 形態素解析を行うには、MAService関数を使います。 toDataFrame関数で、データフレームに変換することが出来ます。 > txt <- "庭には二羽ニワトリがいる。" > ma.result <- MAService(con, txt) > ma.result.df <- toDataFrame(ma.result) > ma.result.df[, c("surface", "pos", "count")] surface pos count 1 。 特殊 1 2 いる 動詞 1 3 が 助詞 1 4 に 助詞 1 5 は 助詞 1 6 ニワトリ 名詞 1 7 二 名詞 1 8 庭 名詞 1 9 羽 接尾辞 1 ** 係り受け解析 [#ed534ddf] 係り受け解析を行うには、DAService関数を使います。 これもtoDataFrame関数で、データフレームに変換することが出来ます。 > txt [1] "庭には二羽ニワトリがいる。" > da.result <- DAService(con, txt) > da.result.df <- toDataFrame(da.result) > da.result.df chunk.id dependency surface reading baseform pos 1 1 3 庭 にわ 庭 名詞 2 1 3 に に に 助詞 3 1 3 は は は 助詞 4 2 3 二羽 2わ 2羽 接尾辞 5 2 3 ニワトリ にわとり ニワトリ 名詞 6 2 3 が が が 助詞 7 3 -1 いる い い 動詞 8 3 -1 。 。 。 特殊 feature 1 名詞,名詞場所,*,庭,にわ,庭 2 助詞,格助詞,*,に,に,に 3 助詞,係助詞,*,は,は,は 4 接尾辞,助数,*,二羽,2わ,2羽 5 名詞,名詞,*,ニワトリ,にわとり,ニワトリ 6 助詞,格助詞,*,が,が,が 7 動詞,一段,基本形,いる,い,い 8 特殊,句点,*,。,。,。 ** キーフレーズ抽出 [#idbccbb2] Keyphrase関数で、日本語文から特徴的な表現(キーフレーズ)を抽出することが出来ます。 形態素解析、係り受け解析と同様、toDataFrame関数で、データフレームに変換することが出来ます。 > txt <- "東京ミッドタウンから国立新美術館まで歩いて5分で着きます。" > key.result <- Keyphrase(con, txt) > key.result.df <- toDataFrame(key.result) > key.result.df keyphrase score 1 国立新美術館 100 2 東京ミッドタウン 72 3 5分 10
タイムスタンプを変更しない
[[RjpWiki]] Rでテキストマイニングをする場合、RMecabや、RCaBoChaがあるんですが、事前にMecabやCaBoChaをインストールする必要があり、これから始める人にはちょっと敷居が高いところがあるかと思います。 YjdnJlpパッケージは、Yahoo! Japanが提供している[[テキスト解析API:http://developer.yahoo.co.jp/webapi/jlp/]]を使うパッケージで、R上だけで手軽にテキスト解析を行うことが出来ます。 以下の3つの機能をサポートされています。 - 形態素解析 - 係り受け解析 - キーフレーズ抽出 ** インストールと読み込み [#z2a64a48] > install.packages("YjdnJlp") > library(YjdnJlp) 要求されたパッケージ XML をロード中です 要求されたパッケージ RCurl をロード中です 要求されたパッケージ bitops をロード中です ** 初期化 [#lb64cf16] > con <- initYjdnJlp("********") # アプリケーションID - アプリケーションIDを持ってない方は、[[こちら:https://e.developer.yahoo.co.jp/webservices/register_application]]から登録してください ** 形態素解析 [#e16bc615] 形態素解析を行うには、MAService関数を使います。 toDataFrame関数で、データフレームに変換することが出来ます。 > txt <- "庭には二羽ニワトリがいる。" > ma.result <- MAService(con, txt) > ma.result.df <- toDataFrame(ma.result) > ma.result.df[, c("surface", "pos", "count")] surface pos count 1 。 特殊 1 2 いる 動詞 1 3 が 助詞 1 4 に 助詞 1 5 は 助詞 1 6 ニワトリ 名詞 1 7 二 名詞 1 8 庭 名詞 1 9 羽 接尾辞 1 ** 係り受け解析 [#ed534ddf] 係り受け解析を行うには、DAService関数を使います。 これもtoDataFrame関数で、データフレームに変換することが出来ます。 > txt [1] "庭には二羽ニワトリがいる。" > da.result <- DAService(con, txt) > da.result.df <- toDataFrame(da.result) > da.result.df chunk.id dependency surface reading baseform pos 1 1 3 庭 にわ 庭 名詞 2 1 3 に に に 助詞 3 1 3 は は は 助詞 4 2 3 二羽 2わ 2羽 接尾辞 5 2 3 ニワトリ にわとり ニワトリ 名詞 6 2 3 が が が 助詞 7 3 -1 いる い い 動詞 8 3 -1 。 。 。 特殊 feature 1 名詞,名詞場所,*,庭,にわ,庭 2 助詞,格助詞,*,に,に,に 3 助詞,係助詞,*,は,は,は 4 接尾辞,助数,*,二羽,2わ,2羽 5 名詞,名詞,*,ニワトリ,にわとり,ニワトリ 6 助詞,格助詞,*,が,が,が 7 動詞,一段,基本形,いる,い,い 8 特殊,句点,*,。,。,。 ** キーフレーズ抽出 [#idbccbb2] Keyphrase関数で、日本語文から特徴的な表現(キーフレーズ)を抽出することが出来ます。 形態素解析、係り受け解析と同様、toDataFrame関数で、データフレームに変換することが出来ます。 > txt <- "東京ミッドタウンから国立新美術館まで歩いて5分で着きます。" > key.result <- Keyphrase(con, txt) > key.result.df <- toDataFrame(key.result) > key.result.df keyphrase score 1 国立新美術館 100 2 東京ミッドタウン 72 3 5分 10
テキスト整形のルールを表示する