潜在意味解析
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | ###### # 豊田秀樹.(編著).(2008).『データマイニング入門-Rで学ぶ最新データ解析』東京:東京図書. # MeCabをインストールしておく library (RMeCab) ###### # 特異値分解用の関数 source ( "C:/...LSA.txt" ) ###### # 語句ー文書行列の作成:テキストファイルのあるディレクトリを指定 doc <- docMatrix ( "C:/...LSA" ) ###### # 頻度2以下のデータを削除 (任意) doc.f <- Kyoki (doc, minDocFreq = 2) ###### # 特異値分解 svd.doc <- svd (doc.f) ###### # 次元縮約:次元数は[Σ(任意の次元までの特異値)/Σ(対角行列)]で判断 rslt <- dimReducShare (svd.doc, share = 0.5, doc = doc.f) ###### # 近似行列の再構築 rslt $tk %*% diag (rslt $sk ) %*% t(rslt $dk ) ###### # 関連度の計算 library (lsa) LSAspace = lsa (doc.f, dims = dimcalc_share()) NewMatrix = as .textmatrix (myLSAspace) associate (NewMatrix, "WORD" , threshold = -1) # 1. 計算の前にデータフレームが行列かを確認すること: is.matrix() # 2. 行列に変換する場合は as .matrix() |