Pythonで不芳情報の言葉のカウントをする
ランニングできず 英語できず
(1) 企業の自然言語の不芳情報分析を開始する。
$sudo apt-get install libmecab-dev user #mecabインストール
$sudo apt-get install mecab mecab-ipadic-utf8 #辞書のインストール
$pip install mecab-python3 #Pythonライブラィのインストール
すもももももももものうち
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
・Pythonで不芳情報の言葉の数をカウントする
mport pandas as pd
import MeCab
import sys
import collections
#不芳データの読込
df = pd.read_excel("~/yosin/special_info.csv")
dft = df.NLP #不芳情報の自然言語の列
#df = df.dropna()
print(dft)
noun_list = [] # 名詞のリスト
#データの件数毎の処理
for i in dft:
#Mecabの形態素解析の行毎の処理
for l in m.parse (i).splitlines():
if l != 'EOS' and l.split('\t')[3].split(',')[0] == '名詞': # 名詞のみ抽出
noun_list.append(l.split('\t')[0]) # 名詞の追加
noun_cnt = collections.Counter(noun_list) # 名詞毎の数を算出
# 名詞とその数の表示
for word, cnt in noun_cnt.items():
print(word, cnt)
・結果
資金繰り 20
債務超過 12
ショート 19
: