Pythonで不芳情報の言葉のカウントをする

ランニングできず 英語できず

(1) 企業の自然言語の不芳情報分析を開始する。

・まず形態要素解析のMecabをインストールする

$sudo apt-get install libmecab-dev user #mecabインストー

$sudo apt-get install mecab mecab-ipadic-utf8  #辞書のインストー

$pip install mecab-python3 #Pythonライブラィのインストー

$mecab  #mecab実行

すもももももももものうち
もも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ

 

Pythonで不芳情報の言葉の数をカウントする

mport pandas as pd
import MeCab
import sys

import collections

#不芳データの読込

df = pd.read_excel("~/yosin/special_info.csv")  

dft = df.NLP   #不芳情報の自然言語の列
#df = df.dropna()
print(dft)

m = MeCab.Tagger()  #Mecab

noun_list = [] # 名詞のリスト

#データの件数毎の処理
for i in dft:

 #Mecab形態素解析の行毎の処理
     for l in m.parse (i).splitlines():
           if l != 'EOS' and l.split('\t')[3].split(',')[0] == '名詞':    # 名詞のみ抽出
noun_list.append(l.split('\t')[0])   # 名詞の追加

noun_cnt = collections.Counter(noun_list)  # 名詞毎の数を算出

# 名詞とその数の表示

for word, cnt in noun_cnt.items():
 print(word, cnt)

・結果

資金繰り  20

債務超過 12

ショート 19