Pythonのデータ処理方法に疑問を持つ

ランニングできず 英語できず

(1)  Xgboostの結果をAUC指標で計算するプログラムで悩む。Pythonには7つもデータ集団の型がある。皆同じデータの塊だが各々異なるメソッドがあるので、データ処理は相当複雑になる。

 List  Array Table Set  Dictionaly DataForm Series

標準python、numpy、pandasを行ったり来たりするために① - Qiita

データ分析の90%はデータの識別とデータの加工である。モデルロジックは10%しか寄与しない。

データ識別はデータ項目分布や信頼度を確認することで、信頼度の低いデータから作ったモデルは幾ら精度がよくても意味が無い。

データ加工はバラバラなデータを正しく統合し、良い感応度をもつデータに仕上げていくことで、相反したモデル特性である精度と頑健性を高めていく処理である。

RやPythonはこのデータ処理を疎かにして、モデルのロジックのみに注力している様に見える。Pyhton上のロジックがKuggle等のコンペで上位に入賞するのは、コンペ対象がかなり綺麗なデータが提供されているからであり、多分実務にはそれほど生きないかもしれない

(2) 大学の研修でOpenPoseでのデータ取得方法が分り、焦点はこの動画の時系列解析に移ってきた。まずはLSTMやBI-LSTMで分析する方法を考えるが、データが少ない場合は統計的な時系列解析(HMMやカルマンフィルターやARIMA)に頼ることになるかもしれない、厳しい展開が予想される

openpose/output.md at master · CMU-Perceptual-Computing-Lab/openpose · GitHub