Udemy の 【世界で2万人が受講】実践 Python データサイエンスを受講してみました。 104講義、合計17.5時間もの動画で Jupyter を使ったデータ解析の説明が受けられます。 私が申し込んだ時は定価が2万円を超えていて、キャンペーン価格で6,000円でした。でも今は定価が6,000円さらにそこから30% OFF の4,200円なんですね… 内容はまず anaconda で環境構築。anaconda だからハマらないし楽ちん。環境構築に時間を割かれなくて良いです。 その後は次のような内容となっていました。
- numpy の Array の説明
- pandas の Series, DataFrame の説明
- 外部データの読み込み
- データ操作
- matplotlib を使ったデータの可視化
- seaborn を使ったデータの可視化
- タイタニックの乗船者情報を用いたデータ解析
- 株価データを分析
- アメリカ大統領選挙のデータを解析
- scikit-learn を使った機械学習
- 機械学習 線形回帰
- 機械学習 ロジスティック回帰
- 機械学習 多クラス分類 ロジスティック回帰
- 機械学習 多クラス分類 k近傍法
- 機械学習 サポートベクトルマシン(SVM)
- 機械学習 ナイーブベイズ分類
- 機械学習 決定木とランダムフォレスト
- 統計入門 離散一様分布
- 統計入門 連続一様分布
- 統計入門 二項分布
- 統計入門 ポアソン分布
- 統計入門 正規分布
- 統計入門 標本と母集団
- 統計入門 t分布
- 統計入門 仮説検定
- 統計入門 カイ二乗分布を使った検定
- 統計入門 ベイズの定理
- SQLとPython
- Webスクレイピング
動画は手を動かしながら見るためだと思われますが、非常にゆっくりです。 最初は気づきませんでしたが再生速度を変更できるため、手を動かさずに見るだけの場合は1.5倍速で見ていました。便利。 スマホアプリでは端末にダウンロードしておくことが可能なので通勤電車内でも快適です。 閲覧期限も無いのでいつでも何度でも見直すことができます(サービスが終了しなければ…) この講義の難点は音が小さいこと。スマホでこの動画に合わせて音量を最大にしたままにしておくと、次に音楽を再生した際などに爆音で困ります… 最初のうちは「へー、numpy や pandas って便利なんだな」と思いつつもちょっと退屈でしたが、タイタニックの回以降は「なるほどなるほど」という感じでした。株価の予測はそんなのでは儲からんでしょ?とも思いましたが、実際にどういう場合にどの機能を使うのかがわかってきます。 その後の「機械学習」はそれぞれの学習アルゴリズムの原理が説明されて、これまたなるほどぉと。そして SciKit Learn はなんて便利なんでしょうと。 先日 Microsoft Azure Machine Learning のハンズオンをやって、ブラウザ上で線をつなぐだけで機械学習の学習と Web API 化があっという間に出来上がるというのを体験しましたが、SciKit Learn 使えばそれと大差ないんじゃないか?ってくらい簡単に実装できそうです。Azure の方はサーバーとか不要だから運用とか考えたらもちろんもっとずっと簡単。 Jupyter の便利さがよくわかる講義でした。Jupyter は便利だけれども大きなデータセットでは実行にそれなりのリソースが必要です。こうなるとクラウドで BigQuery のデータも使える Google Cloud DataLab は超便利なんじゃない? 当然ながらこれを受講したからといっていきなりデータサイエンティストになれたりはしませんが、興味をもつきっかけになります。Jupyter がどんなものか知らなかった私にとってはその便利さに驚きこれは使っていきたいと思いました。データ分析に必要な数学、統計学的な知識もさわりだけ紹介されるので興味を持ったらその先は自分で勉強する必要があります。良い練習用の課題なんかがあればもっと身につくものになるかもしれません。 Jupyter のファイル .ipynb は JSON のようですが GitHub では HTML にして描画してくれます。グラフなんかも埋め込んであればそのまま表示されます。Jupyter の実行環境がなくても結果の共有ができるんです!GitLab はまだ対応していないようで JSON として表示されます。