最近の気になったものブックマーク(2021-03-28)_ML
- Financial Times のデータ提供フロー
- https://medium.com/ft-product-technology/financial-times-data-platform-from-zero-to-hero-143156bffb1d
- 情報ベンダーさんのデータフローチャートの変遷
- 直近(2014)までかなり古典的なな方法だが、その後一気に最新プラットフォームの嵐
- AIrflowというのは初めて知った。このようなjobflow管理があるのんか、しかもpython
- pythonのコードレビュとかで必要なツール一式
- https://github.com/pfnet/pysen
- pythonの自動コードレビューツールflakeなどを集約
- TF2とTorchのベース部分の比較
- https://medium.com/data-science-at-microsoft/a-tale-of-two-frameworks-pytorch-vs-tensorflow-f73a975e733d
- こんな違いがありますよーってやつ。大したことはない
- Torchのほうだとkerasのように簡単なやつがないから、最初はつらいというイメージはある
- 深層学習の気になる部分の理解
- https://drive.google.com/file/d/1bNN6VjsgdpJAqxvZ4EKAPpMGq9wfjHqf/view
- 多層の謎、パラメータの謎、過適合しない謎の3つに対する超わかりやすい答え。
- やばい言葉の除外方法
- https://lilianweng.github.io/lil-log/2021/03/21/reducing-toxicity-in-language-models.html?utm_campaign=piqcy&utm_medium=email&utm_source=Revue%20newsletter
- 言語モデル入力用のデータセットから毒性=差別用語とかを同分類・排除するか
- 社会的背景考慮とかどこからダメなのか問題があるので難しい
- 手法としてはルールベースから敵対的訓練を用いた手法など様々ある
- ここではシステム全体の適用例なども記載あり
- オフラインの強化学習
- https://speakerdeck.com/aiueola/offline-reinforcement-learning?slide=32
- 最近強化学習に少し興味があるので
- オフライン環境下はオンラインと比較して異例ケースの場合の暴走を抑制できる
- ずーっと同じ分布なので、分布シフト問題があるのでうまく行かないこともある
- オフラインで考えるべきは価値ベースでの行動選択→価値の定義に焦点
- Pypolarsっていうpandasの派生版
- https://medium.com/analytics-vidhya/is-pypolars-the-new-alternative-to-pandas-916400f03fd7
- dusk同様、何ができて何ができないのかこの段階では不明。
- 混合確率分布のニューラルネットワーク
- 最初にPRML読んだときにハッ?てなった記憶がある。でも考えてみればものすごく普通。
- 混合分布は凝った前処理とかで前提条件として重要。そもそも結果が正規分布なことなんて全てそうとは言い切れない。
- https://towardsdatascience.com/mixture-density-networks-probabilistic-regression-for-uncertainty-estimation-5f7250207431
- Courseraとかのオンライン講義集。一通り学習する事ができる
- LSTMの入力をVARを用いた特徴量に応用させたぜ。という事例。
- 今週のWeekly Machine Learning
- 今週のWeekly Kaggle News