Amazon SageMaker Studio Labは、無料かつ簡単にデータサイエンスを学び始めることができる環境です。
🆓 Free
- Amazon SageMaker Studio Labは無料で利用ができます。必要なのはメールアドレスのみです。
Open
- Studio LabはオープンソースのJupyterLabをベースにしています。
- コードの補完や見出しの作成など、コミュニティで開発された便利な拡張機能も利用できます。
🔰 Easy
- Pythonが実行できる、Jupyter Notebookが作成できる環境があらかじめ構築されています。
- Gitが標準でインストールされており、GUIからも使用できます。
📚 Community
- コミュニティを通じて、Studio Labでデータサイエンスが学べる教材やデータ分析の実装が共有されています。
- GitHubで検索して見つけることもできます。
🚀 SageMakerへの移行が可能
- Studio Labで作成したプロジェクトは、AWSのSageMakerへ移行することができます。
- 学ぶだけでなく活用したい方にとって必要なサービス機能と学習教材を提供しています。
本リポジトリでは、データサイエンティスト協会の定義を参照しデータサイエンス、データエンジニアリング、ビジネスの3つのカテゴリに分けて教材を紹介します。
Studio LabでJupyterLabで動かせる教材はStudio Labで動かせますが、特に「Open in Studio Lab」のボタンがあると簡単にStudio Labで開くことができます。Open in Studio Labボタンの設置方法は"Open in Studio Lab ボタンの設置方法"をご参照ください。
東京工業大学 情報理工学院で使用されている機械学習の教材です。Pythonの基本的な文法はもちろん、Numpy、Matplotlibといった機械学習に欠かせないライブラリの使い方についても解説されています。
教材の詳細とStudio Labでの学び方は、Python 早見帳が SageMaker Studio Lab からすぐに学べるようになりましたをぜひ参照してください。
Python早見帳と同じく、東京工業大学 情報理工学院で使用されている機械学習の教材です。教材内容の解説と確認問題の実装をmlnote-noteで公開しています。
教材の詳細とStudio Labでの学び方は、機械学習帳が SageMaker Studio Lab からすぐに学べるようになりましたをぜひ参照してください。
プログラミングの基本、統計入門、前処理、機械学習などを、R・Python対訳・対照で学ぶ書籍です。書籍に掲載されたコードのほかに、Amazon SageMaker Studio Labのための仮想環境構築法もサポートサイトで公開されています。GPUを使った深層学習もAmazon SageMaker Studio Labで動作確認済みです。
Amazonが社内の機械学習教育で使用している教材です。自然言語処理、テーブルデータ、画像、決定木の4コースで、それぞれApplied Scientistらによる解説動画、スライド、Notebookが提供されてます。
パターン認識と機械学習の書籍で登場するアルゴリズムの実装を行っているリポジトリです。かなり難しい書籍なので、awesome-prml-jaで紹介されている各大学の輪講資料も活用して学ぶことをお勧めします。
- 自然言語処理
- 強化学習
小売のPOSデータを題材に、SQLを使用したデータの抽出方法を学べる教材です。SQL以外にも、Pythonの表計算ライブラリであるpandasやRによる実装方法も解説されています。データサイエンス100本ノック構造化データ加工編ガイドブックとして解説の書籍も発売されています。
教材の詳細とStudio Labでの学び方は、データサイエンス100本ノックがStudio Labからすぐに学べるようになりましたをぜひ参照してください。
本番環境で機械学習モデルを運用するために、学習データの取り込みからモデルのデプロイまで一連のプロセスを自動化するパイプラインを構築する方法を解説した書籍です(モデルの構築よりはデータに絡むため、こちらのセクションで紹介しています)。TensorFlow Extendedを使用してパイプラインを実装する方法、またクラウド環境にデプロイする方法が学べます。付録ではUberやSpotify、Netflixなど著名な企業のパイプラインの構築事例を参照することができます。
教材の詳細とStudio Labでの学び方は、「入門機械学習パイプライン」にSagemaker Studio Labで入門するをぜひ参照してください。
開発したモデルをサービスへ組み込むときアプリケーション開発チームと協力することになりますが、協力するうえで知っておくべきチーム開発のためのGitの機能を重点的に紹介した記事です。Part1ではGitの基本的な使い方、Part2ではPull Requestの送り方などを中心に解説しています。いちばんやさしいGit&GitHubの教本著者による、アニメーション画像を使ったわかりやすい記事になっています。
- Part1: データサイエンティストのための Git 入門
- Part2: データサイエンティストのための Git 入門 チーム開発編
プロダクトを開発するチームが、課題解決の選択肢として機械学習を選択できるようになることをゴールとしたワークショップです。プロダクトマネージャー向けの機械学習入門、ソフトウェア開発者向けハンズオン、プロダクトマネージャー/ソフトウェア開発者/データサイエンティストを交えて行う機械学習のユースケース発見アイデアソンの3つから構成されます。資料はすべてGitHubで公開されています。
企業の開示情報から、ESG評価に関わる記載を抽出するのに自然言語処理を活用する方法を学べるワークショップです。ESG評価の動向と、実際手を動かすハンズオンの2つから構成されています。MSCIやFTSE、RobecoSAMなど代表的な評価機関で採用されているチェックリストを持ちたESG評価手法をベースにしています。
HTML化された決算短信からセグメント情報を抽出する方法が学べるハンズオンです。HTML化された決算短信は、適時開示情報閲覧サービスや、東証上場会社情報サービスで公開されています。BeautifulSoupを用いたHTMLからの情報抽出を基礎から学ぶことができます。
大規模なデータの前処理や学習が必要になっときは、Studio LabからSageMakerへ移行することができます。
Studio Labを採用頂いている授業や事例を紹介します。
- Juliaで学ぶ最適化と機械学習(2024)
- 4840-1054: Media Computing in Practice (Summer 2022)
- NLP若手の会 (YANS) 第17回シンポジウム ハッカソン
- 岐阜大学 2022実践データサイエンティスト育成事業
本リポジトリのメンテナンスを行っているメンバーはAWSに所属していますが、コミュニティ活動の一環として行っておりAWSの事業とかかわりはありません。
教材の追加やリポジトリ内のコンテンツの修正はIssues、またPull Requestsよりお送りください。