DATAFLUCT Tech Blog

データ技術・データサイエンス・MLOps に関するトレンドを追いかけます

データ抽出に特化したAirbyteによるEL(T) 環境構築の実践

こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か…

Metaflowでモデルの学習をpipeline化するまで

皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

Responsible AI (責任あるAI)を支える5つの技術トピックを解説

本稿は近年注目を集めているResponsible AI(責任あるAI)の実現をサポートする技術トピックとそれぞれのトピックの実現をサポートするツール群を紹介します。 AI が引き起こす問題 Responsible AI とは? Responsible AI が満たすべき原則 技術トピックと6つ…

PyCaretとMLflowで機械学習の実験を簡単に実行・記録する

こんにちは!nakamura(@naka957)です。今回はPyCaretとMLflowを用いたAutoMLと実験記録を連携した活用方法をご紹介します。今回は様々な機械学習アルゴリズムの比較・モデル実装に加えて、行った実験記録の管理を簡単に行う方法をご紹介します。実施事項が…

機械学習 実践 - クラスタリングでデータ間の関係を把握する

こんにちは! nakamura(@naka957)です。 今回はクラスタリングをご説明します。クラスタリングは教師なし学習に代表される手法の1つで、正解情報なしでデータ間の類似性を推定し、グループ化する手法です。DATA Campusでは、これまでに教師なし学習の概要…

WordCloudの弱点と精度を高めるための形態素解析について

みなさん、こんにちは。DATAFLUCTのKazumiです。 前回の記事( WordCloudで小説の特徴を テキストマップ化してみた )でWordCloudを用いたテキストマップの作成を紹介しました。そこではWordCloudを使って、テキスト内でよく使われる単語を可視化できました…

MLflowの環境構築を解説〜Docker Composeを用いてデータ分析環境と実験記録の保存場所を分けて構築〜

こんにちは!nakamura(@naka957)です。今回はDocker Composeを用いたMLflowの環境構築方法をご説明します。 前回の記事 ではMLflowの初心者向けチュートリアルをご紹介しました。MLflowを用いることで、実験記録の管理を簡単に行えることを解説しています…

お手軽で高速なFastAPIでCloudRunに推論APIを公開するまで

FastAPIとは 特徴 API作成までの手軽さ Flaskよりも非常に高速 ドキュメントの自動生成 簡単なAPIを作る インストール シンプルなGETのAPIを作る 自動生成されるドキュメント 推論APIを作る 学習済みモデル(.pkl)の読み込み リクエストボディから推論を行う …

文系出身のデータサイエンティストが実践してきた勉強法を徹底解説

こんにちは! AIがトレンドとなって世間で騒がれる中、『文系だけどAIの開発ができるようになりたい!』と思う方も多いのではないでしょうか。 今回は文系出身の私、小笠原がAIにも通ずるデータサイエンスの知識を得るまでに行った勉強方法を紹介します。デ…

機械学習を利用するコンポーネントの継続的な性能検証と Locust を利用した負荷テストの実施方法

こんにちは。本稿では機械学習を利用したコンポーネントの処理速度の計測方法、および負荷テストのやり方について解説してゆきます。 機械学習を利用するコンポーネントの処理速度を計測する必要性 機械学習アルゴリズムを適用する関数の処理速度を検証 実行…

MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 -

こんにちは!nakamura(@naka957)です。今回はMLflowをご紹介します。 読者の皆さんは、機械学習モデルのハイパーパラメータ調整を手作業で管理し、苦労した経験がないでしょうか。実験記録の管理は大事な一方で、なかなか大変です。 今回紹介するMLflowは…

Tensorflow Data Validationを用いた機械学習用データセットの検証方法

こんにちは!nakamura(@naka957)です。本記事では、TensorFlowの拡張機能であるTensorFlow Data Validationを用いたデータセット検証を行う方法をご紹介します。 データセット検証とは、機械学習モデルの構築時に使う訓練データと運用データの間の違いを調…

実装方法から読み解くファインチューニングと転移学習の違いとは

ファインチューニングとは 転移学習との違い 実装方法の違い 実装時の2つの注意点 1. 学習済みモデルの全層を更新しない 2.学習率を小さな値にする ファインチューニングの実装 MobileNet V2を使ったファインチューニング 学習可能な層の比較 学習率の比較 …

WordCloudで小説の特徴をテキストマップ化してみた

みなさん、こんにちは。DATAFLUCTのKazumiです。 今回は文章の解析を簡単に知ってもらうために、WordCloudというPythonのライブラリを用いて小説の「テキストマップ」を見ていきます。テキスト中の単語の出現頻度を大きさで表現することで、視覚的に描写する…

時系列分析をお手軽に!機械学習ライブラリDartsの実演

こんにちは! 以前にDartsという時系列分析に特化したpythonライブラリを紹介しました。 前編はこちら 今回は実際にDartsを動かしていきましょう。 Darts内にもデータセットがありますが、公式でも触れられているのであえて、外部のデータを参照してみましょ…