DATAFLUCT Tech Blog

データ技術・データサイエンス・MLOps に関するトレンドを追いかけます

教師なし学習の実践 主成分分析で高次元データを可視化する

こんにちは!nakamura(@naka957)です。今回は、主成分分析(PCA)をご説明します。 主成分分析は教師なし学習の重要手法の1つです。教師なし学習は正解情報なしでデータのパターンを推測する手法です。その中でも、主成分分析は多数の特徴量を少数の特徴…

時系列分析をお手軽に!機械学習ライブラリDartsの解説

こんにちは! 皆さんはAutoMLと呼ばれるツールをご存じでしょうか?AutoMLは機械学習の面倒なデータ処理からモデルの選定、実際に学習を行って予測値を算出するまでを自動で行ってくれる便利なツールです。 今回はその中でもDartsというAutoMLを紹介します。…

PyCaretからAutoVizを使用して探索的データ分析(EDA)を簡単に行ってみる

こんにちは!nakamura(@naka957)です。本記事では、PyCaretで簡単に探索的データ分析を行う方法をご紹介します。 探索的データ分析(Explanatory Data Analysis: EDA)とは、データセットを様々な視点から分析し、データを考察することを目的に行うことで…

データ基盤とは何か? 収集・変換・統制の3つの構成要素に分けて解説

こんにちは。今回は、データ基盤を俯瞰して、全体像を理解してみたいと思います。 突然ですが、皆さんが所属されている会社では、データの活用は進んでいますでしょうか?自社内で、どういう風に、データの活用を進めていくとしても、データ基盤の整備は非常…

【データが少なくても諦めないで!】知っておくべき転移学習について

こんにちは! 皆さんは機械学習モデルを作ろうとした時にデータが少なくても、思ったような精度が出ずに困ったことはないでしょうか。 筆者は機械学習を用いたプロジェクトで、「やりたいことはあるけど....データがない...ッ!」といつも困っていました。 …

機械学習における教師なし学習の理解を深める

こんにちは!nakamura(@naka957)です。今回は、教師なし学習をご説明します。 機械学習では、学習データに正解情報が含まれている教師あり学習への注目が多いかもしれません。一方で、学習データに正解情報を含まない教師なし学習も存在します。教師なし学…

機械学習で知っておくべきデータの種類と構造化・非構造化データとは

こんにちは、DATAFLUCTのSaiです。 今回は機械学習には欠かせないデータについて解説します。データにはどんな種類があるかということと、機械学習する際にデータをどのように扱う必要があるかを一緒に見ていきましょう。 データの種類 1.数値データ 2.画像…

2変数 単回帰分析の実践

はじめに 相関関係とは 相関関係と因果関係 回帰分析 最小二乗法 回帰直線の公式 決定係数 注意点(発展) 補足 回帰分析の実例 まとめ はじめに DATA FLUCTのYamaguchiです。今回は、回帰分析の初歩として、最もベーシックな2変数の回帰分析(単回帰分析)…

そもそも機械学習って何?AIとの違いを知ろう

こんにちは!DATAFLUCTのKazumi.Kです。 この記事では機械学習をより深く理解するためにAI、ディープラーニングとの関係に触れて解説します。AIについても意外と中身は知られていないと思いますので、AI・機械学習・ディープラーニングについて見ていきまし…

図解でわかる、機械学習をどこよりも簡単に解説

はじめまして、DATAFLUCTのSaiです。 この記事では「機械学習」について、AIやディープラーニングの違いに触れながら分かりやすく解説していきます。 また機械学習を知る上で欠かせない AI ディープラーニング 教師あり学習、教師なし学習、強化学習 回帰、…

データドリフトを簡単検知!PythonライブラリEvidentlyを使ってみた

こんにちは!nakamura(@naka957)です。今回は機械学習モデルの運用時で特に問題となるドリフトを検知するOSSをご紹介します。 本番環境のモデル精度が低下する現象をドリフトと呼びます。特にデータ由来をデータドリフトと呼びます。 機械学習はデータから…

機械学習の運用に欠かせないドリフト(Drift)の概念と重要性

こんにちは!nakamura(@naka957)です。 ドリフト(Drift)という言葉をご存知でしょうか?機械学習のサービスを運用する上で重要な項目ですが、知らない人も多いのではないでしょうか。 機械学習プロジェクトは、モデルを構築するまでがゴールではありません…

密度分布を比較するためJoyPyでサクッと重ねてみた

こんにちは!nakamura(@naka957)です。今回は可視化で便利なOSSをご紹介します。1次元密度分布をさくっと描画でき、データの傾向を簡単に比較できます。 JoyPyとは ライブラリの読み込み データセットの準備 Joyplotsを試してみる グラフの色をデザインす…

【続き】 AutoMLライブラリPyCaretを使ってみた 〜結果の描画〜

こんにちは!nakamura(@naka957)です。前回記事に引き続き、機械学習を少ないコードで実装できるPyCaretをご紹介します。 【前回の記事】AutoMLライブラリPyCaretを使ってみた〜モデル実装から予測まで〜 PyCaretとは (復習) 機械学習モデルの実装 結果の…

SHAPで機械学習モデルを解釈してみた

こんにちは!nakamura(@naka957)です。今回は機械学習モデルの解釈するために有用な手法であるSHAPをご紹介します。モデル解釈はデータ分析や機械学習の活用において重要な内容ですので、興味がある方は是非参考にしてみてください。 SHAPとは 機械学習モ…