最適化問題のアルゴリズムのうち、関数の勾配を使うアルゴリズムの総称。
ほぼ全ての勾配法のアルゴリズムが最小解ではなく局所解を探索するアルゴリズムとなっている。そのため、多数の初期値から探索を行う必要がある。また、どのような局所解にたどり着くかは初期値の影響を受けるため、適切な初期値を選択する必要がある。
最急降下法とは 最急降下法(Steepest Descent Method)は、最適化アルゴリズムの一種であり、特に連続関数の最小値を見つけるために使用されます。最急降下法は、与えられた関数の勾配(または導関数)の逆方向に進みながら、関数の最小値に近づくことを目指します。 最急降下法による最小値の算出 最急降下法の手順 関数を定義します。 初期値を設定します。これは、最急降下法が最小値の近くから探索を開始する場所です。 勾配ベクトル(または導関数)を計算します。勾配は、関数が最も急な上昇方向を示すベクトルです。 勾配の逆方向に移動します。これにより、関数の値が減少します。 アルゴリズムが収束す…
機械学習のオプティマイザーは、モデルのパラメータを最適化するためのアルゴリズムです。モデルのパラメータを最適化することは、訓練データに適合するようにモデルを調整することを意味します。 代表的なオプティマイザー 確率的勾配降下法(Stochastic Gradient Descent, SGD) モデルのパラメータを更新するための基本的なオプティマイザーです。各訓練データのバッチごとに勾配を計算し、勾配の逆方向にパラメータを更新します。 ミニバッチ学習にはSGDが使われます。 モーメンタム(Momentum) SGDの改良版で、過去の勾配情報を考慮してパラメータの更新を行います。モーメンタムは、…
備忘録です。 今回は、仕組みではなくディープラーニングに関する用語をまとめた備忘録。ざっとチェックできるように記述します。
記念すべき第一回目の投稿です。 私、現在データサイエンティストとして、e-commerce系の大手会社で勤めております。 機械学習系のブログや数多くのリソースが増え知見を得ることが簡単になっています。私自身、web上で検索して数多くの知見を得ることができました。例えば、「ランダムフォーレストとは」と検索するだけで、分かりやすく解説をするブログに出会すことがあります。場合によっては、本を見つけて読むよりも、効率的かもしれません。論文を読みつつ、その論文を解釈する誰かのブログを読むことによって、“一緒に”論文を読んでいる気分になったりもしました。私自身ブログを始めるべきかどうか長い間考えた結果、始…
機械学習を勉強してきて、 ”勾配って何だろう??” と分からなくなってきました。。。勾配は関数の傾きであり偏微分することで計算可能であることは分かります。 分かりますが、具体的にどんなもの?? と疑問に思ってしまいました。。っということで、勾配を可視化してみることにしました!! ■勾配を確認するにあたって用いる関数 ■勾配グラフ化ソースコード ■勾配グラフ結果 ■確認関数のグラフ化 ■最後に (adsbygoogle = window.adsbygoogle || []).push({}); ■勾配を確認するにあたって用いる関数 今回用いる関数はそれぞれ、 で確認してみたいと思います!! ■勾…
書籍「ゼロから作るDeep Learning ❹ 強化学習編」を読んで強化学習について理解した内容を書いています。1章 バンディット問題 強化学習が他の学習と大きく異なる特徴は、エージェント(ロボットなど)が環境との相互作用の中で学習すること。 2章 マルコフ決定過程 3章 ベルマン方程式 4章 動的計画法 5章 モンテカルロ法 6章 TD法 7章 ニューラルネットワークとQ学習 8章 DQN 9章 方策勾配法 10章 さらに先へ ※強化学習について自分なりの解釈 強化学習は、人間が試行錯誤で色々な行動を試しながら、結果が良かった(成功した)行動は継続して、結果が悪かった(失敗した)行動は繰り…
ベイズ最適化に興味がありガウス過程を学びたいと思ったので以下の本を読んだ。 ガウス過程と機械学習 (機械学習プロフェッショナルシリーズ)作者:持橋大地,大羽成征講談社Amazon 一周目なので細かい式変形は追っておらず、まず大枠の導出の流れを理解することで妥協したが、結局実装部分がわからないとピンとこないので、そこだけPythonで実装した。といっても本に疑似コードが載っており、それをほぼそのまま写すだけ。 まず、1次元の関数が未知のものとしてあり、の11点についてノイズありで値が与えられるので関数を回帰する問題設定でやってみた。 main_1d.py """Gaussian Processの…
Stable Diffusion 3は、Flow Matchingが使用されており、Flow Matchingは最適輸送とも関連するということなので、積んでおいた「最適輸送の理論とアルゴリズム」を読んだ。数式をほとんど読み飛ばして読んだまとめである。 以下の内容は、ほとんどClaude3 Opusを使用して作成している。 概要 第1章 確率分布を比較するツールとしての最適輸送 最適輸送は確率分布を比較するためのツールであり、KLダイバージェンスと比較して、距離構造を捉えられる、距離の公理を満たす、サポートが一致していなくても定義できる、分布の対応関係を得られる、などの利点がある。本書では、ヒス…
毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って 「初級&中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない 逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらい という課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる&僕自身がその流れにつ…
ICA がらみでグラスマンとかシュティーフェルとかフラッグとかの行列多様体上の最適化問題の研究をしていた時期があります。接空間上の勾配法だと基本的には制約付き最適化とかなのでラグランジュの未定乗数法の計算とかで私のような素人でもちょっとは計算できました。 筆頭著者の Absil さんは私は直接面識はないですが西森さんが Absil 君呼びしているので若い人だと思います。私はあんまり人を君呼びするのに慣れていません。なんとなく情報数理にだいぶ後の方で入ってこられた藤木さんとか西森さんは君呼びすることもありますが、その程度でしょうか。不遜なことに杉山将さんもついつい君呼びすることがありますが、彼は…
この記事ではモデル予測制御(Model Predictive Control, MPC)についてまとめます。モデル予測制御について説明した動画や関連記事リンクは最下部に置いています。モデル予測制御は,様々な制御問題に利用可能でかつ合理的な入力を生成することができる汎用的な制御手法です。MPCの応用領域やアルゴリズム,利用時に注意すべき点などについて述べた記事になります。本記事は概要を理解するための入門的な内容であり,数式はありませんので,実装する場合は関連書籍や文献を参考にして頂ければと思います。 モデル予測制御とは MPCと応用領域 モデル予測制御における最適化問題 モデル予測制御のアルゴリ…
強化学習とは、AIが自ら試行錯誤しながら最適な行動を学習する技術のことです。強化学習は、ゲームや囲碁などの複雑な環境で人間を超える性能を発揮することができるという点で、注目されています。しかし、強化学習にはまだ解決すべき課題も多くあります。今回のブログでは、強化学習の基本的な仕組みと、その課題と展望について紹介します。強化学習の仕組み 強化学習では、AIはエージェントと呼ばれる主体として、環境と相互作用します。 エージェントは、環境から得られる観測や報酬というフィードバックに基づいて、自分の行動を選択します。 報酬は、エージェントの目的に沿った行動をしたときに与えられる数値で、エージェントは報…
はじめに こんにちは、中村です。 機械学習が扱う様々なタスクの中に、複数の予測を同時に要求されるタスクがあります。 例えば、複数の候補をユーザに提示する検索や推薦は、これに該当すると考えることができます。 一般的には、候補のスコアに基づくランキングを利用する形で複数の予測を得ることができます。 今回は特殊なケースとして、予測の数がkに固定されている状況を考えます。 ランキングが得られていれば上位k個を選択するだけで簡単に要件を満たせます。一方で、 そもそもk個返すことが決まっているのなら候補をk個選択するための学習を考えてみたくなります。 本記事では候補の集合から上位k個を選択する問題(top…
実験の結果が Atari 100k ベンチマークで、Human Normalized ScoreのIQM(26ゲーム中の上位25%と下位25%を除いた中間50%ゲームについての平均スコア)が1.045 学習時間は6 hours on single GPU とのことであり、魅力的。 Max Schwarzer氏(Google DeepMind)が筆頭著者として関わっている一連の研究があるようだ。 SPR(Self-Predictive Representations) Data-Efficient Reinforcement Learning with Self-Predictive Repre…
G検定を受けるにあたり、用語を整理する。自分の学習用である。 あ~ アンサンブル学習 バギング ブースティング スタッキング オートエンコーダ 変分オートエンコーダ(VAE) オントロジー か~ カーネルトリック 画像セグメンテーション セマンティックセグメンテーション インスタンスセグメンテーション パノプティックセグメンテーション 機械学習 教師あり学習 分類 回帰 教師なし学習 強化学習 エージェント 環境 状態 行動 報酬 Q学習 Sarsa モンテカルロ法 クラスタリング 階層クラスタリング 非階層クラスタリング ハードなクラスタリング ソフトなクラスタリング 交差検証 ホールド・ア…
本日紹介するのは、岡野原大輔著「大規模言語モデルは新たな知能か」。 著者の岡野原氏は日本が誇る天才集団、Preferred Networksの共同創業者として著名である。学生時代には言語モデルを研究していたらしく、まさに大規模言語モデルを語るのにふさわしい人物だ。 本書は130ページ程度と薄めで、かつ説明レベルは一般向けである。しかしその情報密度は驚くほど濃い。特に後半の5章6章あたりの大規模言語モデルの仕組みに踏み込む部分は読んでいて情報に酔ってしまった。本書は、ChatGPTのハウツーからは一歩離れ、ストイックに大規模言語モデルの原理を考察したい人にお勧めである。大規模言語モデルは事前にロ…
以前オーム社の『機械学習入門 ボルツマン機械学習から深層学習まで』と『ベイズ推定入門 モデル選択からベイズ的最適化まで』を読み、そのときにそれらの書籍に生起する語彙をまとめていた。 本項にはそれを並べる。 なお、語がなにを意味していたかをほとんど私は既に忘れている。 『機械学習入門 ボルツマン機械学習から深層学習まで』 機械学習入門 ボルツマン機械学習から深層学習まで作者:大関真之オーム社Amazon URN urn:isbn:9784274219986 語彙 誤差関数 座標降下法 最急降下法 汎化性能 過学習 交差検証 訓練データ→テストデータ 活性化関数→非線形変換 多層ニューラルネットワ…
最近は状態や報酬などを系列データとして扱う強化学習に興味が出ている。端的に言えばDecision Transformer1 のことになる。 特に、エピソードをまたいだ(across-episodicな)長い系列を入れることに可能性を感じる。着目点は違うが、やっていることとしてはAlgorithm Distillation2に近い。個人的に期待するacross-episodicの良い点としては、体験した成功例・失敗例をそのまま有効活用してサンプル効率を高めることにある。明示的な体験の参照ができない状況では、ニューラルネットのパラメータに勾配法で知識が反映されるまで例を活かすことができないが、それ…
最近『異常検知と変化検知』を読んでたら思わぬところで半正定値計画問題が出てきたので、その話をしてみたい。 異常検知と変化検知 (機械学習プロフェッショナルシリーズ)作者:井手剛,杉山将講談社Amazon これは数理最適化 Advent Calendar 2023の3日目の記事です。 ※はてなブログの数式表示がちょっとおかしいかも。。。 線形計画問題と半正定値計画問題 数理最適化でお馴染みの問題といえば、線形計画問題: これを拡張したものとして半正定値計画問題がある: ただし、をn次実対称行列の集合として、であり、は行列が半正定値行列であること、すなわちであることを意味する。 また、は行列の内積…
あまり好ましくない業務が今週にまで食い込んでいたが、なんとかやりきったと思う。いや、若干不穏なところはいくらかあるが……。1年前から考えると状況は良くなっているのに、それでもこんなもんかという気持ちにはなってしまう。 DPO 週の特に前半でDPOの論文をわりと時間かけて読んでいた。 その1 その2 別にRLHFなんてやってみたことはないが、面倒くさそうではあり、その大変そうな工程を簡略化できるなら嬉しそう。それに、これ場合によっては一般の強化学習にも影響してくるのではないかと思った。報酬を定義より良い行動/悪い行動の順序付けの方が簡単、という状況はいくらかありそうだ。深い探索と浅い探索(あるい…