Azure AI Visionとは？画像をAIで分析するサービス

「Azure AI Visionって、何ができるの?」
「画像認識のAIを自分で作らないとダメ?」
「昔のComputer Visionと同じもの?」

机に積もったレシートの束を、スマホで撮るだけで金額と日付が表になる。そんな処理を、AIモデルの自作なしで実現できます。

Azure AI Visionとは、画像に何が写っているかをAIが読み取って返すMicrosoftのサービスです。学習済みモデルが用意され、あなたは画像を送るだけで結果を受け取れます。

この記事では、画像を渡すと何が返るかを場面で追い、5つの機能を整理し、混同しやすい画像分類・物体検出・OCRを切り分け、最後にAI-900での問われ方まで示します。

1 1. 画像を1枚渡すと、何が返ってくるのか
2 2. 5つの分析機能を、目的別に整理する
3 3. 画像分類・物体検出・OCRはどう違うか
4 4. 画像を扱う業務の、どこに効くか
5 5. AI-900では、どの角度で問われるか
- 5.1 次のステップ

1. 画像を1枚渡すと、何が返ってくるのか

Azure AI Visionの使い方は、拍子抜けするほど単純です。あなたが画像をAPI（外部から呼び出せる窓口）に送ると、その中身をAIが読み取り、テキストや数値にして返します。「画像をコンピュータで理解する技術」をコンピュータービジョンと呼び、Azure AI Visionはそれをクラウドで手軽に使えるようにしたものです。

1枚の店内写真を送れば、「棚に飲料が並んでいる」という説明文、物体の位置、書かれた文字が一度に返ります。あなたが画像認識のモデルをゼロから訓練する必要はなく、Microsoftが鍛えたモデルを必要なときだけ借りる形です。

たとえるなら、目の利く検品係を1人雇う感覚です。あなたは品物（画像）を流すだけで、「これは何か」「どこに傷があるか」の見分けと報告はその係が引き受けます。しかも自分で係を育てず、すでに熟練した係を借りられるのが強みです。

なお、Azure AI Visionは以前はComputer Visionという名前で呼ばれていたサービスです。名称が新しくなっただけで、画像を分析するという中身は同じです。新しい資料や試験では「Azure AI Vision」という表記を使います。

2. 5つの分析機能を、目的別に整理する

Azure AI Visionには分析機能がいくつも用意されています。名前を覚えるより、「何を知りたいときに使うか」という目的とセットで押さえるほうが迷いません。代表的な機能を目的別に並べます。

機能	何を知りたいときに使うか	返ってくるもの
画像分類	この写真は何のカテゴリか	1つのラベル（例: 犬）
物体検出	どこに何がいくつあるか	物体の名前＋位置の枠
OCR（文字の読み取り）	画像の中の文字を使いたい	テキストに起こした文字列
説明文生成	写真の内容を一言で表したい	短い説明文
顔の検出	顔の位置を見つけたい	顔のある座標

この中で初心者がいちばんイメージしやすいのがOCRです。看板やレシート、名刺に写った文字を、コンピュータが編集できるテキストに直す機能です。冒頭のレシート処理はまさにこれで、手で打ち直す作業がまるごと消えます。紙の情報をデータにまとめたい場面で、あなたの手間を大きく減らしてくれます。

機能名を丸暗記するより、「1つの答えがほしいのか、位置や個数まで知りたいのか、文字を取り出したいのか」という目的で引き当てる癖をつけてください。目的から機能を選べるようになると、実務でも試験でも判断が速くなります。

3. 画像分類・物体検出・OCRはどう違うか

この3つは、同じ画像を渡しても返す答えの粒度が違います。混同すると道具の選択を誤ります。1枚の駐車場の写真を例に、それぞれが何を返すか並べます。

画像分類: 「この写真は駐車場だ」と、写真全体に1つのラベルを付ける。位置も個数も答えない
物体検出: 「左に車が3台、右にバイクが1台」と、何がどこにいくつあるかを枠で示す
OCR: ナンバープレートや料金看板の文字を、そのままテキストに起こす

知りたいことが「全体が何か」なら画像分類、「どこに何が」なら物体検出、「書かれた文字」ならOCR。この対応さえ握っておけば、選択肢に3つ並んでも取り違えません。物体検出が枠で位置まで示す仕組みは物体検出とはで、文字を読み取るOCRの中身は OCR（光学文字認識）とはでそれぞれ深掘りできます。

実務でつまずきやすいのが、「棚に商品が何個あるか数えたい」のに画像分類を選んでしまうケースです。画像分類は「これは棚です」としか返さないので、個数は出ません。数えたいなら物体検出、と目的に立ち返れば選択を誤りません。

4. 画像を扱う業務の、どこに効くか

機能がつかめたら、次は「どんな仕事に効くか」です。Azure AI Visionは、人が目で見て処理していた作業の自動化に向きます。職場の「目で見て転記する仕事」を思い浮かべてください。

紙の申込書を撮ってOCRで文字を起こせば、手入力の時間が消えます。物体検出を使えば、棚に商品がいくつ並ぶかを写真から数えられます。共通するのは、AIの専門知識がなくても、画像を送って結果を受け取る流れさえ組めば動く点です。

ただし万能ではありません。極端に崩れた手書きや暗くぼやけた画像は、AIも取りこぼします。読み取れなかったものを人が確認する導線まで設計しておくのが、現場で破綻させない勘所です。

画像ではなく文章を分析したいときは、別のサービスであるAzure AI Languageの担当です。Azure AI Visionは「見る」係、Azure AI Languageは「読む・書く」係と役割で分けて覚えると、Azureのサービス群が整理しやすくなります。テキスト側の中身は Azure AI Languageとはでまとめています。

5. AI-900では、どの角度で問われるか

あなたがAI-900（Microsoft Azure AI Fundamentals）を受けるなら、Azure AI Visionはコンピュータービジョン領域の中心です。問われるのは細かい実装手順ではありません。

試験の定番は、「こういう画像の課題には、どの機能が向くか」を選ばせる形です。「レシートから金額を読み取りたい」ならOCR、「写真の内容を一言で説明したい」なら説明文生成、と課題と機能を結びつける力が問われます。第2章で目的別に整理したのは、この角度に効かせるためです。

もう1つ狙われやすいのが、「画像はVision、文章はLanguage」という担当の切り分けです。文章の要約や翻訳の課題にVisionを選ぶ取り違えが、引っかけとして用意されます。「見る係か、読む係か」で一拍おけば、ここで点を落とさずに済みます。

得点の軸は1つです。「課題の言葉から、機能名を引き当てる」。文字を読む→OCR、位置と個数→物体検出、全体のカテゴリ→画像分類、文章の処理→Language。この対応表を頭に入れておけば、Azure AI Vision関連の設問は落ち着いて解けます。

次のステップ

画像系のサービスは他にもあります。まず AI-900（Azure AI Fundamentals）の試験範囲と勉強法ガイドで出題範囲の全体像を見ておくと、その中でVisionが占める位置が見えてきます。

仕上げに AI-900 コンピュータービジョンの問題集で、課題から機能を選ぶ設問を何問か解いておくと、知識が手を動かせる形に変わります。