• 案件・求人一覧
  • お役立ちコンテンツ
  • 単価診断
  • ログイン
  • 会員登録
メニューを開く

Prometheus & Grafanaとは|メトリクス監視の基本・Datadogとの違い・案件単価をフリーランス視点で解説

スキル

最終更新日:2026/06/01

Prometheus & Grafanaとは|メトリクス監視の基本・Datadogとの違い・案件単価をフリーランス視点で解説

Prometheusとは、CNCFを卒業したPull型のメトリクス監視・アラート基盤です。Grafanaは多数のデータソースに対応する可視化ダッシュボードで、Prometheusと組み合わせて使う構成が普及しています。「現場で名前は聞くが、Datadogとの使い分けやフリーランス案件での評価がいまひとつ掴めない」という方に向け、仕組みから案件動向、学習の入口までをまとめました。

先に結論

  • Prometheusは、CNCFを卒業したPull型のメトリクス監視・アラート基盤です。

  • Grafanaは可視化ダッシュボードのデファクトであり、Prometheusとの組み合わせが定番化しています。

  • 設計の主役はPromQLAlertmanagerで、SLO/SLIの運用と相性が良い構成です。

  • Datadogが課金ベースのフルマネージドなのに対し、Prometheus & Grafanaは自前運用が前提のOSSという違いがあります。

  • 公開案件ではSRE・DevOps領域での募集に絡みやすく、Kubernetes運用経験と合わせると評価が伸びやすい傾向があります。

この記事でわかること

  • Prometheus & Grafanaの基本構成と、それぞれが担う役割

  • Pull型スクレイピング・TSDB・PromQLといった主要要素の意味

  • Datadog・Zabbix・CloudWatchとの違いと使い分けの判断軸

  • Kubernetesとの相性が良いとされる理由と、SLO運用への組み込み方

  • フリーランス案件での需要傾向と、評価につながりやすいスキルセット

目次

  • Prometheus & Grafanaの全体像

  • アーキテクチャと主要コンポーネント

  • PromQLの基本と使いどころ

  • Grafanaダッシュボード設計の基本

  • 他の監視ツールとの違い

  • Kubernetesとの相性が良い理由

  • フリーランス案件での需要と単価レンジ

  • 学習ロードマップ

  • よくある失敗と対策

  • 実践チェックリスト

  • まとめ

  • よくある質問

Prometheus & Grafanaの全体像

結論として、両者は役割分担で組み合わさる別プロダクトです。Prometheusがメトリクスの収集・保管・通報を担い、Grafanaは保存先からデータを引いて描画する立ち位置にあります。OSSとして利用でき、自社のクラウド・オンプレ問わず展開できる点が特徴です。

Prometheusとは

Prometheusは、2012年にSoundCloud社内で開発が始まり、2016年にCNCFへ寄贈、2018年に卒業プロジェクトとなったメトリクス監視ツールです。詳細は公式サイトで公開されており、CNCF側のステータスはCNCFのプロジェクト一覧から確認できます。

Pull型のスクレイピングで対象から数値を集め、独自の時系列DB(TSDB)に保管します。表現言語はPromQLで、Alertmanagerと連携してSlackやPagerDuty等への通報まで一通り組めます。

Grafanaとは

Grafanaは2014年に登場した可視化プラットフォームで、Prometheus・Loki・Elasticsearch・MySQL・PostgreSQL・CloudWatchなど多数のデータソースに接続できます。詳細はGrafana公式で確認できます。

ダッシュボードのテンプレートが豊富で、コミュニティが公開する既存ダッシュボードをインポートできる点も普及の追い風です。

なぜセットで語られるのか

Prometheusには簡易UIが付属しますが、運用に耐える可視化機能までは備えていません。Grafana側もデータ保管庫を持たないため、両者を補完的に組み合わせる構成が現場で広まりました。kube-prometheus-stackなど両者をまとめて導入できるHelmチャートが整備されている点も大きいです。

ミニFAQ:

Q. Prometheus単体で運用は可能?

小規模なら可能ですが、ダッシュボードの作り込みでGrafanaに頼るのが一般的です。

Q. GrafanaはPrometheus以外でも使える?

使えます。Datadog・CloudWatch・MySQL・PostgreSQLなど多数のデータソースに対応します。

フリーランスエンジニアの皆様

今の年収、今の働き方に満足してますか?

あなたの理想の案件を
専属コンシェルジュが実現

フリコンに無料会員登録して案件の相談をする

アーキテクチャと主要コンポーネント

主役は4つに整理できます。Prometheusサーバー本体、各種エクスポータ、Alertmanager、Grafanaです。それぞれの役割を押さえると、構成図やドキュメントが読み解きやすくなります。

Pull型スクレイピングの仕組み

Prometheusは監視対象側のHTTPエンドポイントを一定間隔で取りに行く方式を採用しています。エンドポイントは多くの場合 /metrics というパスで、テキスト形式の数値リストを返します。アプリケーションは公式のクライアントライブラリを使って数値を吐き出します。

DBやOSなど直接metricsを返せない対象にはエクスポータを挟みます。代表的なものにnode_exporter(Linux)、mysqld_exporter、blackbox_exporterなどがあります。短命なバッチ処理は逆にPush型のPushgatewayを使う設計もありますが、運用が複雑になりやすくまずPull型で組めるかを検討するのが定石です。

時系列DB(TSDB)の特徴

メトリクスは「時刻 + 値」の連続データとして格納されます。1サンプルあたりの容量を抑える設計で、書き込みスループットを稼ぎやすい仕組みです。

ただしカーディナリティ(ラベル組合せの種類数)が増えるとメモリと容量が爆発します。ユーザーIDやリクエストパスをそのままラベルに入れる設計はアンチパターンとされ、設計初期の判断ミスが運用後半で重く効きます。

Alertmanagerによる通知設計

PrometheusのアラートルールはPromQL式で書きます。発火条件を満たすとAlertmanagerに渡され、Slack・Email・Webhook・PagerDuty等へルーティングされます。重複排除・グルーピング・抑制といった通知側の制御はAlertmanagerが担当します。

構成の役割整理

コンポーネント

役割

備考

Prometheusサーバー

収集・TSDB・ルール評価

単一バイナリで起動可能

Exporters

監視対象との橋渡し

公式・OSSが多数公開

Alertmanager

通知ルーティング

重複排除・抑制を担当

Pushgateway

短命ジョブの一時受け

使いどころは限定的

Grafana

可視化

データソース選択で接続

PromQLの基本と使いどころ

PromQLはPrometheus専用の問い合わせ言語です。SQLのような行指向ではなく、ラベル付き時系列のベクトルを操作する点が特徴です。公式はPromQLの基本ドキュメントで全文公開されています。

よく使う関数の役割

関数・記法

用途

イメージ

rate(metric[5m])

カウンタの増加率

「直近5分の毎秒平均増分」

sum by(label)(...)

ラベル単位の合算

「サービス別に合計を出す」

histogram_quantile(...)

パーセンタイル

レイテンシのp95・p99算出

increase(metric[1h])

区間の増加量

「1時間で何件増えた?」

irate(metric[5m])

直近2点の瞬間値

急変動を見る用途

実務では「単位時間あたりのリクエスト数」「エラー率」「レイテンシ分位点」をPromQLで導出し、Grafana側のパネルに割り当てる流れが定番です。

よく使うクエリ例(概念ベース)

目的

使う関数

コツ

HTTPエラー率

rate + sum by(status_code)

5xxと2xxを比率で出す

レイテンシp95

histogram_quantile

bucketラベル設計が前提

CPU使用率

irate(node_cpu_seconds_total)

modeラベルで除外を入れる

サービス稼働率

up{job="..."} の平均

up=1/0をSLO算定に活用

ミニFAQ:

Q. SQLが書ければPromQLも書ける?

書けるようになるまで時間はかかります。考え方がベクトル演算寄りなので、SQL感覚のまま書くと詰まります。

フリーランスエンジニアの皆様

今の年収、今の働き方に満足してますか?

あなたの理想の案件を
専属コンシェルジュが実現

フリコンに無料会員登録して案件の相談をする

Grafanaダッシュボード設計の基本

Grafanaの強みはJSONで定義できる宣言的ダッシュボードにあります。Gitで構成管理できるため、ダッシュボードもアプリ本体と同じように継続的にレビューできます。

パネル設計の考え方

「1パネル=1つの問い」で設計するのが基本です。「サービス全体は健康か」「特定エンドポイントは詰まっていないか」「どのインスタンスが重いか」といった問いを階層で並べ、上から順に深掘りできる構成を作ります。

色は意味と固定で運用します。エラー=赤、注意=黄、健康=緑のような固定ルールを決めておくと、ダッシュボード間を移動しても直感が維持できます。

共有ダッシュボードの活用

Grafana Labsはコミュニティが投稿した公式ダッシュボード集を公開しています。Kubernetes・Node Exporter・PostgreSQL・MySQL・Nginxなど主要OSSは網羅されており、ゼロから作るより最初は既存テンプレートをインポートしたほうが学習効率が高いです。

他の監視ツールとの違い

メトリクス監視は競合が多い領域です。比較表で違いを整理すると、選定の議論で迷いにくくなります。

主要ツールとの比較

観点

Prometheus & Grafana

Datadog

Zabbix

CloudWatch

提供形態

OSS(自前運用)

SaaS

OSS(自前運用)

AWSマネージド

データ収集

Pull型中心

Agent型・SaaS

Pull/Trap併用

AWSサービスから自動

可視化

Grafana連携

統合UI

内蔵Web UI

CloudWatch Metrics

強み

クラウドネイティブ最適

APM・ログまで統合

古典的監視に強い

AWS連携が極めて簡単

弱み

自前運用の保守負担

利用料が嵩みやすい

クラウドネイティブで弱め

他クラウドでは使いづらい

Datadogとの違い

Datadogはメトリクス・APM・ログ・RUMまで含めた統合SaaSです。導入の速さと操作性に強みがある一方、ホスト数・カスタムメトリクス数・ログ取り込み量で料金が膨らみやすい構造になっています。Datadogの全体像はDatadogとは|統合監視SaaSの特徴・Sentryとの違い・案件単価を徹底解説に整理しています。

Prometheus & Grafanaは運用工数を社内で負う代わりに費用を抑えられる選択肢です。Kubernetes主体の現場や、可視化を細かく作り込みたいチームから選ばれやすい傾向があります。

ZabbixやCloudWatchとの違い

Zabbixはハードウェア・ネットワーク機器の監視に古くから強く、SNMPトラップなどの老舗プロトコルへの対応が手厚いツールです。クラウドネイティブな環境では、近年Prometheus & Grafana側が選ばれるケースが目立ちます。

CloudWatchはAWSサービスとの統合の手軽さが強みですが、マルチクラウド・オンプレを横断する用途には向きにくい設計です。AWS基盤の細部はCloudWatchで見つつ、横断ビューはPrometheus & Grafanaで持つような併用も実務では見られます。AWS基盤についてはAWS EC2とはGCP Cloud Runとはも合わせて参考にしてください。

ミニFAQ:

Q. Datadogを使っているがPrometheusも触れたい場合は?

DatadogはPrometheusのexporterからデータを取り込めるため、段階的移行や併用構成が可能です。

フリーランスエンジニアの皆様

今の年収、今の働き方に満足してますか?

あなたの理想の案件を
専属コンシェルジュが実現

フリコンに無料会員登録して案件の相談をする

Kubernetesとの相性が良い理由

Prometheus & Grafanaが急速に普及した最大の理由は、Kubernetes運用と相性が良かった点にあります。Kubernetes自体の解説はKubernetesとは、コンテナ全般はDockerとはを合わせてご覧ください。

ServiceMonitorとkube-prometheus-stack

Kubernetes環境では、Helmチャートkube-prometheus-stackを入れるだけで、Prometheus本体・Alertmanager・Grafana・Node Exporter・主要ダッシュボード・代表的なアラートルールが一気に整います。ServiceMonitorというCRDを書けば、新しいサービスを自動でスクレイプ対象に組み込めます。

この「設定をマニフェストで宣言する文化」が、KubernetesのGitOps運用と噛み合った結果として広まりました。

SLO/SLIの実装と相性

SLO/SLIの運用は、可用性やレイテンシのメトリクスを安定的に取り続けられる基盤が前提です。Prometheusは長期保存にはRemote Write経由でThanosやMimir等を使う前提があるものの、SLI計算に必要なrate/histogram/up等の演算が言語仕様で揃っています。

SRE職の業務イメージはSREとはで、DevOps全般はDevOpsエンジニアとはで整理しています。

フリーランス案件での需要と単価レンジ

Prometheus & Grafana単体で募集される案件は多くなく、SRE・DevOps・クラウドインフラの案件要件の一部として登場する形が中心です。求人ボックス・doda・主要フリーランスエージェントの公開案件を見る限り、Kubernetes・Terraform・CI/CDと並ぶ要素として記載されているケースが目立ちます。

公開案件で見られる募集傾向

本記事執筆時点(2026年6月)に主要フリーランスエージェント・求人ボックス・doda等で公開されている案件を観測した範囲では、以下の登場パターンが目立ちます。

求人タイプ

Prometheus & Grafanaの位置づけ

関連スキル

SRE

中核スキルとして並ぶ部類

Kubernetes / SLO設計

DevOps基盤構築

CI/CDと並ぶ要素

Terraform / GitHub Actions

クラウドインフラ移行

監視刷新の一環

AWS / GCP / Azure

プラットフォームエンジニア

内製基盤の構成要素の一つ

Helm / ArgoCD

単価への影響と求められる人物像

同じく主要フリーランスエージェントの公開案件(業務委託・週3〜5日稼働)を本記事執筆時点で見比べると、SRE・DevOps領域は月60万円〜120万円前後のレンジで募集されるケースが目立ちます。ただし金額は役割範囲・契約形態・稼働日数・常駐有無・案件のフェーズで大きく振れる点には留意が必要です。Prometheus & Grafana単体のスキルが直接単価を押し上げる構造ではなく、周辺スキルとの掛け合わせで評価されるのが実態に近い見え方です。

評価が伸びやすいのは、Kubernetes本番運用の経験SLO/エラー予算の設計運用まで含めて語れる方です。手元の検証だけでなく、カーディナリティ管理・長期保存設計・アラート運用の改善といった「運用負債を作らない経験」がある方は条件交渉でも強いポジションを取りやすくなります。単価感の全体像はフリーランスエンジニアの単価相場も参考にしてください。

該当しやすい職種別の解説はインフラエンジニアとはクラウドエンジニアとはで扱っています。

ミニFAQ:

Q. 手元検証だけの経験でも案件は取れる?

取れるケースもありますが、本番運用経験との単価差は出やすいです。チュートリアルレベルではなくSLO設計やトラブル対応の話まで語れるかが分かれ目になりやすいです。

フリーランスエンジニアの皆様

今の年収、今の働き方に満足してますか?

あなたの理想の案件を
専属コンシェルジュが実現

フリコンに無料会員登録して案件の相談をする

学習ロードマップ

最短ルートは手元検証から本番運用の周辺知識まで段階的に拡げる進め方です。一気に本番想定で組まず、まず1台のコンテナでPromQLとGrafanaに慣れるのが効率的です。

手元検証(Docker Compose)

Docker Composeでprometheus・grafana・node_exporterの3コンテナを立てる構成が、最初の入口に向いています。設定ファイルを書き換えながらPromQLとGrafanaパネルの挙動を確かめると、概念が掴みやすくなります。Dockerの基本はDockerとはで確認できます。

クラウドでの試行

手元で慣れたら、kube-prometheus-stackをminikubeやkindに入れて、Kubernetes側からの取り込みを体験すると一段深まります。クラウドでマネージドKubernetes(EKS・GKE等)を立てる場合は、土台となるAWS EC2のIaaS知識が前提になります。サーバレス文脈(GCP Cloud Run等)にも応用したい場合は、Pull型との相性に注意が必要です。

本番運用に必要な周辺知識

本番で安定運用するには、長期保存(Thanos/Mimir/Cortex)、HA構成、Federation、Remote Write、Recording Rulesといった発展トピックが避けられません。これらを最初から触る必要はないものの、用語と狙いを理解しておくと面接で評価されやすい領域です。

よくある失敗と対策

実務でつまずきやすい代表パターンを3つ挙げます。設計初期に手当てしておくと、運用後半の負担が大きく変わります。

失敗1:カーディナリティ爆発

リクエストパス・ユーザーID・トランザクションIDをそのままラベルに含めると、ラベル組合せが指数的に増えてPrometheus本体のメモリが破綻します。ラベルは「集計したい軸」だけに絞るのが原則です。

失敗2:長期保存の設計不備

Prometheus単体は短期保存(数週間〜数か月)が前提の設計です。コンプライアンスや遡及分析の要件があるなら、Thanos・Mimir・Cortex等を組み合わせるか、Datadogのような長期保存込みのSaaSと役割分担します。

失敗3:アラート疲れ

しきい値を細かく刻みすぎると通知が溢れ、重要なアラートが埋もれる事故が起きます。SLO/エラー予算の考え方を取り入れ、「ユーザー影響が出ている」アラートだけを起こす設計に寄せると改善しやすいです。

フリーランスエンジニアの皆様

今の年収、今の働き方に満足してますか?

あなたの理想の案件を
専属コンシェルジュが実現

フリコンに無料会員登録して案件の相談をする

実践チェックリスト

導入・設計時に確認したい項目を整理しました。

カテゴリ

チェック項目

構成

exporter / Alertmanager / Grafanaの役割を分離できているか

ラベル設計

カーディナリティが時間とともに増えない設計か

保存期間

業務要件に合った保存期間と、長期保存先を決めているか

アラート

SLO/エラー予算を基準にした発火条件になっているか

ダッシュボード

Gitで構成管理されているか

認証

Grafanaの認証連携(SSO/OIDC等)を考慮しているか

バックアップ

TSDB・ダッシュボード定義の復旧手順を持っているか

まとめ

Prometheus & GrafanaはOSSのメトリクス監視・可視化基盤として、Kubernetesを中心とするクラウドネイティブ環境で採用例が多い部類に入る選択肢です。Datadogのようなフルマネージド型と比べると運用工数を自社で負う性質はありますが、費用とカスタマイズ性で優位に立てる構成です。

要点を整理します。

  • 役割分担:Prometheusが収集・保存・通報、Grafanaが可視化を担う構成

  • 強み:Kubernetes連携・PromQLの表現力・OSSコミュニティの厚み

  • 弱み:自前運用の保守負担と、カーディナリティ・長期保存の設計難易度

  • 使い分け:DatadogはSaaSで一括、Prometheus & GrafanaはOSSで作り込みたい現場向き

  • 案件動向:SRE・DevOps領域で採用例の多い部類。Kubernetes本番運用経験と合わせると評価が伸びやすい

  • 学習順序:Docker Composeでの手元検証 → Kubernetesへの導入 → 長期保存・SLOアラート設計

次のステップとして、まずはローカルでDocker Composeを立ち上げ、PromQLでrateとsum byを書いてみる入口がおすすめです。手元検証で土地勘がついた段階で、SRE・DevOps向けの公開案件を眺めると、求人票の見え方が明確に変わるはずです。フリーランス案件の探し方はフリコンのサービス紹介も合わせてご覧ください。

参照元・一次情報リンク:

よくある質問

AnswerMark

OSSのApache 2.0ライセンスで公開されており、無料で利用できます。ただし運用コスト(人件費・サーバー費用)は自前で持つ必要があり、フルマネージドSaaSとは性質が異なります。

AnswerMark

社内利用の範囲で使われるケースは一般的ですが、ライセンスの解釈は利用形態(社内利用・SaaSとして外部提供・改変配布・OEM等)で変わります。Grafana OSSのライセンス(AGPLv3)と、Grafana Enterpriseの商用ライセンスでは条件が異なるため、配布形態を伴う場合は公式ライセンス条項を確認し、必要に応じて法務にも相談するのが安全です。

AnswerMark

Zabbixは古典的サーバー監視に強く、Prometheusはクラウドネイティブ・コンテナ運用に強いという棲み分けが現場の感触です。ハードウェア中心ならZabbix、Kubernetes中心ならPrometheusが選ばれやすい傾向があります。

AnswerMark

可能です。Datadog側がPrometheusのexporterに対応しているため、既存のPrometheusエコシステムを残したまま、APMや長期保存の部分だけDatadogに寄せるような併用構成も組めます。

AnswerMark

主要フリーランスエージェントの公開案件を見る限り、SRE・プラットフォームエンジニア領域では採用例の多い部類に入ります。ただし「必須」と書かれるかは案件次第で、Datadog経験で代替可と書かれる案件もあります。

AnswerMark

身につきますが、SQLとの違いに最初は戸惑う方が多いです。公式チュートリアルでrate・sum by・histogram_quantileの3つに慣れると、現場のクエリの大半が読めるようになります。

AnswerMark

採用されます。組織のセキュリティ方針や契約要件で外部SaaS利用に制約がある環境(金融・公共・医療等のうち、社内ルールで外部送信が制限されているケース)では、自前運用OSSが候補に上がりやすい傾向があります。業種で一律に決まる話ではなく、案件ごとの要件次第である点に注意してください。

AnswerMark

KibanaやChronografなどがありますが、Prometheusと組む前提ではGrafanaが選ばれることが多い傾向です。データソースの幅広さとコミュニティの厚みで採用例が多い部類に入ります。

AnswerMark

手元検証レベルなら週末の数時間×数週間で動かせます。ただし本番運用に耐える設計(カーディナリティ・長期保存・SLOアラート)まで含めると、Kubernetesや関連OSSの経験と合わせて半年〜1年程度かけて深めるイメージです。

AnswerMark

可能ですが、Pull型の前提と短命関数の特性が噛み合いづらく、Pushgateway経由か、CloudWatchやDatadogとの併用が現実解になりやすいです。サーバレスの基本はAWS Lambdaとはを参考にしてください。

AnswerMark

Googleの公開資料「Site Reliability Engineering」が定番です。「ユーザー影響を基準にアラートを設計する」という発想を掴むと、Prometheus上でのアラートルール設計が楽になります。

AnswerMark

最低限、kube-prometheus-stackをローカルKubernetesに入れ、自作アプリのカスタムメトリクスをScrapeさせ、Grafanaで可視化するところまで自走できると、面談での説明がしやすくなります。

関連するタグ:

インフラエンジニアDockerKubernetesAWSGoogle Cloud Platform

タグからお役立ちコンテンツを探す