Prometheus & Grafanaとは|メトリクス監視の基本・Datadogとの違い・案件単価をフリーランス視点で解説
最終更新日:2026/06/01
Prometheusとは、CNCFを卒業したPull型のメトリクス監視・アラート基盤です。Grafanaは多数のデータソースに対応する可視化ダッシュボードで、Prometheusと組み合わせて使う構成が普及しています。「現場で名前は聞くが、Datadogとの使い分けやフリーランス案件での評価がいまひとつ掴めない」という方に向け、仕組みから案件動向、学習の入口までをまとめました。
先に結論
Prometheusは、CNCFを卒業したPull型のメトリクス監視・アラート基盤です。
Grafanaは可視化ダッシュボードのデファクトであり、Prometheusとの組み合わせが定番化しています。
設計の主役はPromQLとAlertmanagerで、SLO/SLIの運用と相性が良い構成です。
Datadogが課金ベースのフルマネージドなのに対し、Prometheus & Grafanaは自前運用が前提のOSSという違いがあります。
公開案件ではSRE・DevOps領域での募集に絡みやすく、Kubernetes運用経験と合わせると評価が伸びやすい傾向があります。
この記事でわかること
Prometheus & Grafanaの基本構成と、それぞれが担う役割
Pull型スクレイピング・TSDB・PromQLといった主要要素の意味
Datadog・Zabbix・CloudWatchとの違いと使い分けの判断軸
Kubernetesとの相性が良いとされる理由と、SLO運用への組み込み方
フリーランス案件での需要傾向と、評価につながりやすいスキルセット
目次
Prometheus & Grafanaの全体像
アーキテクチャと主要コンポーネント
PromQLの基本と使いどころ
Grafanaダッシュボード設計の基本
他の監視ツールとの違い
Kubernetesとの相性が良い理由
フリーランス案件での需要と単価レンジ
学習ロードマップ
よくある失敗と対策
実践チェックリスト
まとめ
よくある質問
Prometheus & Grafanaの全体像
結論として、両者は役割分担で組み合わさる別プロダクトです。Prometheusがメトリクスの収集・保管・通報を担い、Grafanaは保存先からデータを引いて描画する立ち位置にあります。OSSとして利用でき、自社のクラウド・オンプレ問わず展開できる点が特徴です。
Prometheusとは
Prometheusは、2012年にSoundCloud社内で開発が始まり、2016年にCNCFへ寄贈、2018年に卒業プロジェクトとなったメトリクス監視ツールです。詳細は公式サイトで公開されており、CNCF側のステータスはCNCFのプロジェクト一覧から確認できます。
Pull型のスクレイピングで対象から数値を集め、独自の時系列DB(TSDB)に保管します。表現言語はPromQLで、Alertmanagerと連携してSlackやPagerDuty等への通報まで一通り組めます。
Grafanaとは
Grafanaは2014年に登場した可視化プラットフォームで、Prometheus・Loki・Elasticsearch・MySQL・PostgreSQL・CloudWatchなど多数のデータソースに接続できます。詳細はGrafana公式で確認できます。
ダッシュボードのテンプレートが豊富で、コミュニティが公開する既存ダッシュボードをインポートできる点も普及の追い風です。
なぜセットで語られるのか
Prometheusには簡易UIが付属しますが、運用に耐える可視化機能までは備えていません。Grafana側もデータ保管庫を持たないため、両者を補完的に組み合わせる構成が現場で広まりました。kube-prometheus-stackなど両者をまとめて導入できるHelmチャートが整備されている点も大きいです。
ミニFAQ:
Q. Prometheus単体で運用は可能?
小規模なら可能ですが、ダッシュボードの作り込みでGrafanaに頼るのが一般的です。
Q. GrafanaはPrometheus以外でも使える?
使えます。Datadog・CloudWatch・MySQL・PostgreSQLなど多数のデータソースに対応します。
アーキテクチャと主要コンポーネント
主役は4つに整理できます。Prometheusサーバー本体、各種エクスポータ、Alertmanager、Grafanaです。それぞれの役割を押さえると、構成図やドキュメントが読み解きやすくなります。
Pull型スクレイピングの仕組み
Prometheusは監視対象側のHTTPエンドポイントを一定間隔で取りに行く方式を採用しています。エンドポイントは多くの場合 /metrics というパスで、テキスト形式の数値リストを返します。アプリケーションは公式のクライアントライブラリを使って数値を吐き出します。
DBやOSなど直接metricsを返せない対象にはエクスポータを挟みます。代表的なものにnode_exporter(Linux)、mysqld_exporter、blackbox_exporterなどがあります。短命なバッチ処理は逆にPush型のPushgatewayを使う設計もありますが、運用が複雑になりやすくまずPull型で組めるかを検討するのが定石です。
時系列DB(TSDB)の特徴
メトリクスは「時刻 + 値」の連続データとして格納されます。1サンプルあたりの容量を抑える設計で、書き込みスループットを稼ぎやすい仕組みです。
ただしカーディナリティ(ラベル組合せの種類数)が増えるとメモリと容量が爆発します。ユーザーIDやリクエストパスをそのままラベルに入れる設計はアンチパターンとされ、設計初期の判断ミスが運用後半で重く効きます。
Alertmanagerによる通知設計
PrometheusのアラートルールはPromQL式で書きます。発火条件を満たすとAlertmanagerに渡され、Slack・Email・Webhook・PagerDuty等へルーティングされます。重複排除・グルーピング・抑制といった通知側の制御はAlertmanagerが担当します。
構成の役割整理
コンポーネント | 役割 | 備考 |
|---|---|---|
Prometheusサーバー | 収集・TSDB・ルール評価 | 単一バイナリで起動可能 |
Exporters | 監視対象との橋渡し | 公式・OSSが多数公開 |
Alertmanager | 通知ルーティング | 重複排除・抑制を担当 |
Pushgateway | 短命ジョブの一時受け | 使いどころは限定的 |
Grafana | 可視化 | データソース選択で接続 |
PromQLの基本と使いどころ
PromQLはPrometheus専用の問い合わせ言語です。SQLのような行指向ではなく、ラベル付き時系列のベクトルを操作する点が特徴です。公式はPromQLの基本ドキュメントで全文公開されています。
よく使う関数の役割
関数・記法 | 用途 | イメージ |
|---|---|---|
rate(metric[5m]) | カウンタの増加率 | 「直近5分の毎秒平均増分」 |
sum by(label)(...) | ラベル単位の合算 | 「サービス別に合計を出す」 |
histogram_quantile(...) | パーセンタイル | レイテンシのp95・p99算出 |
increase(metric[1h]) | 区間の増加量 | 「1時間で何件増えた?」 |
irate(metric[5m]) | 直近2点の瞬間値 | 急変動を見る用途 |
実務では「単位時間あたりのリクエスト数」「エラー率」「レイテンシ分位点」をPromQLで導出し、Grafana側のパネルに割り当てる流れが定番です。
よく使うクエリ例(概念ベース)
目的 | 使う関数 | コツ |
|---|---|---|
HTTPエラー率 | rate + sum by(status_code) | 5xxと2xxを比率で出す |
レイテンシp95 | histogram_quantile | bucketラベル設計が前提 |
CPU使用率 | irate(node_cpu_seconds_total) | modeラベルで除外を入れる |
サービス稼働率 | up{job="..."} の平均 | up=1/0をSLO算定に活用 |
ミニFAQ:
Q. SQLが書ければPromQLも書ける?
書けるようになるまで時間はかかります。考え方がベクトル演算寄りなので、SQL感覚のまま書くと詰まります。
Grafanaダッシュボード設計の基本
Grafanaの強みはJSONで定義できる宣言的ダッシュボードにあります。Gitで構成管理できるため、ダッシュボードもアプリ本体と同じように継続的にレビューできます。
パネル設計の考え方
「1パネル=1つの問い」で設計するのが基本です。「サービス全体は健康か」「特定エンドポイントは詰まっていないか」「どのインスタンスが重いか」といった問いを階層で並べ、上から順に深掘りできる構成を作ります。
色は意味と固定で運用します。エラー=赤、注意=黄、健康=緑のような固定ルールを決めておくと、ダッシュボード間を移動しても直感が維持できます。
共有ダッシュボードの活用
Grafana Labsはコミュニティが投稿した公式ダッシュボード集を公開しています。Kubernetes・Node Exporter・PostgreSQL・MySQL・Nginxなど主要OSSは網羅されており、ゼロから作るより最初は既存テンプレートをインポートしたほうが学習効率が高いです。
他の監視ツールとの違い
メトリクス監視は競合が多い領域です。比較表で違いを整理すると、選定の議論で迷いにくくなります。
主要ツールとの比較
観点 | Prometheus & Grafana | Datadog | Zabbix | CloudWatch |
|---|---|---|---|---|
提供形態 | OSS(自前運用) | SaaS | OSS(自前運用) | AWSマネージド |
データ収集 | Pull型中心 | Agent型・SaaS | Pull/Trap併用 | AWSサービスから自動 |
可視化 | Grafana連携 | 統合UI | 内蔵Web UI | CloudWatch Metrics |
強み | クラウドネイティブ最適 | APM・ログまで統合 | 古典的監視に強い | AWS連携が極めて簡単 |
弱み | 自前運用の保守負担 | 利用料が嵩みやすい | クラウドネイティブで弱め | 他クラウドでは使いづらい |
Datadogとの違い
Datadogはメトリクス・APM・ログ・RUMまで含めた統合SaaSです。導入の速さと操作性に強みがある一方、ホスト数・カスタムメトリクス数・ログ取り込み量で料金が膨らみやすい構造になっています。Datadogの全体像はDatadogとは|統合監視SaaSの特徴・Sentryとの違い・案件単価を徹底解説に整理しています。
Prometheus & Grafanaは運用工数を社内で負う代わりに費用を抑えられる選択肢です。Kubernetes主体の現場や、可視化を細かく作り込みたいチームから選ばれやすい傾向があります。
ZabbixやCloudWatchとの違い
Zabbixはハードウェア・ネットワーク機器の監視に古くから強く、SNMPトラップなどの老舗プロトコルへの対応が手厚いツールです。クラウドネイティブな環境では、近年Prometheus & Grafana側が選ばれるケースが目立ちます。
CloudWatchはAWSサービスとの統合の手軽さが強みですが、マルチクラウド・オンプレを横断する用途には向きにくい設計です。AWS基盤の細部はCloudWatchで見つつ、横断ビューはPrometheus & Grafanaで持つような併用も実務では見られます。AWS基盤についてはAWS EC2とはやGCP Cloud Runとはも合わせて参考にしてください。
ミニFAQ:
Q. Datadogを使っているがPrometheusも触れたい場合は?
DatadogはPrometheusのexporterからデータを取り込めるため、段階的移行や併用構成が可能です。
Kubernetesとの相性が良い理由
Prometheus & Grafanaが急速に普及した最大の理由は、Kubernetes運用と相性が良かった点にあります。Kubernetes自体の解説はKubernetesとは、コンテナ全般はDockerとはを合わせてご覧ください。
ServiceMonitorとkube-prometheus-stack
Kubernetes環境では、Helmチャートkube-prometheus-stackを入れるだけで、Prometheus本体・Alertmanager・Grafana・Node Exporter・主要ダッシュボード・代表的なアラートルールが一気に整います。ServiceMonitorというCRDを書けば、新しいサービスを自動でスクレイプ対象に組み込めます。
この「設定をマニフェストで宣言する文化」が、KubernetesのGitOps運用と噛み合った結果として広まりました。
SLO/SLIの実装と相性
SLO/SLIの運用は、可用性やレイテンシのメトリクスを安定的に取り続けられる基盤が前提です。Prometheusは長期保存にはRemote Write経由でThanosやMimir等を使う前提があるものの、SLI計算に必要なrate/histogram/up等の演算が言語仕様で揃っています。
SRE職の業務イメージはSREとはで、DevOps全般はDevOpsエンジニアとはで整理しています。
フリーランス案件での需要と単価レンジ
Prometheus & Grafana単体で募集される案件は多くなく、SRE・DevOps・クラウドインフラの案件要件の一部として登場する形が中心です。求人ボックス・doda・主要フリーランスエージェントの公開案件を見る限り、Kubernetes・Terraform・CI/CDと並ぶ要素として記載されているケースが目立ちます。
公開案件で見られる募集傾向
本記事執筆時点(2026年6月)に主要フリーランスエージェント・求人ボックス・doda等で公開されている案件を観測した範囲では、以下の登場パターンが目立ちます。
求人タイプ | Prometheus & Grafanaの位置づけ | 関連スキル |
|---|---|---|
SRE | 中核スキルとして並ぶ部類 | Kubernetes / SLO設計 |
DevOps基盤構築 | CI/CDと並ぶ要素 | Terraform / GitHub Actions |
クラウドインフラ移行 | 監視刷新の一環 | AWS / GCP / Azure |
プラットフォームエンジニア | 内製基盤の構成要素の一つ | Helm / ArgoCD |
単価への影響と求められる人物像
同じく主要フリーランスエージェントの公開案件(業務委託・週3〜5日稼働)を本記事執筆時点で見比べると、SRE・DevOps領域は月60万円〜120万円前後のレンジで募集されるケースが目立ちます。ただし金額は役割範囲・契約形態・稼働日数・常駐有無・案件のフェーズで大きく振れる点には留意が必要です。Prometheus & Grafana単体のスキルが直接単価を押し上げる構造ではなく、周辺スキルとの掛け合わせで評価されるのが実態に近い見え方です。
評価が伸びやすいのは、Kubernetes本番運用の経験とSLO/エラー予算の設計運用まで含めて語れる方です。手元の検証だけでなく、カーディナリティ管理・長期保存設計・アラート運用の改善といった「運用負債を作らない経験」がある方は条件交渉でも強いポジションを取りやすくなります。単価感の全体像はフリーランスエンジニアの単価相場も参考にしてください。
該当しやすい職種別の解説はインフラエンジニアとはやクラウドエンジニアとはで扱っています。
ミニFAQ:
Q. 手元検証だけの経験でも案件は取れる?
取れるケースもありますが、本番運用経験との単価差は出やすいです。チュートリアルレベルではなくSLO設計やトラブル対応の話まで語れるかが分かれ目になりやすいです。
学習ロードマップ
最短ルートは手元検証から本番運用の周辺知識まで段階的に拡げる進め方です。一気に本番想定で組まず、まず1台のコンテナでPromQLとGrafanaに慣れるのが効率的です。
手元検証(Docker Compose)
Docker Composeでprometheus・grafana・node_exporterの3コンテナを立てる構成が、最初の入口に向いています。設定ファイルを書き換えながらPromQLとGrafanaパネルの挙動を確かめると、概念が掴みやすくなります。Dockerの基本はDockerとはで確認できます。
クラウドでの試行
手元で慣れたら、kube-prometheus-stackをminikubeやkindに入れて、Kubernetes側からの取り込みを体験すると一段深まります。クラウドでマネージドKubernetes(EKS・GKE等)を立てる場合は、土台となるAWS EC2のIaaS知識が前提になります。サーバレス文脈(GCP Cloud Run等)にも応用したい場合は、Pull型との相性に注意が必要です。
本番運用に必要な周辺知識
本番で安定運用するには、長期保存(Thanos/Mimir/Cortex)、HA構成、Federation、Remote Write、Recording Rulesといった発展トピックが避けられません。これらを最初から触る必要はないものの、用語と狙いを理解しておくと面接で評価されやすい領域です。
よくある失敗と対策
実務でつまずきやすい代表パターンを3つ挙げます。設計初期に手当てしておくと、運用後半の負担が大きく変わります。
失敗1:カーディナリティ爆発
リクエストパス・ユーザーID・トランザクションIDをそのままラベルに含めると、ラベル組合せが指数的に増えてPrometheus本体のメモリが破綻します。ラベルは「集計したい軸」だけに絞るのが原則です。
失敗2:長期保存の設計不備
Prometheus単体は短期保存(数週間〜数か月)が前提の設計です。コンプライアンスや遡及分析の要件があるなら、Thanos・Mimir・Cortex等を組み合わせるか、Datadogのような長期保存込みのSaaSと役割分担します。
失敗3:アラート疲れ
しきい値を細かく刻みすぎると通知が溢れ、重要なアラートが埋もれる事故が起きます。SLO/エラー予算の考え方を取り入れ、「ユーザー影響が出ている」アラートだけを起こす設計に寄せると改善しやすいです。
実践チェックリスト
導入・設計時に確認したい項目を整理しました。
カテゴリ | チェック項目 |
|---|---|
構成 | exporter / Alertmanager / Grafanaの役割を分離できているか |
ラベル設計 | カーディナリティが時間とともに増えない設計か |
保存期間 | 業務要件に合った保存期間と、長期保存先を決めているか |
アラート | SLO/エラー予算を基準にした発火条件になっているか |
ダッシュボード | Gitで構成管理されているか |
認証 | Grafanaの認証連携(SSO/OIDC等)を考慮しているか |
バックアップ | TSDB・ダッシュボード定義の復旧手順を持っているか |
まとめ
Prometheus & GrafanaはOSSのメトリクス監視・可視化基盤として、Kubernetesを中心とするクラウドネイティブ環境で採用例が多い部類に入る選択肢です。Datadogのようなフルマネージド型と比べると運用工数を自社で負う性質はありますが、費用とカスタマイズ性で優位に立てる構成です。
要点を整理します。
役割分担:Prometheusが収集・保存・通報、Grafanaが可視化を担う構成
強み:Kubernetes連携・PromQLの表現力・OSSコミュニティの厚み
弱み:自前運用の保守負担と、カーディナリティ・長期保存の設計難易度
使い分け:DatadogはSaaSで一括、Prometheus & GrafanaはOSSで作り込みたい現場向き
案件動向:SRE・DevOps領域で採用例の多い部類。Kubernetes本番運用経験と合わせると評価が伸びやすい
学習順序:Docker Composeでの手元検証 → Kubernetesへの導入 → 長期保存・SLOアラート設計
次のステップとして、まずはローカルでDocker Composeを立ち上げ、PromQLでrateとsum byを書いてみる入口がおすすめです。手元検証で土地勘がついた段階で、SRE・DevOps向けの公開案件を眺めると、求人票の見え方が明確に変わるはずです。フリーランス案件の探し方はフリコンのサービス紹介も合わせてご覧ください。
参照元・一次情報リンク:
よくある質問
Q1. Prometheusは無料で使い続けられますか?
OSSのApache 2.0ライセンスで公開されており、無料で利用できます。ただし運用コスト(人件費・サーバー費用)は自前で持つ必要があり、フルマネージドSaaSとは性質が異なります。
Q2. Grafanaを商用環境で使う場合の注意点は?
社内利用の範囲で使われるケースは一般的ですが、ライセンスの解釈は利用形態(社内利用・SaaSとして外部提供・改変配布・OEM等)で変わります。Grafana OSSのライセンス(AGPLv3)と、Grafana Enterpriseの商用ライセンスでは条件が異なるため、配布形態を伴う場合は公式ライセンス条項を確認し、必要に応じて法務にも相談するのが安全です。
Q3. Prometheusと従来のZabbixの違いを一言で言うと?
Zabbixは古典的サーバー監視に強く、Prometheusはクラウドネイティブ・コンテナ運用に強いという棲み分けが現場の感触です。ハードウェア中心ならZabbix、Kubernetes中心ならPrometheusが選ばれやすい傾向があります。
Q4. Datadogとの併用は現実的ですか?
可能です。Datadog側がPrometheusのexporterに対応しているため、既存のPrometheusエコシステムを残したまま、APMや長期保存の部分だけDatadogに寄せるような併用構成も組めます。
Q5. SRE案件で必須スキルになりますか?
主要フリーランスエージェントの公開案件を見る限り、SRE・プラットフォームエンジニア領域では採用例の多い部類に入ります。ただし「必須」と書かれるかは案件次第で、Datadog経験で代替可と書かれる案件もあります。
Q6. PromQLは独学で身につきますか?
身につきますが、SQLとの違いに最初は戸惑う方が多いです。公式チュートリアルでrate・sum by・histogram_quantileの3つに慣れると、現場のクエリの大半が読めるようになります。
Q7. オンプレ環境への導入は今でも採用されますか?
採用されます。組織のセキュリティ方針や契約要件で外部SaaS利用に制約がある環境(金融・公共・医療等のうち、社内ルールで外部送信が制限されているケース)では、自前運用OSSが候補に上がりやすい傾向があります。業種で一律に決まる話ではなく、案件ごとの要件次第である点に注意してください。
Q8. Grafanaの代替に何がありますか?
KibanaやChronografなどがありますが、Prometheusと組む前提ではGrafanaが選ばれることが多い傾向です。データソースの幅広さとコミュニティの厚みで採用例が多い部類に入ります。
Q9. 学習にどれくらいの期間が必要ですか?
手元検証レベルなら週末の数時間×数週間で動かせます。ただし本番運用に耐える設計(カーディナリティ・長期保存・SLOアラート)まで含めると、Kubernetesや関連OSSの経験と合わせて半年〜1年程度かけて深めるイメージです。
Q10. AWS Lambda等のサーバレスにも適用できますか?
可能ですが、Pull型の前提と短命関数の特性が噛み合いづらく、Pushgateway経由か、CloudWatchやDatadogとの併用が現実解になりやすいです。サーバレスの基本はAWS Lambdaとはを参考にしてください。
Q11. SLO設計の入り口として何から学べば良いですか?
Googleの公開資料「Site Reliability Engineering」が定番です。「ユーザー影響を基準にアラートを設計する」という発想を掴むと、Prometheus上でのアラートルール設計が楽になります。
Q12. 案件参画前にどこまで触っておけば安心ですか?
最低限、kube-prometheus-stackをローカルKubernetesに入れ、自作アプリのカスタムメトリクスをScrapeさせ、Grafanaで可視化するところまで自走できると、面談での説明がしやすくなります。




