Advertisement

Responsive Advertisement

Teori Permainan: Strategi dan Keseimbangan Nash

Teori Permainan: Strategi dan Keseimbangan Nash
Ekonomi Mikro · Panduan Lengkap

Teori Permainan: Strategi dan Keseimbangan Nash

1. Mengapa Keputusan Kita Bergantung pada Keputusan Orang Lain

Sebagian besar ekonomi mikro yang kita pelajari hingga kini mengasumikan bahwa setiap agen membuat keputusan secara independen — perusahaan memaksimalkan profit tanpa mempertimbangkan respons spesifik pesaing, konsumen memaksimalkan utilitas tanpa bergantung pada pilihan konsumen lain. Asumsi ini masuk akal untuk pasar kompetitif dengan banyak pemain kecil, tapi gagal menangkap dinamika situasi di mana jumlah pemain sedikit dan setiap keputusan saling bergantung.

Teori Permainan

Teori permainan (game theory) adalah studi tentang pengambilan keputusan strategis dalam situasi di mana hasil yang diperoleh satu pihak bergantung pada tindakan yang dipilih oleh pihak lain. Dikembangkan secara formal oleh John von Neumann dan Oskar Morgenstern (1944), dan diperluas revolusioner oleh John Nash (Nobel 1994) yang memperkenalkan konsep keseimbangan yang kini menjadi fondasi seluruh bidang ini.

Teori permainan bukan sekadar alat untuk menganalisis kompetisi bisnis. Ia digunakan dalam biologi evolusioner (strategi bertahan hidup), ilmu politik (negosiasi internasional), hukum (perancangan kontrak), militer (strategi pertahanan), dan kini menjadi landasan desain mekanisme dalam platform digital dan lelang pemerintah. Di Indonesia, KPPU menggunakan prinsip teori permainan dalam investigasi kartel; pemerintah menggunakannya dalam desain lelang frekuensi telekomunikasi 5G.

Sebelum menganalisis situasi yang kompleks, kita perlu memahami elemen-elemen dasar yang membangun setiap "permainan" strategis.

2. Konsep Dasar Teori Permainan

2.1 Elemen: Pemain, Strategi, Payoff

Setiap permainan strategis dapat diuraikan menjadi tiga elemen utama:

ElemenDefinisiContoh (Persaingan Harga)
Pemain (Players) Pihak-pihak yang membuat keputusan dalam permainan. Bisa individu, perusahaan, negara, atau kelompok. Indomie dan Mie Sedaap sebagai dua pemain di pasar mi instan
Strategi (Strategies) Pilihan tindakan yang tersedia bagi setiap pemain. Bisa diskrit (naikkan/turunkan harga) atau kontinu (pilih harga berapa saja). Setiap perusahaan bisa memilih: naikkan harga, pertahankan harga, atau turunkan harga
Payoff Hasil (profit, utilitas, atau nilai lain) yang diterima setiap pemain untuk setiap kombinasi strategi yang mungkin. Biasanya disajikan dalam matriks payoff. Profit masing-masing perusahaan untuk setiap kombinasi keputusan harga kedua perusahaan
Informasi Apa yang diketahui setiap pemain saat membuat keputusan: apakah tindakan lawan sudah diketahui (perfect info) atau tidak (imperfect info)? Apakah keputusan harga diumumkan bersamaan atau berurutan?

Permainan bisa disajikan dalam dua bentuk: bentuk normal (normal form) — matriks payoff untuk permainan simultan — dan bentuk ekstensif (extensive form) — pohon permainan untuk permainan berurutan yang menunjukkan urutan keputusan.

2.2 Jenis-Jenis Permainan

Zero-Sum

Permainan Nol-Sum

Keuntungan satu pemain persis sama dengan kerugian pemain lain. Total payoff selalu nol. Contoh: catur, poker, tawar-menawar harga tetap.

Non-Zero-Sum

Permainan Positif/Negatif Sum

Total payoff bisa lebih besar atau lebih kecil dari nol tergantung pilihan. Kerja sama bisa menguntungkan semua. Contoh: perdagangan, kolaborasi riset.

Simultan

Permainan Simultan

Semua pemain memilih strategi secara bersamaan tanpa mengetahui pilihan lawan. Dianalisis dengan matriks payoff dan keseimbangan Nash.

Berurutan

Permainan Berurutan

Pemain bergerak satu per satu, pemain belakangan bisa mengamati keputusan yang sudah dibuat. Dianalisis dengan pohon permainan dan backward induction.

Informasi Sempurna

Perfect vs. Imperfect Info

Perfect: setiap pemain tahu seluruh sejarah permainan (catur). Imperfect: ada informasi yang tidak diketahui saat membuat keputusan (poker, bisnis).

Sekali vs. Berulang

One-Shot vs. Repeated

One-shot: dimainkan satu kali. Repeated: pemain yang sama berinteraksi berkali-kali. Kerja sama lebih mudah muncul dalam permainan berulang.

Dengan elemen dasar di tangan, kita bisa mulai menganalisis bagaimana pemain rasional memilih strategi — dimulai dari kasus paling sederhana: strategi dominan.

3. Strategi Dominan dan Eliminasi Iteratif

Strategi Dominan

Strategi dominan (dominant strategy) adalah strategi yang memberikan payoff lebih tinggi bagi seorang pemain terlepas dari strategi apa yang dipilih oleh pemain lain. Jika ada strategi dominan, pemain rasional selalu akan memilihnya — tidak perlu memprediksi tindakan lawan.

Strategi yang didominasi (dominated strategy) adalah strategi yang selalu lebih buruk dari strategi lain untuk setiap kemungkinan tindakan lawan. Pemain rasional tidak akan pernah memilih strategi yang didominasi.

Contoh: Matriks Payoff Kompetisi Iklan (Profit dalam miliar rupiah)

Perusahaan B: Beriklan Perusahaan B: Tidak Beriklan
Perusahaan A: Beriklan A: 4, B: 4 A: 6, B: 2
Perusahaan A: Tidak Beriklan A: 2, B: 6 A: 5, B: 5

Analisis: Bagi Perusahaan A — jika B beriklan: 4 > 2 (beriklan lebih baik); jika B tidak beriklan: 6 > 5 (beriklan lebih baik). Beriklan adalah strategi dominan A. Secara simetris, beriklan juga strategi dominan B. Keduanya beriklan → payoff (4, 4). Padahal jika keduanya tidak beriklan, payoff (5, 5) — lebih baik bagi keduanya. Ini adalah struktur dilema tahanan yang klasik.

Iterated Elimination of Dominated Strategies (IEDS): Jika tidak ada strategi dominan, kita bisa mempersempit prediksi dengan mengeliminasi strategi yang didominasi secara berulang. Jika pemain rasional tidak akan memilih strategi yang didominasi, dan semua pihak tahu ini, maka strategi yang hanya baik sebagai respons terhadap strategi yang didominasi juga bisa dieliminasi — dan seterusnya. Proses ini kadang menghasilkan prediksi unik tentang outcome permainan.
Strategi dominan memberikan prediksi yang kuat tapi tidak selalu ada. Untuk situasi yang lebih umum, kita membutuhkan konsep yang lebih luas: keseimbangan Nash.

4. Keseimbangan Nash

4.1 Definisi dan Cara Menemukan

Keseimbangan Nash

Keseimbangan Nash adalah profil strategi (s₁*, s₂*, ..., sâ‚™*) di mana setiap pemain i memilih strategi terbaik mengingat strategi semua pemain lain:

payoff_i(s*áµ¢, s*₋áµ¢) ≥ payoff_i(sáµ¢, s*₋áµ¢) untuk semua sáµ¢

Tidak ada pemain yang bisa meningkatkan payoff-nya dengan menyimpang secara unilateral. Di keseimbangan Nash, setiap pemain memilih best response terhadap pilihan pemain lain.

Cara menemukan keseimbangan Nash dalam matriks payoff — metode best response:

  1. Untuk setiap kolom (strategi B tetap), temukan baris yang memberikan payoff terbaik bagi A. Beri tanda pada payoff A.
  2. Untuk setiap baris (strategi A tetap), temukan kolom yang memberikan payoff terbaik bagi B. Beri tanda pada payoff B.
  3. Sel di mana KEDUA payoff bertanda adalah keseimbangan Nash.

Contoh: Battle of the Sexes — Mencari Keseimbangan Nash

B: SepakbolaB: Opera
A: Sepakbola A: 3, B: 2 ← Nash #1 A: 0, B: 0
A: Opera A: 0, B: 0 A: 2, B: 3 ← Nash #2

Ada dua keseimbangan Nash dalam strategi murni di sini — keduanya lebih baik dari koordinasi yang gagal (0,0), tapi terjadi konflik distribusi (A lebih suka Nash #1, B lebih suka Nash #2).

4.2 Keseimbangan Nash Ganda

Tidak semua permainan memiliki tepat satu keseimbangan Nash. Ada tiga kemungkinan: satu keseimbangan unik, beberapa keseimbangan, atau tidak ada keseimbangan dalam strategi murni.

Teorema Nash (1950): Setiap permainan terbatas dengan jumlah pemain dan strategi yang terhingga memiliki setidaknya satu keseimbangan Nash — mungkin dalam strategi campuran (mixed strategy). Ini adalah salah satu teorema eksistensi paling penting dalam teori ekonomi.

Ketika ada keseimbangan ganda, muncul masalah koordinasi — pemain harus berkoordinasi untuk memilih keseimbangan yang sama, tapi koordinasi eksplisit mungkin tidak tersedia. Solusi praktis: focal point (titik fokal) Schelling — keseimbangan yang secara alami "menonjol" berdasarkan konteks sosial, sejarah, atau konvensi, meski tidak ada komunikasi eksplisit.

Focal Point (Schelling Point): Jika dua orang diminta untuk bertemu di New York tanpa koordinasi sebelumnya, banyak yang secara independen memilih Grand Central Station pukul 12.00 siang — bukan karena itu optimal secara matematis, melainkan karena itu adalah titik yang "obvious" secara budaya. Focal point adalah solusi koordinasi yang muncul dari konvensi sosial, bukan optimisasi.

4.3 Strategi Campuran (Mixed Strategy)

Ketika tidak ada keseimbangan Nash dalam strategi murni, pemain bisa memilih secara acak di antara strategi-strategi mereka dengan probabilitas tertentu — inilah strategi campuran.

Matching Pennies — Permainan tanpa Keseimbangan Strategi Murni
  Dua pemain memilih Kepala (K) atau Ekor (E) secara simultan.
  Jika cocok: A menang (+1), B kalah (-1)
  Jika tidak cocok: B menang (+1), A kalah (-1)

  Matriks payoff (A, B):
              B: K        B: E
  A: K    (+1, -1)   (-1, +1)
  A: E    (-1, +1)   (+1, -1)

  Tidak ada keseimbangan strategi murni:
  → Jika A pilih K, B mau pilih E
  → Jika A pilih E, B mau pilih K
  → Jika B pilih K, A mau pilih K
  → Jika B pilih E, A mau pilih E
  → Tidak ada yang stabil!

  KESEIMBANGAN STRATEGI CAMPURAN:
  A pilih K dengan prob p, E dengan prob (1-p)
  B pilih K dengan prob q, E dengan prob (1-q)

  Di keseimbangan: A harus acuh terhadap K vs E (indifferent)
  → Ekspektasi payoff A dari K = Ekspektasi A dari E
  → q(+1) + (1-q)(-1) = q(-1) + (1-q)(+1)
  → 2q - 1 = 1 - 2q  →  q = 1/2

  Secara simetris: p = 1/2
  Keseimbangan Nash campuran: keduanya pilih 50-50

  Contoh nyata: tendangan penalti sepakbola, inspeksi pajak,
  patroli keamanan — semua menggunakan randomisasi optimal
Setelah memahami keseimbangan Nash, kita kembali ke permainan paling terkenal dalam teori ekonomi — dan yang paling sering disalahmengerti.

5. Dilema Tahanan dan Inefisiensi Kolektif

Dilema Tahanan

Dua tersangka ditangkap dan diinterogasi secara terpisah. Masing-masing bisa mengaku (berkhianat) atau diam (bekerja sama). Struktur payoff menciptakan situasi di mana rasionalitas individual menghasilkan irrasionalitas kolektif.

Matriks Payoff Dilema Tahanan Klasik (tahun penjara, lebih rendah = lebih baik)

B: Diam (Kerja sama)B: Mengaku (Khianat)
A: Diam (Kerja sama) A: 1 tahun, B: 1 tahun
(Pareto optimal)
A: 10 tahun, B: 0 tahun
A: Mengaku (Khianat) A: 0 tahun, B: 10 tahun A: 5 tahun, B: 5 tahun
(Keseimbangan Nash)

Mengaku adalah strategi dominan bagi keduanya: apapun yang dilakukan B, A lebih baik mengaku (0 < 1, atau 5 < 10). Keseimbangan Nash unik: (Mengaku, Mengaku) = 5 tahun masing-masing. Padahal jika keduanya diam, hanya 1 tahun masing-masing — outcome yang jauh lebih baik bagi keduanya.

Inefisiensi kolektif ini — gap antara keseimbangan Nash dan optimum Pareto — adalah salah satu temuan paling berpengaruh dalam ilmu sosial. Ia hadir di mana-mana:

KonteksStrategi "Kerja Sama"Strategi "Khianat"Masalah
Kartel hargaPertahankan harga tinggiTurunkan harga diam-diamAnggota selalu tergoda curang
Perlombaan senjataTidak produksi senjataProduksi senjataKedua negara rugi tapi tetap bersenjata
Polusi industriPasang filter polusiTidak pasang filterSemua pabrik mencemari meski semua rugi
Iklan kompetitifTidak beriklan / beriklan minimalBeriklan besar-besaranSemua beriklan tapi total penjualan tidak naik
OverfishingTangkap sedikit, jaga stokTangkap sebanyak mungkinStok ikan habis, semua nelayan rugi
Implikasi kebijakan dari dilema tahanan: Inefisiensi kolektif dari dilema tahanan memberikan justifikasi kuat untuk regulasi, koordinasi, dan perjanjian internasional. Mengapa negara sepakat membatasi emisi karbon meski setiap negara secara individual lebih baik tidak membatasi? Karena tanpa koordinasi, semua terjebak di keseimbangan Nash yang buruk. Perjanjian iklim Paris adalah usaha menggeser dari keseimbangan Nash global yang buruk menuju optimum Pareto yang lebih baik.
Dilema tahanan satu kali hampir pasti berakhir buruk. Tapi dunia nyata adalah rangkaian interaksi berulang — dan ini membuka kemungkinan kerja sama yang tidak ada dalam permainan satu kali.

6. Permainan Berulang dan Kerja Sama

Ketika pemain yang sama berinteraksi berulang kali, kalkulasi strategis berubah secara fundamental. Pemain sekarang tidak hanya memikirkan payoff hari ini, tetapi juga dampak tindakan hari ini terhadap interaksi di masa depan.

6.1 Folk Theorem

Folk Theorem

Dalam permainan berulang dengan cakrawala tak terhingga (atau tidak ada tanggal akhir yang pasti), hampir semua outcome yang memberikan setiap pemain payoff di atas payoff keseimbangan satu kali dapat dipertahankan sebagai keseimbangan Nash jika pemain cukup "sabar" (tingkat diskonto masa depan rendah).

Intuisi: ancaman hukuman masa depan yang cukup besar bisa mencegah penyimpangan hari ini. Jika pemain sangat menghargai hubungan jangka panjang, mereka akan berperilaku kooperatif untuk menjaga hubungan itu.

Logika Folk Theorem — Kapan Kerja Sama Stabil?
  Misalkan δ = faktor diskonto (0 < δ < 1), nilai masa depan = δ × nilai sekarang
  Dilema tahanan berulang: kooperatif → (3,3) per periode; menyimpang → (5,0) sekali
  lalu keseimbangan Nash → (1,1) selamanya (punishment)

  Nilai dari berkhianat hari ini:
  V_khianat = 5 + δ×1 + δ²×1 + ... = 5 + δ/(1−δ)

  Nilai dari tetap bekerja sama:
  V_kerjasama = 3 + δ×3 + δ²×3 + ... = 3/(1−δ)

  Kerja sama lebih baik jika V_kerjasama ≥ V_khianat:
  3/(1−δ) ≥ 5 + δ/(1−δ)
  3 ≥ 5(1−δ) + δ
  3 ≥ 5 − 5δ + δ
  3 ≥ 5 − 4δ
  4δ ≥ 2
  δ ≥ 1/2  ←  kerja sama stabil jika δ ≥ 0.5

  MAKNA: Jika pemain cukup sabar (menghargai masa depan dengan faktor
  ≥ 0.5), ancaman punishment permanen membuat kerja sama rasional.
  Semakin sabar pemain, semakin mudah kerja sama dipertahankan.

6.2 Strategi Tit-for-Tat

Robert Axelrod (1984) mengadakan turnamen komputer di mana ratusan strategi untuk permainan dilema tahanan berulang saling bertanding. Pemenangnya adalah strategi paling sederhana yang diajukan Anatol Rapoport: Tit-for-Tat.

Strategi Tit-for-Tat

① Mulai dengan bekerja sama di ronde pertama.
② Di setiap ronde berikutnya, lakukan apa yang dilawan lakukan di ronde sebelumnya.

Jika lawan kooperatif → ikut kooperatif. Jika lawan mengkhianati → balas mengkhianati ronde berikutnya. Jika lawan kembali kooperatif → kembali kooperatif juga.

Tit-for-Tat berhasil karena memiliki empat properti yang ternyata sangat efektif secara evolusioner: baik (mulai dengan kerja sama), dapat diprovokasi (membalas pengkhianatan segera), pemaaf (kembali kooperatif setelah lawan kembali kooperatif), dan jelas (mudah dipahami lawan sehingga tidak ada salah paham strategis).

Tit-for-Tat dalam bisnis nyata: Strategi penetapan harga "pukul balas" di maskapai penerbangan — jika satu maskapai turunkan harga rute tertentu, kompetitor langsung turunkan harga yang sama (balas satu ronde), tapi kembali ke harga normal setelah kompetitor naik harga. Ini adalah implementasi Tit-for-Tat yang menjaga harga pasar tetap relatif stabil tanpa koordinasi eksplisit yang ilegal.
Semua permainan di atas diasumsikan simultan. Tapi banyak situasi dunia nyata bersifat berurutan — satu pihak bergerak terlebih dahulu, lalu pihak lain merespons. Ini mengubah analisis secara fundamental.

7. Permainan Berurutan dan Backward Induction

Dalam permainan berurutan, urutan keputusan menciptakan asimetri informasi yang bisa dieksploitasi secara strategis. Pemain yang bergerak pertama bisa berkomitmen pada tindakan tertentu yang menguntungkan, sementara pemain yang bergerak belakangan bisa mengamati dan merespons.

7.1 Pohon Permainan dan Backward Induction

Backward Induction

Backward induction adalah metode analisis permainan berurutan dengan bekerja mundur dari akhir permainan. Dimulai dari node terminal, tentukan pilihan optimal pemain di setiap node terakhir, kemudian gunakan hasil itu untuk menentukan pilihan optimal di node sebelumnya — mundur terus hingga awal permainan.

Ini menghasilkan Subgame Perfect Nash Equilibrium (SPNE) — keseimbangan Nash yang mengandung best response di setiap subgame, termasuk subgame yang mungkin tidak pernah dicapai.

Backward Induction — Keputusan Masuk Pasar
  Perusahaan Baru (PB) mempertimbangkan masuk pasar yang dikuasai
  Incumbent (IN). Setelah PB masuk, IN memilih: Lawan atau Akomodasi.

  Pohon Permainan:
                      PB
                    /    \
                Masuk    Tidak Masuk
                /             \
              IN              (PB: 0, IN: 10)
            /    \
         Lawan   Akomodasi
           /          \
     (PB: -3,       (PB: 2,
      IN: -1)        IN: 5)

  Analisis Backward Induction:
  Step 1 (dari bawah): Jika PB masuk, IN memilih antara:
    Lawan: IN mendapat -1
    Akomodasi: IN mendapat 5
    → IN memilih Akomodasi (5 > -1) ✓

  Step 2 (naik ke PB): PB tahu IN akan akomodasi jika masuk:
    Masuk: PB mendapat 2
    Tidak Masuk: PB mendapat 0
    → PB memilih Masuk (2 > 0) ✓

  SPNE: (PB Masuk, IN Akomodasi) → (2, 5)

  Pertanyaan kritis: APAKAH ancaman IN untuk "lawan" kredibel?
  Sebelum PB masuk, IN mungkin mengancam "kami akan lawan habis-habisan!"
  Tapi setelah PB masuk, ancaman itu tidak kredibel karena memilih lawan
  merugikan IN sendiri (-1 < 5). Backward induction mengungkap ancaman
  yang tidak kredibel (non-credible threats).

7.2 First-Mover Advantage dan Komitmen Strategis

Dalam permainan berurutan, bergerak pertama tidak selalu menguntungkan — tapi bisa sangat menguntungkan jika disertai dengan komitmen yang kredibel.

Komitmen Kredibel — Membangun Kapasitas Berlebih sebagai Entry Deterrent
  Incumbent bisa membangun kapasitas berlebih SEBELUM pendatang baru
  memutuskan masuk — mengubah payoff permainan secara strategis.

  Tanpa kapasitas berlebih (situasi dasar di atas):
  → Incumbent akomodasi setelah masuk (tidak kredibel untuk lawan)
  → Pendatang masuk → (2, 5)

  DENGAN investasi kapasitas berlebih (biaya Rp4 untuk incumbent):
  Sekarang jika incumbent lawan: biaya marginal sudah dibayar → (-1+4, -1) = (3, -1)
  Jika akomodasi: (5 - 4) = 1 bagi incumbent

              IN memilih antara:
              Lawan: IN mendapat -1 (setelah kapasitas)
              Akomodasi: IN mendapat 1
              → Sekarang Lawan bisa lebih menarik tergantung angka!

  LOGIKA: Dengan membangun kapasitas berlebih, incumbent secara strategis
  mengubah payoff masa depannya sehingga ancaman "akan melawan" menjadi
  KREDIBEL. Komitmen mengubah struktur insentif.

  Contoh nyata: Perusahaan semen membangun pabrik kapasitas berlebih
  di daerah yang mungkin dimasuki pesaing — sinyal komitmen bahwa
  mereka akan turunkan harga jika pesaing masuk.
Komitmen yang paradoks: Dalam teori permainan, membatasi pilihan sendiri di masa depan bisa meningkatkan kekuatan negosiasi hari ini. Jika tidak bisa mundur dari suatu komitmen, pihak lain tidak punya alasan untuk berharap konsesi. Contoh: "saya sudah bilang ke bos, tidak bisa berubah" dalam negosiasi gaji — membuat ancaman "walk away" lebih kredibel meski sebenarnya membatasi fleksibilitas sendiri.

8. Studi Kasus Indonesia

Kasus 1 · Dilema Tahanan

Kartel Semen Indonesia: Dilema Tahanan di Industri Oligopoli

Konsep: Dilema Tahanan, Kolusi, Permainan Berulang, Regulasi Antitrust

Industri semen Indonesia dengan pemain utama Semen Indonesia Group, Indocement, dan Holcim Indonesia adalah contoh nyata dilema tahanan dalam konteks oligopoli. Setiap perusahaan menghadapi insentif untuk memotong harga demi merebut pangsa pasar (strategi "khianat"), tapi jika semua memotong harga, semua rugi. Perang harga yang sporadis secara historis terjadi ketika kapasitas berlebih — konsisten dengan prediksi model bahwa kerja sama lebih sulit dipertahankan ketika ada tekanan kelebihan kapasitas.

KPPU beberapa kali menginvestigasi dugaan kartel harga semen. Dari perspektif teori permainan, kolusi harga eksplisit adalah usaha perusahaan untuk "keluar" dari keseimbangan Nash yang buruk menuju outcome kooperatif yang lebih baik — tapi ilegal karena merugikan konsumen dan bertentangan dengan UU No. 5/1999. Permainan berulang memungkinkan kolusi implisit (tanpa komunikasi langsung) melalui price signaling yang lebih sulit dibuktikan.

Pelajaran teori permainan: Regulator harus memahami bahwa parallelism dalam harga tidak selalu berarti kolusi eksplisit — bisa juga merupakan keseimbangan Nash dari permainan berulang (tacit collusion). Pembedaan antara "conscious parallelism" (legal) dan kolusi eksplisit (ilegal) memerlukan analisis mendalam tentang mekanisme koordinasi yang digunakan.
Kasus 2 · Permainan Berurutan

Tokopedia vs. Shopee: First-Mover, Komitmen, dan Perang Subsidi

Konsep: First-Mover Advantage, Komitmen, Permainan Berurutan, Network Effects

Dinamika kompetisi e-commerce Indonesia antara Tokopedia (yang lebih dulu ada) dan Shopee (masuk 2015) adalah permainan berurutan yang menarik. Tokopedia sebagai incumbent memiliki first-mover advantage berupa basis penjual dan pembeli yang sudah besar. Ketika Shopee masuk dengan strategi agresif — subsidi ongkos kirim gratis, flash sale, dan ekosistem terintegrasi dengan Shopee Pay — pertanyaannya adalah apakah Tokopedia harus "lawan" (perang subsidi) atau "akomodasi" (segmentasi pasar).

Backward induction memprediksi: karena Shopee didukung modal besar dari Sea Limited dan bersedia menderita kerugian jangka pendek, komitmen untuk perang subsidi cukup kredibel. Tokopedia merespons dengan subsidi balasan, menciptakan "perang ongkir" yang menguras modal keduanya tapi menguntungkan konsumen. Eventual merger Tokopedia-TikTok Shop (2023) bisa dilihat sebagai solusi koordinasi untuk keluar dari dilema tahanan perang subsidi yang mahal bagi kedua pihak.

Pelajaran permainan berurutan: Komitmen Shopee untuk merugi jangka pendek (didukung neraca Sea Limited yang kuat) mengubah struktur permainan secara fundamental — mengubah "ancaman" perang harga dari tidak kredibel menjadi sangat kredibel. First-mover advantage Tokopedia tidak cukup mengimbangi keunggulan modal dan komitmen lawan. Ini menunjukkan bahwa dalam permainan berurutan, kemampuan membuat komitmen yang kredibel sering lebih penting dari keunggulan siapa yang bergerak pertama.
Kasus 3 · Koordinasi

Penetapan Standar Digital Indonesia: Battle of the Sexes di Skala Nasional

Konsep: Coordination Game, Battle of the Sexes, Focal Point, Kebijakan Pemerintah

Banyak keputusan kebijakan teknologi Indonesia adalah permainan koordinasi — semua pihak lebih baik jika berkoordinasi ke satu standar, tapi ada konflik tentang standar mana yang dipilih. Contoh: adopsi standar pembayaran digital (QRIS yang diprakarsai BI), standar e-KTP, atau migrasi siaran TV digital. Setiap pihak — pemerintah, industri, konsumen — memiliki preferensi berbeda tentang standar mana yang "menang."

Peran focal point sangat penting di sini. Regulasi pemerintah berfungsi sebagai koordinasi eksogen — "memilihkan" salah satu dari beberapa keseimbangan Nash yang mungkin. Kewajiban QRIS untuk semua merchant oleh BI adalah contoh pemerintah memilih focal point dalam permainan standar pembayaran — memaksa semua pihak ke satu keseimbangan Nash yang lebih efisien dari pada fragmentasi standar yang sebelumnya ada (OVO, GoPay, Dana semua dengan QR berbeda).

Pelajaran koordinasi: Dalam permainan koordinasi dengan banyak keseimbangan Nash, pemerintah bisa meningkatkan kesejahteraan sosial bukan dengan "mengatasi kegagalan pasar" dalam pengertian klasik, melainkan dengan bertindak sebagai koordinator — memilih focal point dan memastikan semua pihak berkoordinasi ke keseimbangan yang sama. Ini adalah justifikasi ekonomi yang lebih halus untuk regulasi: bukan karena pasar "gagal" tapi karena koordinasi spontan tidak selalu menghasilkan keseimbangan terbaik.

9. Pertanyaan yang Sering Ditanyakan (FAQ)

Apa itu teori permainan dalam ekonomi?
Teori permainan adalah cabang matematika dan ekonomi yang mempelajari pengambilan keputusan strategis — situasi di mana hasil yang diperoleh satu pihak bergantung pada tindakan pihak lain. Berbeda dari optimisasi biasa di mana satu individu memaksimalkan tujuannya secara independen, teori permainan menganalisis interaksi strategis antar pemain yang rasional. Dikembangkan oleh John von Neumann dan Oskar Morgenstern (1944), dan diperluas oleh John Nash (1950) yang memperkenalkan keseimbangan Nash. Digunakan luas di oligopoli, negosiasi, kebijakan publik, biologi evolusioner, dan desain mekanisme platform digital.
Apakah keseimbangan Nash selalu menghasilkan outcome terbaik bagi semua pemain?
Tidak — dan inilah salah satu temuan paling penting dari teori permainan. Dilema tahanan adalah contoh klasik: keseimbangan Nash (keduanya mengaku) menghasilkan outcome yang lebih buruk bagi keduanya dibandingkan jika mereka berkoordinasi (keduanya diam). Keseimbangan Nash adalah outcome yang "stabil" dalam arti tidak ada yang ingin menyimpang secara unilateral — bukan berarti outcome itu optimal secara kolektif. Gap antara keseimbangan Nash dan optimum Pareto adalah justifikasi penting untuk regulasi dan koordinasi.
Apa perbedaan antara permainan zero-sum dan non-zero-sum?
Dalam permainan zero-sum, keuntungan satu pemain persis sama dengan kerugian pemain lain — total payoff selalu nol. Satu pihak tidak bisa menang tanpa pihak lain kalah. Contoh: pembagian kue yang sudah ada, tawar-menawar harga tunggal, catur, poker. Dalam permainan non-zero-sum, total payoff bisa bertambah atau berkurang tergantung strategi yang dipilih. Kerja sama bisa menguntungkan semua pihak. Contoh: perdagangan internasional, kolaborasi R&D, perjanjian lingkungan. Sebagian besar situasi bisnis dan kebijakan nyata adalah non-zero-sum — ada kemungkinan "expanding the pie" melalui kerja sama yang saling menguntungkan.
Mengapa ancaman bisa tidak kredibel dan bagaimana membuatnya kredibel?
Ancaman tidak kredibel ketika pemain yang mengancam tidak memiliki insentif untuk melaksanakannya jika situasi benar-benar terjadi. Dalam permainan masuk pasar, incumbent mengancam "akan perang harga jika kamu masuk" — tapi setelah masuknya terjadi, perang harga merugikan incumbent sendiri, sehingga ancaman itu tidak dipercaya pendatang. Cara membuat ancaman kredibel: (1) komitmen pra-ikrar (investasi yang mengubah payoff masa depan, seperti membangun kapasitas berlebih); (2) reputasi dari interaksi berulang (terbukti pernah melaksanakan ancaman di masa lalu); (3) kontrak yang mengikat (burn the bridges — hilangkan opsi untuk mundur); (4) delegasi kepada agen yang lebih agresif (manajer hard-liner yang "tidak bisa diajak kompromi").
Apakah ada batas dari asumsi "rasionalitas" dalam teori permainan?
Ya — dan ini adalah kritik terpenting terhadap teori permainan standar. Asumsi rasionalitas penuh (semua pemain memaksimalkan utilitas yang konsisten, mengetahui distribusi payoff, dan berpikir secara sempurna hingga kedalaman infinite) jarang terpenuhi di dunia nyata. Behavioral game theory (Thaler, Kahneman, dll.) mendokumentasikan banyak penyimpangan: (1) altruisme dan fairness — orang menolak tawaran yang dianggap tidak adil meski rasional menerimanya; (2) bounded rationality — orang tidak bisa berpikir mendalam seperti yang diasumsikan; (3) emosi dan kepercayaan — hubungan sosial mempengaruhi strategi di luar kalkulasi payoff murni; (4) framing effects — cara masalah disajikan mempengaruhi pilihan. Teori permainan tetap berguna sebagai benchmark dan model baseline, tapi interpretasinya perlu disertai kesadaran akan keterbatasan asumsi rasionalitas ini.
Bagaimana teori permainan digunakan dalam desain lelang pemerintah?
Desain lelang adalah salah satu aplikasi paling sukses dari teori permainan — bidang yang dikenal sebagai mechanism design atau market design. Pemerintah menggunakan teori permainan untuk merancang lelang frekuensi radio/5G, izin pertambangan, dan kontrak pengadaan agar menghasilkan outcome yang efisien dan revenue optimal. Key insights: (1) English auction (naik) dan second-price sealed-bid auction (Vickrey) mendorong peserta mengungkap valuasi sebenarnya karena strategi dominannya adalah bid sesuai nilai; (2) first-price sealed-bid mendorong bid lebih rendah dari valuasi (shading); (3) combinatorial auctions dibutuhkan ketika ada komplemen antar objek lelang. Indonesia menggunakan combinatorial clock auction untuk alokasi frekuensi 5G — hasil langsung dari kemajuan dalam mechanism design berbasis teori permainan.

📚 Referensi & Sumber

  • 1
    Nash, John F. — Non-Cooperative Games Annals of Mathematics, 1951. Artikel orisinal yang memperkenalkan konsep keseimbangan Nash dan teorema eksistensi. Dasar dari Nobel Ekonomi Nash 1994.
  • 2
    Dixit, Avinash K. & Nalebuff, Barry J. — Thinking Strategically W.W. Norton, 1991. Pengenalan teori permainan yang sangat aksesibel dengan banyak aplikasi bisnis dan kehidupan sehari-hari. Salah satu buku teks ekonomi paling mudah dibaca.
  • 3
    Axelrod, Robert — The Evolution of Cooperation Basic Books, 1984. Laporan turnamen komputer yang menemukan keunggulan Tit-for-Tat dalam dilema tahanan berulang. Menggabungkan teori permainan dengan evolusi kerja sama.
  • 4
    Pindyck, R.S. & Rubinfeld, D.L. — Microeconomics (9th ed.) Pearson Education, 2018. Bab 13: Game Theory and Competitive Strategy. Analisis formal keseimbangan Nash, strategi dominan, permainan berulang, dan permainan berurutan dalam konteks ekonomi industri.
  • 5
    Schelling, Thomas C. — The Strategy of Conflict Harvard University Press, 1960. Karya orisinal tentang focal point, komitmen kredibel, dan strategi dalam situasi konflik dan negosiasi. Nobel Ekonomi 2005.
  • 6
    KPPU — Laporan Investigasi Kartel dan Persaingan Usaha Komisi Pengawas Persaingan Usaha Indonesia. Dokumentasi kasus-kasus kartel harga di industri semen, minyak goreng, dan telekomunikasi yang relevan dengan analisis teori permainan.
    kppu.go.id

Ringkasan: Apa yang Sudah Kita Pelajari

  • Teori permainan menganalisis keputusan strategis di mana hasil satu pihak bergantung pada tindakan pihak lain. Elemen: pemain, strategi, payoff.
  • Strategi dominan selalu lebih baik terlepas dari tindakan lawan — jika ada, pemain rasional pasti memilihnya. Jika tidak ada, gunakan IEDS untuk mempersempit prediksi.
  • Keseimbangan Nash: tidak ada yang bisa unilateral meningkatkan payoff-nya. Setiap pemain memilih best response terhadap strategi lawan. Selalu ada setidaknya satu (mungkin dalam strategi campuran).
  • Keseimbangan Nash ≠ optimal kolektif. Dilema tahanan: keseimbangan Nash menghasilkan outcome lebih buruk dari yang bisa dicapai jika berkoordinasi — justifikasi utama untuk regulasi dan perjanjian.
  • Strategi campuran: ketika tidak ada keseimbangan strategi murni, pemain memilih secara acak dengan probabilitas yang membuat lawan indifferent. Contoh: penalti sepakbola, inspeksi pajak.
  • Permainan berulang: interaksi berulang memungkinkan kerja sama yang tidak mungkin dalam satu kali. Folk Theorem: kerja sama stabil jika pemain cukup sabar (δ tinggi). Tit-for-Tat: strategi optimal — baik, dapat diprovokasi, pemaaf, jelas.
  • Backward induction: analisis permainan berurutan dengan bekerja mundur dari akhir. Mengungkap ancaman yang tidak kredibel dan menghasilkan SPNE.
  • Komitmen strategis: membatasi pilihan masa depan bisa meningkatkan kekuatan negosiasi hari ini — mengubah ancaman tidak kredibel menjadi kredibel.

Posting Komentar

0 Komentar