# Crawling itu nyata. "Optimasi crawl" sebagian besar tidak.
> Minggu ini ada yang menawarkan saya tool "crawl optimization". Berikut cara kerja crawling yang sebenarnya—langkah demi langkah—dan alasan kenapa tuas yang dianggap penting oleh banyak orang sebenarnya bukan tuas sama sekali.
**Diterbitkan:** Jun 2026 · 8 menit baca · SEO
---
Minggu ini ada yang menawarkan saya sebuah tool "crawl optimization". Tool ini memetakan topologi crawl, mengelompokkan sitemap berdasarkan prioritas, dan memberi tahu Google halaman mana yang dianggap penting. Dari sisi engineering, implementasinya benar-benar mengesankan. Masalahnya, untuk hampir semua orang, tool itu menyelesaikan masalah yang sebenarnya tidak ada.
Mitos ini termasuk salah satu yang paling melekat dalam dunia SEO. Menurut saya, ini layak dibedah pelan-pelan karena model mental yang dimiliki banyak orang tentang crawling ternyata keliru—dan kekeliruan itu diam-diam bisa menghabiskan waktu berbulan-bulan. Jadi saya ingin melakukan dua hal: menjelaskan bagaimana proses crawling sebenarnya bekerja, langkah demi langkah, lalu menunjukkan satu hal yang benar-benar berdampak. Dan menariknya, hal itu bukan crawling.
## Gambaran sederhana yang ada di kepala banyak orang
Biasanya ceritanya seperti ini:
Setiap hari ada seekor spider yang datang ke website Anda. Ia membuka homepage, membaca sitemap, mengecek tanggal terakhir diperbarui, lalu merayapi struktur situs dari homepage ke pillar page hingga money page. Semua perubahan dicatat, lalu ranking diperbarui. Karena itu, jika struktur situs rapi, internal linking tertata, dan sitemap tersusun baik, Google akan memberikan lebih banyak crawl. Dan semakin banyak crawl, semakin baik ranking Anda.
Cerita ini terdengar masuk akal. Sayangnya, sebagian besar hanyalah fiksi.
"Pillar page", "money page", atau "topical hub" memang istilah yang berguna untuk manusia saat berdiskusi di Reddit atau LinkedIn. Tetapi Google tidak memahami konsep "money page" dan juga tidak peduli. Bagi Google, semuanya hanyalah dokumen. Setelah memahami hal itu, proyek "mengoptimalkan crawl" mulai terlihat seperti memindahkan furnitur di rumah yang bahkan tidak berencana dikunjungi Google.
## Cara kerja crawling yang sebenarnya, langkah demi langkah
Google sendiri menjelaskan bahwa Search terdiri dari tiga tahap: crawling, indexing, dan serving. Google juga secara tegas mengatakan bahwa "tidak semua halaman berhasil melewati setiap tahap."
**Langkah 1 — Sebuah URL ditemukan.** Google menemukan link dari halaman yang sudah dikenalnya, atau menerima sinyal dari sitemap Anda. Ini disebut *discovery*. Discovery bukan berarti halaman langsung dikunjungi. Sebuah URL bisa ditemukan lalu tidak disentuh selama berminggu-minggu.
**Langkah 2 — URL masuk ke antrean.** URL yang ditemukan akan dijadwalkan untuk di-crawl, dan tidak semuanya mendapat prioritas yang sama. Google menjelaskan bahwa "URL yang lebih populer di internet cenderung lebih sering di-crawl agar tetap segar di sistem kami."
**Langkah 3 — Googlebot mengambil halaman tersebut.** Ketika giliran URL itu tiba, Googlebot mengaksesnya. Dan di sinilah banyak orang terlalu mempersonifikasikan proses crawling. Googlebot hanyalah software. Sejak 2019, Google menggunakan crawler evergreen berbasis Chromium versi stabil terbaru, sehingga mampu merender JavaScript modern seperti browser masa kini.
**Langkah 4 — Kegagalan dicatat.** Jika proses fetch menemui hambatan—404, 503, tag `noindex`, redirect loop, dan sebagainya—Google akan mencatat alasannya. Data inilah yang muncul pada tabel "why this page isn't indexed" di Search Console.
**Langkah 5 — Keputusan terpisah: apakah halaman ini layak diindeks?** Fakta bahwa halaman berhasil diakses tidak otomatis membuatnya masuk indeks. Google secara eksplisit menjelaskan bahwa halaman bisa berstatus "Crawled – currently not indexed"—artinya sudah dibaca tetapi tetap tidak dimasukkan ke indeks.
Kesimpulan penting dari lima langkah ini adalah:
**Lebih banyak crawling tidak berarti lebih banyak indexing.**
## Dua status yang paling sering membuat panik
- **"Discovered – currently not indexed"** berarti Google sudah menemukan URL tersebut tetapi belum mengambilnya.
- **"Crawled – currently not indexed"** berarti Google sudah mengambil dan membaca halaman itu, tetapi memutuskan untuk tidak memasukkannya ke indeks.
Keduanya bukan masalah sitemap. Keduanya juga bukan masalah format konten.
## Crawl budget hampir tidak relevan bagi sebagian besar website
Lihat panduan resmi Google tentang crawl budget, dan Anda akan melihat siapa targetnya sebenarnya: website dengan **lebih dari 1 juta halaman unik** yang berubah setiap minggu, atau website dengan **lebih dari 10.000 halaman** yang berubah setiap hari.
Jika situs Anda tidak berada pada skala tersebut, kemungkinan besar crawl budget bukan hambatan Anda.
Google bahkan telah menghapus crawl rate limiter dari Search Console pada 8 Januari 2024. Saat ini Googlebot secara otomatis menyesuaikan kecepatannya berdasarkan respons server.
## Sitemap tidak membuat Google mengindeks halaman
Sitemap hanyalah alat bantu discovery, bukan instruksi.
Dokumentasi Google menyatakan dengan jelas bahwa "Sitemap membantu search engine menemukan URL di situs Anda, tetapi tidak menjamin semua URL akan di-crawl dan diindeks."
Menambahkan tag `` atau membuat hirarki sitemap tidak membuat Google menganggap halaman tertentu lebih penting. Google tidak menerima klaim sepihak dari publisher mengenai tingkat kepentingan halaman mereka sendiri.
## Hal yang benar-benar berpengaruh: authority
Jika prioritas crawl dan peluang masuk indeks sama-sama dipengaruhi oleh satu faktor utama, faktor itu adalah authority.
Lebih spesifik lagi: link dan sinyal brand yang menunjukkan bahwa pihak lain di internet mempercayai Anda.
Inilah bagian yang sering diabaikan oleh tool crawl-topology. Dan ini juga alasan kenapa content pruning atau merombak internal linking sering kali tidak menghasilkan perubahan besar.
Model PageRank asli dari pendiri Google menggunakan damping factor sebesar 0,85. Artinya, sekitar 15% nilai hilang pada setiap perpindahan link.
Karena itu, solusi untuk halaman yang kurang mendapatkan perhatian bukanlah menggambar ulang peta situs. Solusinya adalah mendapatkan authority yang lebih besar dan lebih dekat ke halaman tersebut.
Ada alasan yang lebih mendasar lagi. Google tidak bisa membaca tulisan Anda seperti guru yang menilai esai. Google tidak benar-benar tahu apakah suatu halaman ditulis oleh ahli atau dapat dipercaya. Karena itu Google menggunakan sinyal eksternal yang mendekati kualitas-kualitas tersebut.
Inilah alasan mengapa [tidak ada tool yang benar-benar bisa memberi skor EEAT](/blog/mitos-eeat-checker), dan kenapa diagnosis "halaman Anda tidak terindeks karena kontennya terlalu tipis" sering kali keliru.
## Jangan belajar SEO dari LLM
Peringatan singkat karena ini semakin sering terjadi.
Sekarang banyak orang menyelesaikan debat SEO dengan mengutip chatbot. Masalahnya, LLM pada dasarnya mencerminkan apa yang saat ini muncul di hasil pencarian. Jika Anda berhasil mengalahkan ranking halaman yang dikutip model tersebut, Anda bahkan bisa mengubah jawabannya.
Artinya, LLM lebih mirip cermin daripada otoritas.
Dan tidak, hanya karena sebuah LLM dibuat oleh Google bukan berarti ia memahami algoritma ranking Google secara rahasia. Ini hanyalah ilusi lain tentang AI yang dianggap serba tahu.
## Eksperimen sederhana seharga makan malam
Berikut eksperimen yang biasanya mengakhiri perdebatan ini.
Beli domain murah seharga sekitar belasan dolar. Buat satu halaman biasa tanpa optimasi istimewa. Lalu arahkan beberapa link nyata dan berkualitas ke halaman tersebut.
Perhatikan bagaimana halaman itu masuk indeks tanpa perubahan kualitas konten sedikit pun.
Jika halaman tipis langsung terindeks setelah mendapatkan authority, berarti kualitas konten bukan penghalangnya.
Jika sitemap yang sangat rapi tetap gagal membuat situs tanpa authority terindeks, berarti topologi crawl juga bukan penghalangnya.
Variabel yang mengubah hasil itulah yang layak mendapatkan perhatian Anda.
## Kesimpulan
Crawling itu nyata, dan memahami cara kerjanya memang penting. Justru karena itulah tidak perlu terobsesi dengannya.
Prosesnya sederhana: ditemukan, masuk antrean, diambil, dicatat, lalu diputuskan.
Anda tidak bisa "mengoptimalkan" jalur tersebut hanya dengan sitemap atau peta topologi crawl. Anda mendapatkan prioritas dengan membangun authority, dan setelah itu crawling akan mengikuti dengan sendirinya.
Berhenti mengutak-atik crawl. Fokuslah mendapatkan link.