Cara Crawling Web

Sudahkah sobat belajar online membaca bab bagaimana cara mesin pencari google bekerja ? Ya pada kesempatan ini belajaronlinegratis.com akan sharing lebih spesifik bagaimana cara Google crawling website/blog.


  1. Menemukan Informasi Website lewat crawling web
  2. Bagaimana cara kerja web crawling Google ? Google memiliki software khusus untuk proses perayapan website/blog yang bisa diakses secara umum. Secara sederhana cara kerja web crawler Google menggunakan aplikasi yang disebut Googlebot. 

    Crawler Googlebot akan merayapi setiap halaman website/blog seperti ketika sobat belajar online membuka link lewat browser, kemudian mengikuti link setiap halaman web dan membawa data dari website/blog tersebut ke server Google.

    Proses crawling web oleh googlebot dimulai dari crawling alamat utama web (domain), kemudian ke sitemap (peta situs) yang dibuat oleh pemilik website.

    adanya sitemap website akan memudahkan google bot google dalam proses crawling web/blog tersebut.

    Pada akhirnya program google bot akan menentukan situs mana yang ramai pengunjung dan selalu diupdate, berapa banyak konten yang ada, untuk menentukan posisinya.

    Google tidak menerima bayaran dalam memposisikan website. Website/blog yang menurut mesin pencari google bagus maka akan berada di posisi pertama hasil pencarian Google. Mengapa Google tidak mau menerima bayaran dalam merayapi dan mengindeks website ? Hal ini tentu saja berkaitan dengan manfaat untuk pengguna yang mencari informasi lewat mesin pencari google, karena itu merupakan bisnis utama mesin pencari Google.


  3. Mengorganisasi informasi hasil proses crawling web
  4. Setelah proses crawling web, maka mesin pencari google kemudian memasukkannya dalam daftar indeks Google. Gambaran internet itu ibarat perpustakaan dengan miliaran buku, namun sayangnya tidak mempunyai katalog khusus dan pengarsipan utama. Dari situ, maka google mengumpulkan alamat dan isi halaman-halaman web yang dicrawl oleh google bot kemudian membuat indeks. Dengan begitu mesin pencari google tahu persis bagaimana Google melihat halaman yang bersangkutan.

    Gambaran bagaimana google membuat indeks dari miliaran web yang ada di dunia, coba sobat belajar online buka indeks buku yang ada di bagian belakang. Indeks Google juga berisi tentang informasi kata-kata dan lokasi kata tersebut.

    Dengan perkembangan web generasi kedua, ditambah dengan html 5 yang memberikan kesempatan kepada developer web untuk membuat web dinamis semakin banyak jenis konten yang harus diindeks google, dari teks, gambar dan video. Google pun juga menyempurnakan pengindekan konten-konten yang ada di internet untuk memahami apa yang diinginkan oleh pencari informasi lewat mesin pencari Google.


  5. Pengaturan crawling pada pemilik website/blog
  6. Walaupun Google dapat merayapi setiap halaman web, namun mesin pencari juga memberikan kebebasan kepada pemilik situs yang tidak ingin websitenya dirambah dan diindeks mesin pencari Google.

    Untuk memilih dan memberitahu google bot agar tidak merayapi dan mengindeks halaman sensitif yang berbahaya apabila diakses oleh umum, maka sobat dapat menggunakan file robot.txt. Sobat dapat mengakses Google Webmasters Tool untuk mendapatkan file robots.txt dan mengisi bagian mana yang tidak boleh dirayapi dan diindeks dari website/blog sobat oleh Google crawler.

Selamat Website anda telah di crawl dan di indeks google.