Cara Kerja Mesin Pencari Google

Sudah tahukah sobat online bagaimana cara bekerja mesin pencari Google ? Beberapa waktu lalu Google mempublikasikan panduan kepada pengguna internet bagaimana mesin pencari Google bekerja dalam bahasa inggris. Pada kesempatan ini belajaronlinegratis.com ingin membahasnya dalam bahasa intonesia agar kita bisa meningkatkan reputasi blog kita.

Ada tiga bagian dalam proses kerja mesin pencari. Dimulai dari crawling dan indexing website/blog yang ada di dunia ini. Lebih dari 100.000.000 GB informasi dikumpulkan oleh mesin pencari Google. Betapa banyak jumlah halaman yang harus dirapikan mesin pencari google agar mudah pencariannya.

Setelah diindex kemudian dimasukkan dalam algoritma tertentu milik Google untuk dipisahkan sesuai topik bahasan masing-masing halaman.

Setelah proses crawling dan indexing website/blog dan mengelompokkan masing-masing halaman dalam topik tertentu, maka proses terakhir yaitu menyingkirkan halaman-halaman spam agar pengunjung mendapatkan halaman yang berguan.

Setelah menjalani tiga proses yang rumit tersebut, terakhir Google memberikan hasil dari pencarian yang kita ketik di mesin pencari. Itulah gambaran sekilas tentang bagaimana mesin pencari Google bekerja. Pada pembahasa selanjutnya akan dibahas lebih rinci dari ketiga hal tersebut diatas.

Cara Crawling Web

Sudahkah sobat belajar online membaca bab bagaimana cara mesin pencari google bekerja ? Ya pada kesempatan ini belajaronlinegratis.com akan sharing lebih spesifik bagaimana cara Google crawling website/blog.


  1. Menemukan Informasi Website lewat crawling web
  2. Bagaimana cara kerja web crawling Google ? Google memiliki software khusus untuk proses perayapan website/blog yang bisa diakses secara umum. Secara sederhana cara kerja web crawler Google menggunakan aplikasi yang disebut Googlebot. 

    Crawler Googlebot akan merayapi setiap halaman website/blog seperti ketika sobat belajar online membuka link lewat browser, kemudian mengikuti link setiap halaman web dan membawa data dari website/blog tersebut ke server Google.

    Proses crawling web oleh googlebot dimulai dari crawling alamat utama web (domain), kemudian ke sitemap (peta situs) yang dibuat oleh pemilik website.

    adanya sitemap website akan memudahkan google bot google dalam proses crawling web/blog tersebut.

    Pada akhirnya program google bot akan menentukan situs mana yang ramai pengunjung dan selalu diupdate, berapa banyak konten yang ada, untuk menentukan posisinya.

    Google tidak menerima bayaran dalam memposisikan website. Website/blog yang menurut mesin pencari google bagus maka akan berada di posisi pertama hasil pencarian Google. Mengapa Google tidak mau menerima bayaran dalam merayapi dan mengindeks website ? Hal ini tentu saja berkaitan dengan manfaat untuk pengguna yang mencari informasi lewat mesin pencari google, karena itu merupakan bisnis utama mesin pencari Google.


  3. Mengorganisasi informasi hasil proses crawling web
  4. Setelah proses crawling web, maka mesin pencari google kemudian memasukkannya dalam daftar indeks Google. Gambaran internet itu ibarat perpustakaan dengan miliaran buku, namun sayangnya tidak mempunyai katalog khusus dan pengarsipan utama. Dari situ, maka google mengumpulkan alamat dan isi halaman-halaman web yang dicrawl oleh google bot kemudian membuat indeks. Dengan begitu mesin pencari google tahu persis bagaimana Google melihat halaman yang bersangkutan.

    Gambaran bagaimana google membuat indeks dari miliaran web yang ada di dunia, coba sobat belajar online buka indeks buku yang ada di bagian belakang. Indeks Google juga berisi tentang informasi kata-kata dan lokasi kata tersebut.

    Dengan perkembangan web generasi kedua, ditambah dengan html 5 yang memberikan kesempatan kepada developer web untuk membuat web dinamis semakin banyak jenis konten yang harus diindeks google, dari teks, gambar dan video. Google pun juga menyempurnakan pengindekan konten-konten yang ada di internet untuk memahami apa yang diinginkan oleh pencari informasi lewat mesin pencari Google.


  5. Pengaturan crawling pada pemilik website/blog
  6. Walaupun Google dapat merayapi setiap halaman web, namun mesin pencari juga memberikan kebebasan kepada pemilik situs yang tidak ingin websitenya dirambah dan diindeks mesin pencari Google.

    Untuk memilih dan memberitahu google bot agar tidak merayapi dan mengindeks halaman sensitif yang berbahaya apabila diakses oleh umum, maka sobat dapat menggunakan file robot.txt. Sobat dapat mengakses Google Webmasters Tool untuk mendapatkan file robots.txt dan mengisi bagian mana yang tidak boleh dirayapi dan diindeks dari website/blog sobat oleh Google crawler.

Selamat Website anda telah di crawl dan di indeks google.

Algoritma Mesin Pencari Google

Sebelum kita bahas tentang algoritma mesin pencarian Google, marilah kita bahas tentang arti dari algoritma. Kalau merujuk ke ensiklopedi online wikipedia. Berikut arti istilah algoritma :

"kata algoritma berasal dari latinisasi nama seorang ahli matematika dari Uzbekistan Al Khawarizmi (hidup sekitar abad ke-9), sebagaimana tercantum pada terjemahan karyanya dalam bahasa latin dari abad ke-12 "Algoorithmi de numero indorum". Pada awalnya kata algoritma adalah istilah yang merujuk kepada aturan-aturan aritmetis untuk menyelesaikan persoalan dengan menggunakan bilangan numerik arab (sebenarnya dari india seperti tertulis pada judul diatas). Pada abad ke-18, istilah ini berkembang menjadi algoritma, yang mencakup semua prosedur atau urutan langkah yang jelas dan  diperlukan untuk menyelesaikan suatu permasalahan. Masalah timbul pada saat akan menuangkan bagaimana proses yang harus dilalui dalam suatu/sebuah sistem (program) bagi komputer sehingga pada saat eksekusinya, komputer dapat bekerja seperti yang diharapkan. Programer komputer akan lebih nyaman menuangkan prosedur komputasinya atau urutan langkah proses dengan terlebih dahulu membuat gambaran (diagram alur) diatas kertas."

Dalam publikasi google dikatakan bahwa algoritma adalah program komputer yang mencari petunjuk untuk memberikan kembali apa yang anda inginkan.

Dalam pencarian spesifik mungkin ada ribuan bahkan jutaan halaman web berguna yang ada di internet. Maka algoritma google akan memproses dan memformulasikan setiap pertanyaan yang diketikkan pengguna internet di kotak pencarian google dan menghadirkan jawaban kepada pengguna internet tersebut.

Terdapat lebih dari 200 signal dan petunjuk Algoritma Google yang memungkinkan untuk menebak apa yang benar-benar dicari oleh pengguna internet. Signal-signal algoritma google mencakup istilah, update content, wilayah, dan PageRank website/blog.


Proyek Pencarian Google

Ada banyak proses dan komponen dalam proses pencarian dan ranking halaman hasil pencarian Google. Google terus memperbaiki teknologi dan sistem pencarian ini agar memberikan hasil pencarian yang lebih baik. Berikut aspek-aspek yang mempengaruhi hasil pencarian Google :

  1. Jawaban :
  2. Memberikan jawaban langsung dari informasi yang dicari seperti cuaca hasil olah raga, dan peristiwa terkini
  3. Mobile :
  4. Peningkatan dan desain web yang cocok untuk ditelusuri dengan tablet, smartphone yang kini banyak beredar.
  5. Snippets :
  6. Memberikan preview informasi awal seperti judul halaman, penjelasan singkat, informasi tentang setiap hasil pencarian.
  7. Autocomplete :
  8. Google memprediksi kira-kira apa yang dicari pengguna internet dan memberikan alternatif kata kunci yang disa digunakan
  9. Berita :
  10. Projek berita mencakup hasil pencarian dari berita online, blog dari seluruh dunia.
  11. Pengucapan :
  12. Mengidentifikasi kemungkinan kesalahan penulisan dan memberikan alternatifnya.
  13. Buku-buku:
  14. Projek pencarian buku berusaha memberikan hasil pencarian terhadap miliaran e-book yang ada di internet, termasuk preview buku tersebut baik dari perpustakaan online maupun dari penjual e-book dari seluruh dunia.
  15. Query Understanding :
  16. Memberikan hasil khusus dari kata yang pengguna ketik.
  17. Synonyms :
  18. Mengindikasikan kata-kata yang memiliki kesamaan arti.
  19. Freshness :
  20. Menunjukkan berita dan informasi terbaru termasuk ketika sobat menggunakan pencarian berdasarkan waktu publikasi konten.
  21. Refinements :
  22. Ketika sobat menggunakan pencarian lanjutan Google, maka Google akan memberikan hasil yang berbeda sesuai dengan apa yang sobat inginkan
  23. Translation and Internationalization :
  24. Menyesuaikan hasil pencarian sesuai dengan bahasa dan negara pengguna mesin pencari
  25. Google Instant :
  26. Memberikan hasil secara langsung dari apa yang sobat ketik di kotak pencarian
  27. SafeSearch :
  28. Memfilter konten dewasa dari hasil pencarian hal ini untuk melindungi pengguna dari akses situs dewasa.
  29. Universal Search :
  30. Menggabungkan konten yang relevan dari pencarian pengguna seperti gambar, berita, peta, videos dan konten pribadi dalam satu daftar hasil pencarian
  31. Gambar:
  32. Projek pencarian gambar memberikan hasil kepada pengguna berupa thumbnails, sehingga pengguna mesin pencari google dari gambar yang ada.
  33. Metode Pencarian :
  34. membuat metode baru dalam pencarian, yaitu mencari informasi lewat gambar/ suara.
  35. User Context :
  36. Memberikan hasil yang lebih relevan pada suatu berdasarkan letak geografik, negara, sejarah web dan faktor lainnya.
  37. Indexing :
  38. Google menggunakan sistem untuk mengoleksi dokumen-dokumen yang ada di internet.
  39. Site and Page Quality :
  40. Mesin pencarian google menggunakan satu set sinyal untuk menentukan bagaimana suatu situs/web dapat dipercaya, reputasi, otorisasi sumber konten. Salah satu sinyal yang digunakan google dalam menentukan reputasi web/blog adalah dengan Google PageRank.
  41. Videos :
  42. Menunjukkan hasil pencarian video oleh pengguna dan memberikan thumbnail, sehingga pengguna google dapat langsung mengunjungi dan menonton video yang diinginkan
  43. Knowledge Graph :
  44. Memberikan hasil berdasarkan orang-orang/publik figur yang ada di dunia, tempat, jalinan hubungan antara mereka.
Itu tadi sobat beberapa faktor yang mempengaruhi hasil pencarian dan algoritma yang digunakan oleh google terhadap hasil pencarian.

Menyingkirkan Web Spam

Apakah semua konten yang ada di seluruh dunia diindeks oleh mesin pencari Google ? Sebelum menjawab coba jawab pertanyaan ini. Apakah semua konten yang ada di internet membawa manfaat bagi manusia ? Banyak website yang mengoptimalkan untuk mesin pencari saja tanpa menghiraukan manfaatnya bagi umat manusia, padahal mereka menggunakan mesin pencari Google untuk mencari informasi yang mereka butuhkan.

Dengan alasan tersebut pulalah maka tidak semua website yang terindentifikasi sebagai web spam akan dimasukkan dalam kotak google panda yang tidak akan muncul dalam hasil pencarian Google. Tindakan mencurangi algoritma google ini merupakan salah satu bentuk spam. Lalu apa spam itu ?

Kalau kita merujuk ke wikipedia, yang dimaksud "spam adalah penggunaan perangkat elektronik untuk mengirimkan pesan secara bertubi-tubi tanpa dikehendari oleh penerimanya. Orang yang melakukan spam disebut spammer. Tindakan spam dikenal dengan nama spamming".

Dalam kaitannya dengan mesin pencarian, web spam disebut juga spamdexing yang mana spamdexing merupakan singkatan dari spamming dan indexing. Spamdexing dapat dilakukan dengan memanipulasi dan memodifikasi halaman HTML agar bisa muncul dalam daftar teratas hasil pencarian mesin pencari.

Teknik-teknik spamdexing sudah diketahui oleh mesin pencari-mesin pencari modern, sehingga mereka pun memperbaharui algoritma mesin pencarian agar web yang menggunakan teknik spamdexing tidak muncul di daftar hasil pencarian. Jika ketahuan menggunakan teknik-teknik spam, konsekwensinya website tersebut akan hilang dari daftar hasil pencarian rugi kan ?!


Perang melawab web spam

Berapa banyak web/blog spam yang diciptakan setiap hari. Mesin pencari Google melawan dan menyingkirkan web spam melalui kombinasi algoritma komputer dan review secara manual terhadap keberadaan web/blog. Hal ini untuk memastikan bahwa Google tidak menempatkan web yang tidak selayaknya.

Situs spam berusaha untuk menghindari celah algoritma google agar bisa tampil di puncak hasil pencarian. Beberapa teknik web spam yang sering dipakai alah pengulangan kata kunci yang tidak wajar/tidak relevan, membeli link dari situs ber PageRank tinggi agar dikira kredibel oleh mesin pencari, menempatkan tulisan yang tidak terlihat pengunjung dengan menyamarkannya dengan warna background web, web yang membuat konten otomatis seperti autoblog, dll.

Tindakan web spam tersebut tentu saja akan membuat situs yang relevan menjadi turun dalam hasil pencarian dan sulit ditemukan oleh pencari informasi di internet. Untuk memerangi web spam tersebut Google memiliki algoritma khusus yang secara otomatis akan menurunkan peringkat web spam. Karena selain mereview melalui program algoritma, Google juga mereview situs secara manual.


Jenis-Jenis Spam Mesin Pencari

Setelah kita membahas tentang apa itu spam, mari kita lanjutkan dengan belajar mengetahui jenis-jenis spam.

  1. Cloaking dan Sneaky Redirects
  2. Citi utama situs spam yang menerapkan web cloaking adalah menampilkan konten yang berbeda untuk pengguna manusia dari yang ditampilkan di hasil pencarian, atau bisa juga mengarahkan pengguna ke halaman yang berbeda dari yang dilihat Google.

  3. Web Murni menerapkan Spam konten
  4. Situs spam murni memang sengaja dibuat dengan cara menulis kata kunci yang ditargetkan secara membabi buta. Pelanggaran ini dilakukan berulang-ulang sehingga kurang memberikan manfaat pengunjung manusia.

  5. Link yang tidak wajar dari website
  6. Hati-hati sobat apabila mengikuti program pertukaran link, karena bisa-bisa blog sobat dihilangkan dari daftar hasil pencarian google. Ketika terjadi outbound links (link keluar) yang tidak wajar maka google akan mendeteksi situs tersebut sebagai situs spam.

  7. Hacked Site
  8. Google akan menganggap spam situs-situs yang diretas dengan menampilkan konten spam dan link. Untuk kasus ini pemilik situs harus segera mengambil tindakan bersih-bersih situsnya dan meningkatkan keamanan situs.

  9. Menggunakan layanan hosting gratis dan penyedia DNS dinamis
  10. Mesin pencari google akan menganggap spam situs yang dihosting di layanan hosting gratis serta memiliki DNS dinamis yang memiliki sedikit konten bagi pengguna internet.

  11. Inbound Link Yang Tidak Wajar
  12. Kalau dalam kasus diatas ada spam dengan metode outbound yang tidak wajar, pada jenis spam ini suatu situs contohnya situs utama A memiliki situs-situs kloningan yang mengarah ke situs A tersebut dengan cara yang tidak wajar, menipu, atau juga hasil berpartisipasi dalam program pertukaran link.

  13. Teks tersembunyi dan kata kunci tidak wajar
  14. Apabila teks blog sobat online sama dengan warna background blog sobat, maka segera ganti teks yang tidak kelihatan tersebut agar tidak dianggap spam oleh Google. Selain itu pengisian kata-kunci (keywords) yang tidak normal juga beresiko blog/situs dianggap spam oleh Google.

  15. Sedikit konten tanpa ada nilai tambah
  16. Situs-situs yang memiliki sedikit konten dan kurang memberikan manfaat bagi pengguna juga bisa dianggap spam oleh Google, contohnya situs yang cuma berisi daftar afiliasi, menggunakan doorway pages, konten yang dihasilkan dengan program/ software automatically generated content, dan tindakan copy paste konten.

  17. user-generated spam
  18. Suatu situs yang memberikan penggunanya kesempatan untuk melakukan dan mempublikasikan konten. Problem situs ini akan muncul pada halaman forum, halaman buku tamu atau profil pengguna.

  19. Parked domains
  20. Situs yang diparkir tentu saja memiliki sedikit konten unik, dan biasanya Google tidak akan memasukkan mereka dalam hasil pencarian mesin pencari Google.

Itulah jenis-jenis spam yang dipublikasikan secara resmi oleh Google beberapa waktu lalu. Semoga ini bisa menjadi panduan bagi pemilik situs/blog untuk meningkatkan nilai guna situs bagi umat manusia, bukan hanya oleh mesin pencari.