SEO Dasar : Crawling – Indexing – Serving

Larry Page dan Serge Brin mendirikan Google pada tahun 1998. Saat ini, orang di seluruh dunia menggunakan Google setiap hari, mengetikkan miliaran kueri pencarian untuk berita, resep, ulasan, arah, dan apa pun yang bisa Anda pikirkan. Pengguna juga memanfaatkan pencarian Google sebagai gerbang menuju situs web favorit mereka. Beberapa istilah yang paling sering dicari sebenarnya hanya YouTube dan Google. Ini berarti memastikan situs web Anda terindeks dan terperingkat dengan baik dalam hasil pencarian Google sangat penting untuk terhubung dengan audiens sasaran Anda melalui pencarian. Tapi apakah Anda tahu bagaimana halaman hasil pencarian Google terbentuk dan bagaimana mengidentifikasi peluang untuk memastikan situs web Anda sepenuhnya dapat ditemukan di Google?

Dalam artikel ini, kita akan menjelajahi tiga tahap utama pencarian. Crawling, bagaimana Google menemukan URL dan menjelajahi internet, pengindeksan, atau cara Google memahami isi halaman dan hubungannya dengan halaman lain di internet, dan juga menyimpan informasi itu dengan cara yang dapat dicari. Lalu akhirnya, Serving – melayani atau bagaimana Google benar-benar menyajikan dan mengurutkan hasil.

Kemudian kita akan melihat halaman hasil pencarian, membongkar komponen hasil teks, dan melihat atribut berbeda yang dapat Anda tambahkan ke halaman Anda untuk meningkatkan visibilitas situs Anda.

Setelah membaca artikel ini Anda akan dapat menjelaskan sendiri apa arti crawling, pengindeksan, dan penyajian dalam kaitannya dengan pencarian Google, cara halaman web diranking, dan bagaimana mempengaruhi tampilan hasil situs Anda dalam pencarian.

Ada dua hal yang perlu Anda ketahui. Pertama, Google tidak menerima pembayaran untuk mengindeks situs lebih sering atau memberi peringkat lebih tinggi. Jika ada yang memberitahu Anda sebaliknya, mereka salah. Kedua, memiliki situs web yang dapat dicari di Google, terutama yang muncul di bagian atas hasil, sangat bergantung pada kualitas konten halaman Anda.

Misalnya, teks yang tidak berarti dalam jumlah besar akan berkinerja buruk dalam hasil pencarian. Itu akan lebih masuk akal setelah kita membahas bagaimana Google melihat informasi pada halaman situs web Anda.

Crawling

Crawling adalah proses menemukan halaman web baru atau yang diperbarui menggunakan program otomatis yang disebut Crawler dan mendownloadnya agar dapat dicari.

Langkah pertama dalam proses crawling disebut penemuan URL. Sebelum Google dapat menampilkan halaman web dalam hasil pencariannya, ia harus mengetahui bahwa halaman tersebut sebenarnya ada. Google terus mencari halaman baru dan yang terbaru. Namun, dengan triliunan URL di internet, beberapa tidak akan pernah ditemukan. Halaman baru biasanya ditemukan ketika Google mengikuti sebuah tautan, URL lebih tepatnya, dari halaman yang dikenal ke halaman baru. Sebagai contoh, dari halaman hub seperti kategori ke halaman baru.

Sebagian besar URL baru yang ditemukan Google berasal dari halaman lain yang sudah diketahui yang sebelumnya dicrawl oleh Google. Anda bisa menganggap sebuah situs berita dengan halaman kategori berbeda yang kemudian menautkan ke artikel berita individu. Google dapat menemukan sebagian besar artikel yang diterbitkan dengan mengunjungi kembali halaman kategori dari waktu ke waktu dan mengekstraksi URL yang mengarah ke artikel tersebut.

Crawling dilakukan oleh Crawler, sepotong perangkat lunak yang menelusuri internet, mengunduh halaman web, dan mengekstraksi tautan yang kemudian bisa diunduh lagi. Ini sangat mirip dengan browser yang dikendalikan oleh bot alih-alih manusia. Crawler utama Google disebut Googlebot.

Googlebot menggunakan algoritma untuk menentukan situs mana yang akan dicrawl, seberapa sering, dan berapa banyak halaman yang akan diambil dari setiap situs. Algoritma adalah proses, atau jika Anda suka, kumpulan aturan yang digabungkan untuk mencapai fungsi tertentu dalam program komputer. Googlebot juga diprogram untuk menghindari mencrawl situs terlalu cepat untuk menghindari membebani situs tersebut.

Kecepatan crawling unik untuk setiap situs dan sebagian besar didasarkan pada seberapa cepat situs bereaksi terhadap permintaan individu oleh Googlebot, kualitas konten secara umum, dan potensi kesalahan server serta sinyal lainnya. Googlebot tidak mencrawl setiap URL yang ditemukannya.

Beberapa halaman mungkin berada di situs yang tidak memenuhi ambang batas kualitas yang diperlukan untuk diindeks, yang akan kita bicarakan lebih lanjut nanti. URL lain mungkin tidak diizinkan untuk dicrawl, sementara yang lain mungkin tidak dapat diakses tanpa masuk ke situs tersebut. Googlebot hanya akan mencrawl URL yang dapat diakses secara publik. Jika Anda meletakkan sesuatu di balik halaman login, Googlebot tidak dapat mencrawlnya. Setelah Googlebot menemukan URL Anda, langkah selanjutnya adalah mengunduh atau mengambil jika Anda suka, dan kemudian, rendering halaman yang dihosting di bawah URL tersebut.

Proses pengambilan hanya mengunduh data yang disajikan dari URL tertentu. Rendering lebih menarik. Ini pada dasarnya adalah hal yang sama yang dilakukan browser Anda. Rendering Service mengambil halaman yang diunduh dari URL, yang biasanya merupakan campuran file yang mengandung HTML, CSS, dan JavaScript, dan mengubahnya menjadi representasi visual dari halaman tersebut. Dalam melakukannya, ia akan menjalankan JavaScript apa pun yang ditemukannya menggunakan versi terbaru dari Chrome.

Rendering penting karena situs web sering mengandalkan JavaScript untuk membawa konten ke dalam halaman dan membuatnya lebih hidup. Tanpa rendering, Google tidak akan melihat konten tersebut, dan tentu saja, akan kehilangan semua kelincahan, elemen berkedip, dan teks bergulir yang tidak mungkin Anda baca. Saya memang suka JavaScript. Selain itu, ini mengakhiri proses crawl. Sebelum kita melanjutkan, mari kita bicara tentang sitemap.

Sitemaps adalah kumpulan URL ke halaman di situs Anda, dan mereka sangat membantu jika Anda ingin situs Anda ditemukan oleh Google.

Format paling populer adalah file XML yang memungkinkan Anda untuk menyediakan tidak hanya URL dari halaman Anda, tetapi juga beberapa metadata tambahan tentangnya.

Sitemap benar-benar tidak wajib, tetapi mereka bisa sangat membantu Google dan juga mesin pencari lainnya menemukan konten Anda. Jika itu menarik perhatian Anda, bekerja samalah dengan penyedia situs web atau pengembang Anda untuk memastikan bahwa situs web Anda secara otomatis menghasilkan file sitemap. Meskipun Anda bisa duduk di sudut dan secara manual menambahkan semua 7 juta URL itu ke sitemap Anda, itu banyak pekerjaan dan merupakan sumber kesalahan yang tidak perlu. Biarkan sistem manajemen konten situs Anda membuat file sitemap untuk Anda.

Sekarang Anda tahu bagaimana Google menemukan dan mengambil halaman web, bagaimana Google dapat membuat halaman Anda tersedia melalui pencarian? Berikutnya adalah indexing.

Indexing

Bagaimana Google menemukan dan mengunduh halaman web baru dan yang diperbarui disebut dengan crawling. Begitu halaman telah dicrawling dan dirender, langkah berikutnya adalah memahami dengan tepat apa yang ada di halaman tersebut dan menentukan beberapa sinyal yang akan membantu kita memutuskan apakah kita seharusnya mengindeks halaman tersebut.

Google tidak akan sangat berguna jika tidak memahami bahwa beberapa halaman adalah resep, beberapa halaman adalah artikel, dan sebagainya. Demikian pula, jika kata dan frasa individual tidak diekstraksi dari halaman yang diunduh, pengguna akan sangat kesulitan menemukannya. Secara sederhana, ini adalah proses pengindeksan.

Pengindeksan mencakup pemrosesan dan analisis konten tekstual, tag konten utama, atribut, gambar, video, dan menghitung sinyal yang dapat digunakan Google untuk menentukan peringkat halaman dalam hasil pencariannya. Pertama, Google mem-parsing HTML dan memperbaiki masalah semantik apa pun yang mungkin ditemui. Ini akan memastikan bahwa semua tag HTML berada di tempat yang tepat dan di tempat yang seharusnya.

Misalnya, salah satu elemen paling penting dalam HTML adalah elemen <head> yang biasanya berisi metadata tentang halaman itu sendiri dalam bentuk meta tag dan link tag. Ada sangat sedikit tag HTML yang valid yang dapat muncul di bagian ini dari HTML. Dan jika tag yang tidak didukung digunakan, Google dan juga browser lainnya, akan menutup elemen tersebut secara paksa tepat sebelum tag yang tidak didukung tersebut. Ini akan membuat metadata lainnya keluar dari elemen, membuatnya tidak berguna untuk tujuan pengindeksan.

Setelah HTML dalam format yang sesuai, Google menentukan apakah halaman tersebut adalah duplikat dari halaman lain yang sudah dikenal. Versi mana yang harus disimpan dalam indeks, versi kanonis? Benar, tetapi dalam konteks ini, versi kanonis adalah halaman dari kelompok halaman duplikat yang paling mempresentasikan kelompok tersebut berdasarkan sinyal yang telah dikumpulkan tentang setiap versi. Untuk sebagian besar, hanya halaman kanonis yang muncul dalam hasil pencarian. Setelah Google memiliki konten dari halaman Anda, atau lebih spesifiknya, konten utama atau inti dari halaman tersebut, ia akan mengelompokkannya dengan satu atau lebih halaman yang menampilkan konten serupa, jika ada.

Ini adalah duplicate clustering. Kemudian ia membandingkan beberapa sinyal yang telah dihitung untuk setiap halaman untuk memilih versi kanonis. Sinyal adalah potongan informasi yang dikumpulkan mesin pencari tentang halaman dan situs web yang digunakan untuk pemrosesan lebih lanjut. Beberapa sinyal sangat sederhana, seperti anotasi atau kode tertentu pemilik situs dalam HTML seperti REL canonical, sementara yang lainnya, seperti pentingnya halaman individu di internet, kurang sederhana. Setiap kluster duplikat akan memiliki satu versi konten yang dipilih sebagai kanonis. Versi ini akan mewakili konten dalam hasil pencarian untuk semua versi lainnya. Versi lain dalam kluster menjadi versi alternatif yang dapat disajikan dalam konteks yang berbeda, seperti jika pengguna mencari halaman yang sangat spesifik dari kluster tersebut.

Namun, mari kita lanjutkan ke pemilihan indeks. Setelah sinyal dikumpulkan dan duplikat dihapus, Google memutuskan apakah akan mengindeks halaman atau tidak. Proses ini disebut pemilihan indeks. Ini sangat tergantung pada kualitas halaman dan sinyal yang telah Google kumpulkan sebelumnya. Jika halaman kanonis benar-benar diindeks, maka Google menyimpan informasi yang sudah kumpulkan tentangnya dan klusternya dalam indeks Google.

Indeks Google secara teknis hanyalah basis data besar yang berada di ribuan komputer. Namun, berbicara dengannya dengan cara yang benar, ia mengembalikan hasil yang sangat relevan dengan apa pun yang kita tanyakan. Ini yang disebut penyajian dan pemeringkatan hasil pencarian.

Serving

Kita sudah belajar bagaimana Google melakukan crawling halaman web dan mengindeks konten mereka. Sekarang saatnya untuk benar-benar menyajikan dan menentukan peringkat hasil berdasarkan konten itu dan apa yang dicari pengguna. Ketika Anda memasukkan query ke Google, mesin Google mencari di indeks Google untuk halaman yang cocok dan mengembalikan hasil yang kami yakini memiliki kualitas tertinggi, dapat dipercaya, dan paling relevan dengan query Anda.

Pengambilan hasil dimulai dengan menafsirkan query. Pertama, query dibersihkan. Kemudian diperiksa untuk entitas tertentu. Misalnya, dalam query, sebuah foto bulan yang indah, sebenarnya tidak memerlukan stop words, seperti sebuah, dari, dan yang, jadi kami akan menghapusnya. Namun, Patung Liberty memang memerlukan kata dari, jadi kami akan membiarkannya. Selain itu, Patung Liberty diakui sebagai entitas tersendiri. Query juga akan diperluas untuk menyertakan kata-kata yang mirip.

Misalnya, pencarian dealer mobil akan diperluas untuk menyertakan dealer auto karena mobil dan auto adalah sinonim dekat. Setelah kami memahami query, kami dapat mengirimkannya ke indeks. Berdasarkan query yang sudah diparsing, indeks akan mengembalikan sejumlah besar hasil yang perlu diperingkat.

Peringkat sangat bergantung pada relevansi hasil bagi pengguna. Ratusan faktor menentukan relevansi dengan konten aktual dari halaman yang menjadi faktor paling penting, tetapi juga hal-hal seperti lokasi pengguna, bahasa, dan jenis perangkat. Misalnya, pencarian bengkel reparasi sepeda akan menunjukkan hasil yang berbeda kepada pengguna di Paris daripada kepada pengguna di Hong Kong.

Google juga perlu mempertimbangkan kualitas halaman dan situs selama peringkat. Kualitas ditentukan oleh sejumlah fitur seperti keunikan konten, pentingnya halaman relatif di internet, dan banyak lagi. Untuk lebih detail tentang bagaimana kami menentukan dan memikirkan kualitas secara umum, kami telah menerbitkan beberapa halaman bantuan yang harus Anda periksa, yang ditautkan di deskripsi. Berdasarkan query pengguna, fitur pencarian yang muncul di halaman hasil pencarian mungkin juga berubah.

Kembali ke query tadi, bengkel reparasi sepeda, Anda mungkin melihat hasil lokal dan tidak ada hasil gambar. Namun, pencarian untuk sepeda modern lebih mungkin menunjukkan hasil gambar daripada hasil lokal.

Anatomi dari Hasil Pencarian Google

Apa yang terjadi ketika sebuah query mengembalikan hasil. Google dapat mengembalikan berbagai jenis hasil pencarian, tetapi kita akan fokus pada jenis hasil utama, yaitu hasil teks. Secara historis juga disebut 10 Blue Links atau hanya Blue Links, hasil ini telah berkembang secara signifikan selama bertahun-tahun, tetapi masih memiliki elemen dasar yang sama. Setiap hasil teks terdiri dari setidaknya satu tautan judul dan cuplikan. Tautan judul mungkin adalah bagian yang paling menonjol dari hasil pencarian. Ini adalah bagian yang langsung menarik perhatian Anda ketika hasil muncul. Tautan judul dihasilkan berdasarkan konten halaman.

Dalam banyak kasus, link judul identik dengan elemen judul dari HTML di halaman, yang dapat dikontrol langsung oleh pemilik situs. Ini juga dapat berupa judul di halaman, yang sekali lagi berarti bahwa pemilik situs dapat mengendalikannya. Dalam beberapa kasus, terutama di mana konten halaman tidak tersedia untuk beberapa alasan, tautan judul dapat dihasilkan menggunakan sumber eksternal seperti anchor texts, yang merupakan bagian yang terlihat dari tautan. Cuplikan dari hasil teks, sama seperti tautan judul, berasal dari konten halaman. Jika konten tidak tersedia, maka hasilnya mungkin tidak memiliki cuplikan atau snippetsama sekali.

atribusi hasil pencarian google

 

Secara umum, cuplikan atau snippet dipilih dari apa yang akan dilihat pengguna ketika mereka mendarat di halaman. Tetapi jika tidak ada cukup teks di halaman, cuplikan mungkin diambil dari teks yang tidak terlihat oleh pengguna seperti atribut alt dari gambar dan elemen deskripsi. Karena teks dari cuplikan hanya berasal dari konten halaman, Anda memiliki kontrol langsung atasnya, dan Anda dapat bereksperimen dan bisa langsung terlihat di hasil pencarian dengan cukup mudah. Anda juga bisa mengontrol apakah Google akan menampilkan cuplikan/snippet dalam hasil pencarian untuk halaman tertentu yang Anda miliki menggunakan <meta name=”robots” content=”nosnippet”>  atau Anda dapat mengontrol seberapa panjang cuplikan tersebut dengan <meta name=”robots” content=”max-snippet:[number]”>

hasil pencarian google

Jika Anda tidak ingin bagian tertentu muncul dalam cuplikan, Anda dapat menggunakan atribut HTML data no snippet pada elemen HTML tertentu. Fitur lain yang menonjol dari hasil teks adalah fitur atribusi, yaitu Favicon situs Anda, nama situs, dan URL yang terlihat, termasuk breadcrumbs. Tentu saja, Anda dapat mempengaruhi masing-masing hal ini dengan berbagai cara. Misalnya, mengubah URL Anda mungkin mengubah breadcrumb. Mengubah data terstruktur mungkin memperbarui nama situs Anda, dan mengunggah Fevicon baru ke situs Anda akan memperbarui Fevicon di hasil pencarian. Dalam cuplikan itu sendiri, terkadang Anda dapat melihat tanggal byline, yang adalah perkiraan Google untuk kapan halaman tersebut diperbarui atau bahkan diterbitkan.

Di bawah cuplikan, Anda terkadang bisa melihat site links, dua atau lebih tautan dari domain yang sama atau versinya yang alternatif, dikelompokkan bersama untuk membantu pengguna mencapai halaman yang relevan dengan hasil tertentu itu. Dan itu melengkapi anatomi dasar dari hasil pencarian.

Leave a Reply

Your email address will not be published. Required fields are marked *