WEB CRAWLER

Diposting oleh Muhammad Zaid Taqy Senin Maret 23, 2020

WEB CRAWLER

Apa itu Web Crawler?

Web Crawler atau spider adalah sebuah tool untuk mengindeks dan mengunduh konten dari internet, lalu disimpan ke dalam database mesin pencari. Sehingga saat ada orang yang mencari suatu informasi, mesin pencari akan langsung menampilkan hasil yang relevan dari database tersebut.

Masih bingung?

Coba bayangkan seorang pustakawan. Pustakawan ini bertugas merapikan buku-buku yang ada di perpustakaan agar pengunjung mudah menemukan buku yang mereka cari. Buku-buku ini dirapikan berdasarkan kategori dan topik pembahasannya. Sehingga, pustakawan harus melihat judul dan deskripsi singkat dari buku itu terlebih dahulu sebelum menempatkannya ke rak yang sesuai. Nah, Web crawler ini mengumpulkan/mengindeks informasi apa saja yang sekiranya berguna di internet. Dari konten artikel, gambar, video, suara hingga alamat email.

Contoh Web Crawler

Setiap mesin pencari yang ada di Internet memiliki web crawler-nya sendiri. Oleh karena itu, jika anda melakukan pencarian dengan keyword yang sama dimesin pencari lain akan menghasilkan hasil yang berbeda pula.

Contohnya ada :

•       Bingbot dari Bing

•       Slurp Bot dari Yahoo

•       DuckDuckBot dari DuckDuckGO

•       Baiduspider dari Baidu (mesin pencari dari China)

•       Yandex Bot dari Yandex (mesin pencari dari Rusia)

•       Exabot dari Exalead

•       Alexa Crawler dari Amazon

Cara Kerja

Web Crawler bekerja berdasarkan daftar halaman link yang sudah dikenal sebelumnya berdasarkan sitemap suatu Web. Kemudian, dari daftar link tersebut ia akan menemukan link – link lain yang tersebar didalamnya. Lalu, ia akan Crawling ke link – link yang baru saja ditemukan itu. Prosesnya berulang pada link berikutnya dan bisa terus berjalan tanpa henti.

Lalu apa saja yang dipertimbangkan?

1. Seberapa penting dan relevan suatu halaman.

Ia menentukan halaman mana yang perlu crawling, berdasarkan jumlah halaman lain yang menaruh link ke halaman tersebut dan jumlah pengunjung ke sana. Jadi, apabila halaman muncul dihalaman yang lain dan dapat pengunjung yang banyak, maka tandanya halaman itu penting.

2. Kunjungan rutin.

Web crawler perlu untuk mengunjungi berbagai halaman website secara rutin agar memastikan versi terakhir halaman tersebut yang ada di indeks. Apalagi kalau halaman itu merupakan halaman yang penting dan banyak pengunjungnya, pasti akan sering melakukan kunjungan ulang yang rutin ke sana.

3. Menuruti keinginan Robots.txt

Jadi sebelum crawling ke suatu website, ia akan mengecek robots.txt dari website itu terlebih dahulu. Robots.txt ini merupakan file di sebuah website yang berisi informasi mengenai halaman mana yang boleh diindeks dan halaman mana yang tak boleh.

Apa Fungsinya?

1. Membandingkan Harga

Web crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat. Jadi, saat Anda mencari suatu produk, harga produk tersebut akan langsung muncul tanpa perlu masuk ke website penjualnya.

2. Data untuk Tools analisis

Tools analisis website seperti Google Search Console dan Screaming Frog SEO mengandalkan web crawler untuk mengumpulkan data-data dan melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan terbaru.

3. Data untuk Statistik

Web crawler juga memberikan data-data penting yang bisa digunakan untuk website berita atau website statistik. Misalnya, hasil pencarian berita yang akan muncul di Google News. Untuk muncul di Google News, website memerlukan sitemap khusus yang akan di-crawl oleh web crawler nantinya.

Routing Protocol

Routing protocol adalah protokol dalam jaringan komputer yang digunakan untuk membroadcast dan mempelajari jaringan yang terhubung dan mempelajari rute (network path) yang tersedia. Dengan routing protocol, router yang berbeda bisa saling bertukar informasi antara satu router dengan router lain dan mendapat rute routing paling efisien ke tujuan.

Contohnya

Routing Information Protocol

adalah protokol yang memberikan informasi routing table berdasarkan router yang terhubung langsung. Kemudian, router selanjutnya akan memberikan informasi ke router selanjutnya yang terhubung langsung dengan router tersebut.

Interior Gateway Routing Protocol

IGRP adalah sebuah routing protocol yang dikembangkan oleh Cisco Systems Inc. pada pertengahan tahun 1980-an. Pada IGRP, routing dilakukan secara matematik berdasarkan jarak. Oleh karena itu, sistem IGRP sudah mempertimbangkan beberapa hal sebelum mengambil keputusan jalur mana yang akan ditempuh.

Interior Gateway Routing Protocol

OSPF adalah sebuah routing protocol standar terbuka yang telah diaplikasikan oleh sejumlah vendor jaringan dan dijelaskan di RFC 2328. Protokol ini cocok diterapkan pada jaringan yang memiliki router yang berbeda-beda. OSPF bekerja dengan sebuah algoritma “link-state” yang disebut algoritma Dijkstra / SPF.

Enhanced Interior Gateway Routing Protocol

Protokol ini menggunakan algoritma “advanced distance vector” dan menggunakan “cost load balancing” yang tidak sama. Algoritma yang dipakai adalah kombinasi antara “distance vector” dan “link-state”, serta menggunakan Diffusing Update Algorithm (DUAL) untuk menghitung jalur terpendek.

Border Gateway Protocol

BGP memiliki kemampuan untuk melakukan pengumpulan rute, pertukaran rute dan menentukan rute terbaik menuju ke sebuah lokasi dalam sebuah jaringan. Namun yang membedakan BGP dengan routing protocol lain adalah BGP termasuk ke dalam kategori routing protocol jenis Exterior Gateway Protocol (EGP).

Intermediate System to Intermediate System

IS-IS adalah protokol digunakan pada perangkat jaringan komputer yang berguna untuk menentukan jalur terbaik bagi datagram ketika diarahkan ke tujuan. Lebih lengkapnya didefinisikan dalam ISO / IEC 10589 2002 dalam desain referensi OSI.

Cukup sampai disini teman-teman pembahasan kita mengenai Web Crawler dan Web Policies serta juga kita telah membahas mengenai jenis-jenis Routing Protocol. Semoga bermanfaat. Terima kasih..

Referensi :

- https://www.niagahoster.co.id/blog/apa-itu-web-crawler/

- http://netman-networking.blogspot.com/2015/10/border-gateway-protocol-bgp.html

- https://tkjmyworld.blogspot.com/2014/02/pengertian-dan-jenis-jenis-igrp.html

- http://leonard439-leonard439.blogspot.com/2009/06/kelebihan-dan-kekurangan.html

Komentar