WEB CRAWLER & WEB POLICIES
Apa itu Web Crawler?
Web Crawler
atau spider adalah sebuah tool untuk mengindeks dan mengunduh konten dari
internet, lalu disimpan ke dalam database mesin pencari. Sehingga saat ada
orang yang mencari suatu informasi, mesin pencari akan langsung menampilkan hasil
yang relevan dari database tersebut.
Masih bingung?
Coba bayangkan seorang pustakawan. Pustakawan ini bertugas merapikan buku-buku yang ada di perpustakaan agar pengunjung mudah menemukan buku yang mereka cari. Buku-buku ini dirapikan berdasarkan kategori dan topik pembahasannya. Sehingga, pustakawan harus melihat judul dan deskripsi singkat dari buku itu terlebih dahulu sebelum menempatkannya ke rak yang sesuai. Nah, Web crawler ini mengumpulkan/mengindeks informasi apa saja yang sekiranya berguna di internet. Dari konten artikel, gambar, video, suara hingga alamat email.
Lalu apa saja yang dipertimbangkan?
1. Seberapa penting dan relevan dalam suatu web
Perbandingan antara Routing Protocol
Agar memudahkan teman-teman, disini saya akan menampilkannya dengan tabel. Adapun tabelnya seperti berikut ini :
Masih bingung?
Coba bayangkan seorang pustakawan. Pustakawan ini bertugas merapikan buku-buku yang ada di perpustakaan agar pengunjung mudah menemukan buku yang mereka cari. Buku-buku ini dirapikan berdasarkan kategori dan topik pembahasannya. Sehingga, pustakawan harus melihat judul dan deskripsi singkat dari buku itu terlebih dahulu sebelum menempatkannya ke rak yang sesuai. Nah, Web crawler ini mengumpulkan/mengindeks informasi apa saja yang sekiranya berguna di internet. Dari konten artikel, gambar, video, suara hingga alamat email.
Contoh Web Crawler
Setiap mesin pencari yang ada di Internet memiliki
web crawler-nya sendiri. Oleh karena itu, jika anda melakukan pencarian dengan
keyword yang sama dimesin pencari lain akan menghasilkan hasil yang berbeda
pula.
Contohnya ada :
- Bingbot dari Bing
- Slurp Bot dari Yahoo
- DuckDuckBot dari DuckDuckGo
- Baiduspider dari Baidu (Mesin pencari dari China)
- Yandex Bot dari Yandex (Mensin pencari dari Rusia)
- Exabot dari Exalead
- Alexa Clawler dari Amazon
Cara Kerja
Web Crawler
bekerja berdasarkan daftar halaman link yang sudah dikenal sebelumnya
berdasarkan
sitemap suatu Web. Kemudian,
dari daftar link tersebut ia akan menemukan link – link lain yang tersebar didalamnya.
Lalu, ia akan Crawling ke link – link yang baru saja ditemukan itu. Prosesnya
berulang pada link berikutnya dan bisa terus berjalan tanpa henti.
#Note :
Web crawler ini tak
sembarangan melakukan crawling. Ada beberapa aturan yang harus
mereka patuhi dan pertimbangkan sehingga mereka bisa lebih selektif dalam Crawling.Lalu apa saja yang dipertimbangkan?
1. Seberapa penting dan relevan dalam suatu web
Ia
menentukan halaman mana yang perlu crawling, berdasarkan
jumlah halaman lain yang menaruh link ke halaman tersebut dan jumlah pengunjung
ke sana. Jadi, apabila halaman muncul dihalaman yang lain dan dapat pengunjung yang
banyak, maka tandanya halaman itu penting.
2. Kunjungan rutin
Web crawler perlu untuk mengunjungi berbagai halaman
website secara rutin agar memastikan versi terakhir halaman tersebut yang ada
di indeks. Apalagi kalau halaman itu merupakan halaman yang penting dan banyak
pengunjungnya, pasti akan sering melakukan kunjungan ulang yang rutin ke sana.
3. Menuruti keinginan Robots.txt
Jadi sebelum crawling ke suatu
website, ia akan mengecek robots.txt dari website itu terlebih dahulu.
Robots.txt ini merupakan file di sebuah website yang berisi informasi mengenai
halaman mana yang boleh diindeks dan halaman mana yang tak boleh.
Apa Fungsinya?
1. Membandingkan harga
Web crawler
bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun
data dari produk tersebut bisa akurat. Jadi, saat Anda mencari suatu produk,
harga produk tersebut akan langsung muncul tanpa perlu masuk ke website
penjualnya.
2. Data untuk Tools analisis
Tools analisis website seperti Google Search
Console dan Screaming Frog SEO mengandalkan web crawler untuk
mengumpulkan data-data dan melakukan indexing. Sehingga data-data yang
dihasilkan selalu akurat dan terbaru.
3. Data untuk statistik
Web crawler juga memberikan data-data penting yang
bisa digunakan untuk website berita atau website statistik. Misalnya, hasil
pencarian berita yang akan muncul di Google News. Untuk muncul di Google
News, website memerlukan sitemap khusus yang akan di-crawl oleh web crawler
nantinya.
Routing Protocol
Routing protocol adalah protokol dalam jaringan
komputer yang digunakan untuk membroadcast dan mempelajari jaringan yang
terhubung dan mempelajari rute (network path) yang tersedia. Dengan routing
protocol, router yang berbeda bisa saling bertukar informasi antara satu router
dengan router lain dan mendapat rute routing paling efisien ke tujuan.
Contohnya
1. Routing Information Protocol
adalah protokol yang memberikan informasi routing table berdasarkan router yang terhubung langsung. Kemudian, router selanjutnya akan memberikan informasi ke router selanjutnya yang terhubung langsung dengan router tersebut.
2. Interior Gateway Routing Protocol
IGRP adalah sebuah routing protocol yang dikembangkan oleh Cisco Systems Inc. pada pertengahan tahun 1980-an. Pada IGRP, routing dilakukan secara matematik berdasarkan jarak. Oleh karena itu, sistem IGRP sudah mempertimbangkan beberapa hal sebelum mengambil keputusan jalur mana yang akan ditempuh.
3. Open Short Path First
OSPF adalah sebuah routing protocol standar terbuka yang telah diaplikasikan oleh sejumlah vendor jaringan dan dijelaskan di RFC 2328. Protokol ini cocok diterapkan pada jaringan yang memiliki router yang berbeda-beda. OSPF bekerja dengan sebuah algoritma “link-state” yang disebut algoritma Dijkstra / SPF.
4. Enhanced Interior Gateway Routing Protocol
Protokol ini menggunakan algoritma “advanced distance vector” dan menggunakan “cost load balancing” yang tidak sama. Algoritma yang dipakai adalah kombinasi antara “distance vector” dan “link-state”, serta menggunakan Diffusing Update Algorithm (DUAL) untuk menghitung jalur terpendek.
5. Border Gateway Protocol
BGP memiliki kemampuan untuk melakukan pengumpulan rute, pertukaran rute dan menentukan rute terbaik menuju ke sebuah lokasi dalam sebuah jaringan. Namun yang membedakan BGP dengan routing protocol lain adalah BGP termasuk ke dalam kategori routing protocol jenis Exterior Gateway Protocol (EGP).
6. Intermediate System to Intermediate System
IS-IS adalah protokol digunakan pada perangkat jaringan komputer yang berguna untuk menentukan jalur terbaik bagi datagram ketika diarahkan ke tujuan. Lebih lengkapnya didefinisikan dalam ISO / IEC 10589 2002 dalam desain referensi OSI.
Contohnya
1. Routing Information Protocol
adalah protokol yang memberikan informasi routing table berdasarkan router yang terhubung langsung. Kemudian, router selanjutnya akan memberikan informasi ke router selanjutnya yang terhubung langsung dengan router tersebut.
2. Interior Gateway Routing Protocol
IGRP adalah sebuah routing protocol yang dikembangkan oleh Cisco Systems Inc. pada pertengahan tahun 1980-an. Pada IGRP, routing dilakukan secara matematik berdasarkan jarak. Oleh karena itu, sistem IGRP sudah mempertimbangkan beberapa hal sebelum mengambil keputusan jalur mana yang akan ditempuh.
3. Open Short Path First
OSPF adalah sebuah routing protocol standar terbuka yang telah diaplikasikan oleh sejumlah vendor jaringan dan dijelaskan di RFC 2328. Protokol ini cocok diterapkan pada jaringan yang memiliki router yang berbeda-beda. OSPF bekerja dengan sebuah algoritma “link-state” yang disebut algoritma Dijkstra / SPF.
4. Enhanced Interior Gateway Routing Protocol
Protokol ini menggunakan algoritma “advanced distance vector” dan menggunakan “cost load balancing” yang tidak sama. Algoritma yang dipakai adalah kombinasi antara “distance vector” dan “link-state”, serta menggunakan Diffusing Update Algorithm (DUAL) untuk menghitung jalur terpendek.
5. Border Gateway Protocol
BGP memiliki kemampuan untuk melakukan pengumpulan rute, pertukaran rute dan menentukan rute terbaik menuju ke sebuah lokasi dalam sebuah jaringan. Namun yang membedakan BGP dengan routing protocol lain adalah BGP termasuk ke dalam kategori routing protocol jenis Exterior Gateway Protocol (EGP).
6. Intermediate System to Intermediate System
IS-IS adalah protokol digunakan pada perangkat jaringan komputer yang berguna untuk menentukan jalur terbaik bagi datagram ketika diarahkan ke tujuan. Lebih lengkapnya didefinisikan dalam ISO / IEC 10589 2002 dalam desain referensi OSI.
Perbandingan antara Routing Protocol
Agar memudahkan teman-teman, disini saya akan menampilkannya dengan tabel. Adapun tabelnya seperti berikut ini :
Bagaimana teman-teman, sudah paham belum tentang apa itu Web Crawler dan Web Policies? Semoga mudah dipahami dan dimengerti ya. Cukup segitu aja pembahasan kita pada kali ini. Semoga membawa banyak manfaat bagi teman-teman semua yaa.. Terima Kasih :)
Referensi :
- https://www.niagahoster.co.id/blog/apa-itu-web-crawler/
- http://animyself.blogspot.com/2014/11/makalah-bgp.html
- http://netman-networking.blogspot.com/2015/10/border-gateway-protocol-bgp.html
- https://santekno.com/bgp-border-gateway-protocol/
- https://anggisyahputri.wordpress.com/2016/02/29/border-gateway-protocol-bgp/
- http://leonard439-leonard439.blogspot.com/2009/06/kelebihan-dan-kekurangan.html
- https://idcloudhost.com/kamus-hosting/web-crawler/
- https://dosenit.com/jaringan-komputer/teknologi-jaringan/jenis-jenis-routing-protocol
Komentar
Posting Komentar