Web Crawlers
Ini terdiri dari dua langkah :
Penguraian : Ini menghapus tautan untuk perayapan lebih
lanjut, menghapus JavaScript, tag, komentar, dll.
Hashing : Setelah penguraian dilakukan, itu dikodekan
ke dalam angka.
3. Searching : Dari jutaan dokumen hanya halaman yang relevan teratas yang ditampilkan. Ini melibatkan langkah-langkah tertentu untuk diikuti:
- Mengurai query
- Mengonversi kata ke WordID menggunakan fungsi hash
- Peringkat komputasi untuk setiap dokumen
Melihat volume besar web, hampir tidak mungkin untuk
mengunduh seluruh web dan merayapi, sehingga mengunduh bagian web dan
mengerjakannya. Ini memiliki kebijakan untuk memprioritaskan halaman web.
Pentingnya halaman web diputuskan dan kemudian diprioritaskan.
Re-visit Policy
Kami tahu bahwa sifat web
sangat dinamis, pada saat perayapan situs selesai banyak peristiwa terjadi yang
mencakup pembuatan, pembaruan, atau penghapusan baru. Ada banyak kebijakan yang
sedang dikunjungi kembali yang diterapkan yang mencakup kebijakan Seragam,
kebijakan Proporsional dan kebijakan optimal.
Politeness Policy
Ini termasuk seberapa sedikit membebani situs web. Perayap web menggunakan banyak sumber daya.
Parallelization Policy
Ini menyatakan bahwa crawler
menjalankan beberapa proses secara paralel. Ini memaksimalkan unduhan dan
meminimalkan overhead. Singkatnya mengkoordinasikan perayap Web terdistribusi.

Komentar
Posting Komentar