Web Crawlers

 

TUGAS PENGANTAR WEB SCIENCE








NAMA    : Ralfatihanur Ziafiq Makpal

KELAS    : 2IA2O
 
NPM        : 51420051



WEB CRAWLERS

    Web Crawlers  adalah program yang menelusuri jaringan secara otomatis dan terorganisir. Perayap web juga disebut sebagai semut, pengindeks otomatis, bot, cacing dan Laba-laba juga. Proses yang dilakukannya disebut sebagai perayapan Web. Dimaksudkan untuk merangkak melalui internet dan mengumpulkan informasi yang diinginkan. Umumnya crawler digunakan oleh mesin pencari untuk mengumpulkan informasi, Ini mengumpulkan link yang dikunjungi dan banyak informasi yang lebih penting bahwa mesin pencari menggunakan dalam algoritma ada.


Crawler berbasis mesin pencari melakukan tiga langkah :

1. Crawling    Ini secara rekursif mengikuti hyperlink yang ada untuk menemukan dokumen lainIni secara rekursif mengikuti hyperlink yang ada untuk menemukan dokumen lain.

2. Indexing    : Ini membantu untuk menyukai informasi dengan cara yang lebih cepat. Indeks ini sebenarnya adalah catlog. Perubahan Evrey di halaman web dicatat di sini.

Ini terdiri dari dua langkah :

Penguraian    : Ini menghapus tautan untuk perayapan lebih lanjut, menghapus JavaScript, tag, komentar, dll.

Hashing    : Setelah penguraian dilakukan, itu dikodekan ke dalam angka.


3. Searching    : Dari jutaan dokumen hanya halaman yang relevan teratas yang ditampilkan. Ini melibatkan langkah-langkah tertentu untuk diikuti:

-    Mengurai query

-    Mengonversi kata ke WordID menggunakan fungsi hash

-    Peringkat komputasi untuk setiap dokumen

-    Penyortiran dokumen

-    Mencantumkan dokumen teratas


Selection Policy

    Melihat volume besar web, hampir tidak mungkin untuk mengunduh seluruh web dan merayapi, sehingga mengunduh bagian web dan mengerjakannya. Ini memiliki kebijakan untuk memprioritaskan halaman web. Pentingnya halaman web diputuskan dan kemudian diprioritaskan.

Re-visit Policy

    Kami tahu bahwa sifat web sangat dinamis, pada saat perayapan situs selesai banyak peristiwa terjadi yang mencakup pembuatan, pembaruan, atau penghapusan baru. Ada banyak kebijakan yang sedang dikunjungi kembali yang diterapkan yang mencakup kebijakan Seragam, kebijakan Proporsional dan kebijakan optimal.

Politeness Policy

    Ini termasuk seberapa sedikit membebani situs web. Perayap web menggunakan banyak sumber daya.

Parallelization Policy

    Ini menyatakan bahwa crawler menjalankan beberapa proses secara paralel. Ini memaksimalkan unduhan dan meminimalkan overhead. Singkatnya mengkoordinasikan perayap Web terdistribusi.

Komentar

Postingan populer dari blog ini

Pengelolaan Web

Search Engines

Ekonomi Web