DEFINISI WEB CRAWLER
Web crawler adalah suatu program atau script otomat yang relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.
Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan.
Ketika web crawl suatu search engine mengunjungi halaman web, ia “membaca” teks yang terlihat, hyperlink, dan konten berbagai tag yang digunakan dalam situs seperti meta tag yang banyak berisi keyword. Berdasar informasi yang dikumpulkan web crawl, search engine akan menentukan mengenai apakah suatu situs dan mengindex informasinya. Website itu kemudian dimasukkan ke dalam database search engine dan dilakukan proses penentuan ranking halaman-halamannya.
Namun search engine bukanlah satu-satunya pengguna web crawl. Linguist bisa menggunakan web crawl untuk melakukan analisis tekstual; yakni, mereka bisa menyisir Internet untuk menentukan kata apa yang paling umum digunakan hari ini. Peneliti pasar dapat menggunakan web crawl untuk menentukan dan memanipulasi trend pada suatu pasar tertentu. Ini semua merupakan contoh beragam penggunaan web crawl. Web crawl dapat digunakan oleh siapapun yang melakukan pencarian informasi di Internet.
Web crawl bisa beroperasi hanya sekali, misalnya untuk suatu projek yang hanya sekali jalan, atau jika tujuannya untuk jangka panjang seperti pada kasus search engine, mereka bisa diprogram untuk menyisir Internet secara periodik untuk menentukan apakah sudah berlangsung perubahan signifikan. Jika suatu situs mengalami trafik sangat padat atau kesulitan teknis, spider atau crawl dapat diprogram untuk mencatat hal ini dan mengunjunginya kembali setelah kesulitan teknis itu terselesaikan.
SUMBER : https://djuyadi.wordpress.com/2010/03/06/web-crawl-web-spider-web-robot-bot-crawl-automatic-indexer/
0 komentar: