Materi Softskill oleh :
Alvi Syukri Fajrin (50412666)
Fajar Rizky
Riyana Wicaksono (56412508)
Teuku Alfian Pase (57412341)
Pada tugas softskill mata kuliah Pengantar Web Science kali
ini, akan dibahas tentang Analisis Web.
Image by :
intersearchmedia.com
Analisis
Web adalah pengukuran, pengumpulan, analisis dan pelaporan data internet untuk
tujuan memahami dan mengoptimalkan penggunaan web. Web analytics bukan hanya
alat untuk mengukur lalu lintas web, tetapi dapat digunakan sebagai alat untuk
bisnis dan riset pasar, dan untuk menilai dan meningkatkan efektivitas dari
sebuah situs web, membantu orang untuk memperkirakan bagaimana lalu lintas ke
situs web berubah setelah peluncuran kampanye iklan baru. Web
analytics menyediakan informasi tentang jumlah pengunjung ke sebuah situs web
dan jumlah tampilan halaman. Ini membantu mengukur lalu lintas dan popularitas
tren yang berguna untuk riset pasar.
Pengukuran Web
pengukuran kinerja web (web measurement) adalah seni untuk
mengumpulkan data dan menganalisa data agar dapat digunakan dan mudah dibaca
oleh manusia. Salah satu teknik mengukur dan menguji suatu kinerja web adalah
dengan mengukur pengalaman seseorang atau user experience pengunjung situs yang
berinteraksi dengan halaman-halaman web yang berada di internet.
Ada beberapa tools yang digunakan untuk mengukur website
dari segi kecepatan akses dan performanya, serta mengukur banyaknya pengunjung
suatu website. Dibawah ini akan dipaparkan beberapa tools tersebut:
1. Pingdom Tools
Merupakan sebuah alat ukur kecepatan website dapat di akses,
nilai dari sebuah website, dan beberapa ukuran dari sebuah website tersebut.
Beberapa kelebihannya di kategorikan sebagai berikut :
Performance Grade : melihat nilai kecepatan performa halaman
web, dari akses DNS, browser cache, combine external css dan lain-lain.
Waterfall : melihat detail kecepatan akses ketika membuka
halaman web, dari gambar bahkan sampai seberapa cepat script tersebut dapat di
akses.
Page Analysis : melihat detail analisa halaman web.
History : melihat detail akses dari beberapa hari lalu.
Kekurangan yang terdapat pada tools ini, sama seperti tools
alat ukur akses web pada umumnya yaitu Membutuhkan akses internet yang stabil,
karena tidak mungkin kita bisa mengukur kecepatan akses suatu website kalau
akses internet kita terhadap website tersebut tidak stabil/berjalan dengan
baik.
2. GTmetrix
image by : buildajoomlawebsite.com
Adalah website untuk
menganalisa kecepatan web yang tersedia secara gratis, dengan menggunakan
google page speed dan Yahoo Yslow sebagai analyze engine dan untuk menampilkan
hasil serta rekomendasi yang harus dilakukan.
Dengan GTmetrix juga dapat membandingkan beberapa URL
sekaligus
3. Alexa Rank
Alexa Internet, Inc. adalah
perusahaan yang mengoperasikan situs yang menyediakan informasi mengenai
banyaknya pengunjung suatu situs dan urutannya. Cara kerja Alexa rank Alexa
memberikan peringkat ke sebuah situs berdasarkan jumlah pengunjung unik.
Semakin rendah alexarank dari situs berarti situs memiliki sedikit pengunjung
unik.Jadi jika Anda bisa mendapatkan lebih banyak traffic ke situs Anda, Anda
akan mendapatkan lebih rendah alexa rank.
Selain tools-tools diatas, masih banyak tools serupa lainnya
yang bisa dicari sendiri di Search Engine.
Crawlers
image by : seo-advisors.com
Crawler adalah robot milik search engine yg tugasnya
mengumpulkan informasi pada halaman blog/web dan semua media internet yg bisa
diindeks oleh search engine.
Cara kerja Crawlers, Pertama robot mengumpulkan informasi
pada halaman blog/web dan semua media internet yg bisa diindeks oleh search
engine. Robot tersebut kemudian membawa informasi yg didapatnya ke data center.
Di data center, data tersebut kemudian di oleh sedemikian rupa, apabila
memenuhi persyaratan, maka dia akan dimasukkan ke dalam indeks. Nah, proses yg
dilakukan oleh user search engine adalah memanggil indeks-indeks tersebut,
apabila indeks2 memiliki kesesuaian dengan yg dicari user (dan bila memiliki
peringkat yg baik), di akan ditampilkan di halaman utama search engine
(berperingkat).
Web crawler adalah suatu program atau script otomat yang
relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke
semua halaman-halaman Internet untuk membuat index dari data yang dicarinya.
Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan
automatic indexer.
Web crawl dapat digunakan untuk beragam tujuan. Penggunaan
yang paling umum adalah yang terkait dengan search engine. Search engine
menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di
halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga
ketika pengguna Internet mengetikkan kata pencarian di komputernya, search
engine dapat dengan segera menampilkan web site yang relevan.
Ketika web crawl suatu search engine mengunjungi halaman
web, ia “membaca” teks yang terlihat, hyperlink, dan konten berbagai tag yang
digunakan dalam situs seperti meta tag yang banyak berisi keyword. Berdasar
informasi yang dikumpulkan web crawl, search engine akan menentukan mengenai
apakah suatu situs dan mengindex informasinya. Website itu kemudian dimasukkan
ke dalam database search engine dan dilakukan proses penentuan ranking
halaman-halamannya.
Search Engine
image by : encrypted-tbn0.gstatic.com
Mesin pencari atau Search engine adalah program komputer
yang dirancang untuk melakukan pencarian atas berkas-berkas yang tersimpan
dalam layanan www, ftp, publikasi milis, ataupun news group dalam sebuah
ataupun sejumlah komputer peladen dalam suatu jaringan. Search engine merupakan
perangkat pencari informasi dari dokumen-dokumen yang tersedia. Hasil pencarian
umumnya ditampilkan dalam bentuk daftar yang seringkali diurutkan menurut
tingkat akurasi ataupun rasio pengunjung atas suatu berkas yang disebut sebagai
hits. Informasi yang menjadi target pencarian bisa terdapat dalam berbagai
macam jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis
berkas lainnya. Beberapa mesin pencari juga diketahui melakukan pengumpulan
informasi atas data yang tersimpan dalam suatu basisdata ataupundirektori web.
Sebagian besar mesin pencari dijalankan oleh perusahaan
swasta yang menggunakan algoritma kepemilikan dan basisdata tertutup, di
antaranya yang paling populer adalah Google (MSN Search danYahoo!). Telah ada
beberapa upaya menciptakan mesin pencari dengan sumber terbuka (open source),
contohnya adalah Htdig, Nutch, Egothor dan OpenFTS.
Mesin pencari web bekerja dengan cara menyimpan informasi
tentang banyak halaman web, yang diambil langsung dari WWW. Halaman-halaman ini
diambil dengan web crawler — browser web otomatis yang mengikuti setiap
pranala/link yang dilihatnya. Isi setiap halaman lalu dianalisis untuk
menentukan cara indeks-nya (misalnya, kata-kata diambil dari judul, subjudul,
atau field khusus yang disebut meta tag). Data tentang halaman web disimpan
dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya.
Sebagian mesin pencari, seperti Google, menyimpan seluruh atau sebagian halaman
sumber (yang disebut cache) maupun informasi tentang halaman web itu sendiri.
Selain halaman web, Mesin pencari juga menyimpan dan
memberikan informasi hasil pencarian berupa pranala yang merujuk pada file,
seperti file audio, file video, gambar, foto dan sebagainya, serta informasi
tentang seseorang, suatu produk, layanan, dan informasi beragam lainnya yang semakin
terus berkembang sesuai dengan perkembangan teknologi informasi.
Ketika seseorang mengunjungi mesin pencari dan memasukkan
query, biasanya dengan memasukkan kata kunci, mesin mencari indeks dan
memberikan daftar halaman web yang paling sesuai dengan kriterianya, biasanya
disertai ringkasan singkat mengenai judul dokumen dan kadang-kadang sebagian
teksnya.
Archiving Web
Adalah proses pengumpulan bagian-bagian dari World Wide Web
untuk memastikan informasi tersebut diawetkan dalam arsip bagi para peneliti di
masa depan, sejarawan, dan masyarakat umum. Web Archivist biasanya menggunakan
web crawler untuk menangkap otomatis karena ukuran besar dan jumlah informasi
di Web. Organisasi terbesar web pengarsipan berdasarkan pendekatan bulk
crawling adalah Internet Archive yang berusaha untuk mempertahankan sebuah
arsip dari seluruh Web.
Web Archive adalah Sebuah file format terkompresi,
didefinisikan oleh Java EE standar, untuk menyimpan semua sumber daya yang
diperlukan untuk menginstal dan menjalankan aplikasi Web dalam satu file.
Teknik yang paling umum digunakan dalam pengarsipan Web
adalah dengan menggunakan web crawler untuk mengotomatisasi proses pengumpulan
halaman web. Web crawler biasanya mengakses halaman web dengan cara yang sama
seperti yang user biasa lihat pada Web. Contoh pengarsipan web yang menggunakan
web crawlers diantaranya adalah :
1. Heritrix
image by : wikipedia.org
Heritrix adalah crawler web yang dirancang untuk keperluan
Web Archiving. Heritrix ditulis oleh Internet Archive. Heritrix berlisensi free
software dan ditulis dalam bahasa Java. Interface utama dapat diakses
menggunakan Web Browser,, ada beberapa baris perintah yang opsional dapat
digunakan untuk menginisiasi Crawler.
Heritrix dikembangkan bersama oleh Internet Archive dan
perpustakaan nasional Nordic pada awal 2003. Rilis resmi pertama adalah pada
bulan Januari 2004, dan telah terus ditingkatkan oleh karyawan dari Internet
Archive dan pihak lain yang berkepentingan.
Heritrix bukan crawler utama yang digunakan untuk menjelajah
konten untuk koleksi web Internet Archive selama bertahun-tahun. Penyumbang
terbesar untuk koleksi adalah Alexa Internet. menjelajah web untuk keperluan
sendiri, dengan menggunakan crawler bernama ia_archiver. Alexa kemudian
menyumbangkan materi ke Internet Archive. Internet Archive sendiri melakukan
crawlingnya sendiri menggunakan Heritrix, tetapi hanya pada skala yang lebih
kecil.
Mulai tahun 2008, Internet Archive mulai peningkatan kinerja
untuk melakukan Crawling skala luas sendiri, dan sekarang telah mengumpulkan
sebagian besar isinya.
2. HTTrack
image by : httrack.com
HTTrack merupakan Web Crawler yang gratis dan bersifat open
source, dikembangkan oleh Xavier Roche dan berlisensi di bawah Lisensi GNU
General Public License Versi 3. HTTrack memungkinkan pengguna untuk
men-download situs World Wide Web dari Internet ke komputer lokal. HTTrack juga
dapat mengupdate situs mirror yang ada dan melanjutkan download terputus.
HTTrack dikonfigurasi dengan option dan oleh filter (include/exclude), dan
memiliki sistem bantuan yang terintegrasi. Ada versi baris perintah dasar dan dua
versi GUI (WinHTTrack dan WebHTTrack)
HTTrack menggunakan crawler Web untuk men-download website.
Beberapa bagian dari situs web tidak dapat didownload secara default karena
protokol exclusion robot dinonaktifkan selama program. HTTrack dapat mengikuti
link yang dihasilkan dengan dasar JavaScript dan di dalam Applet atau Flash,
tapi bukan kompleks link (dihasilkan dengan menggunakan fungsi atau ekspresi)
atau peta gambar server-side.
3. Wget
image by : wikipedia
GNU Wget, seringkali hanya disebut wget, adalah sebuah
program komputer sederhana yang mengambil materi dari web server, dan merupakan
bagian dari Proyek GNU. Namanya diturunkan dari World Wide Web dan get,
konotatif dari fungsi primernya. Program ini mendukung pengunduhan melalui
protokol HTTP, HTTPS, dan FTP, protokol berbasis TCP/IP yang paling luas
digunakan untuk penjelajahan web.
Fitur-fiturnya meliputi pengunduhan rekursif, konversi
pranala untuk peninjauan offline dari HTML lokal, mendukung proxy, dan lebih
banyak lagi. Pertama kali muncul pada tahun 1996, dilatarbelakangi oleh ledakan
penggunaan Web, menyebabkan penggunaan yang luas di antara para pengguna Unix
dan distribusi Linuxterkemuka. Ditulis menggunakan bahasa C portabel, Wget
dapat diinstal secara mudah pada sistem mirip-Unix apa saja dan telah diportasi
ke beberapa lingkungan, termasuk Mac OS X, Microsoft Windows, OpenVMS
danAmigaOS.
Wget digunakan sebagai basis program-program GUI semisal
Gwget untuk desktop GNOME. Dirilis di bawah Lisensi Publik Umum GNU v3, Wget
adalah perangkat lunak bebas.
Cara kerja Web Archiving
1. Menemukan Informasi Website lewat
crawling web
Bagaimana cara kerja web crawling Google ? Google memiliki
software khusus untuk proses perayapan website/blog yang bisa diakses secara
umum. Secara sederhana cara kerja web crawler Google menggunakan aplikasi yang
disebut Googlebot.
Crawler Googlebot akan merayapi setiap halaman website/blog
seperti ketika sobat belajar online membuka link lewat browser, kemudian
mengikuti link setiap halaman web dan membawa data dari website/blog tersebut
ke server Google.
Proses crawling web oleh googlebot dimulai dari crawling
alamat utama web (domain), kemudian ke sitemap (peta situs) yang dibuat oleh
pemilik website.
adanya sitemap website akan memudahkan google bot google
dalam proses crawling web/blog tersebut.
Pada akhirnya program google bot akan menentukan situs mana
yang ramai pengunjung dan selalu diupdate, berapa banyak konten yang ada, untuk
menentukan posisinya.
Google tidak menerima bayaran dalam memposisikan website.
Website/blog yang menurut mesin pencari google bagus maka akan berada di posisi
pertama hasil pencarian Google. Mengapa Google tidak mau menerima bayaran dalam
merayapi dan mengindeks website ? Hal ini tentu saja berkaitan dengan manfaat
untuk pengguna yang mencari informasi lewat mesin pencari google, karena itu
merupakan bisnis utama mesin pencari Google.
2. Mengorganisasi informasi hasil
proses crawling web
Setelah proses crawling web, maka mesin pencari google
kemudian memasukkannya dalam daftar indeks Google. Gambaran internet itu ibarat
perpustakaan dengan miliaran buku, namun sayangnya tidak mempunyai katalog
khusus dan pengarsipan utama. Dari situ, maka google mengumpulkan alamat dan
isi halaman-halaman web yang dicrawl oleh google bot kemudian membuat indeks.
Dengan begitu mesin pencari google tahu persis bagaimana Google melihat halaman
yang bersangkutan.
Gambaran bagaimana google membuat indeks dari miliaran web
yang ada di dunia, coba sobat belajar online buka indeks buku yang ada di
bagian belakang. Indeks Google juga berisi tentang informasi kata-kata dan
lokasi kata tersebut.
Dengan perkembangan web generasi kedua, ditambah dengan html
5 yang memberikan kesempatan kepada developer web untuk membuat web dinamis
semakin banyak jenis konten yang harus diindeks google, dari teks, gambar dan
video. Google pun juga menyempurnakan pengindekan konten-konten yang ada di
internet untuk memahami apa yang diinginkan oleh pencari informasi lewat mesin
pencari Google.
3. Pengaturan crawling pada pemilik
website/blog
Walaupun Google dapat merayapi setiap halaman web, namun
mesin pencari juga memberikan kebebasan kepada pemilik situs yang tidak ingin
websitenya dirambah dan diindeks mesin pencari Google.
Untuk memilih dan memberitahu google bot agar tidak merayapi
dan mengindeks halaman sensitif yang berbahaya apabila diakses oleh umum, maka
sobat dapat menggunakan file robot.txt. Sobat dapat mengakses Google Webmasters
Tool untuk mendapatkan file robots.txt dan mengisi bagian mana yang tidak boleh
dirayapi dan diindeks dari website/blog sobat oleh Google crawl
Sumber :
http://en.wikipedia.org/wiki/Web_analytics
http://empatbelast.blogspot.com/2011/04/pengukur-kinerja-situs-web.html
http://clickforgamers.blogspot.com/2013/04/pengukuran-web-crawler-search-engine.html
http://bie-wellca.blogspot.com/2013/04/pengukuran-web-crawler-search-engine.html
http://djuyadi.wordpress.com/2010/03/06/web-crawl-web-spider-web-robot-bot-crawl-automatic-indexer/
http://id.wikipedia.org/wiki/Mesin_pencari_web
http://en.wikipedia.org/wiki/Web_archiving
http://en.wikipedia.org/wiki/Heritrix
http://en.wikipedia.org/wiki/HTTrack
http://id.wikipedia.org/wiki/Wget
http://muhammadyusuf-gunadarma.blogspot.com/2013/05/web-archiving.html
Tidak ada komentar:
Posting Komentar