Senin, 16 Juni 2014

Analisis Web


Materi Softskill oleh :
Alvi Syukri Fajrin   (50412666)
Fajar Rizky
Riyana Wicaksono (56412508)
Teuku Alfian Pase  (57412341)


Pada tugas softskill mata kuliah Pengantar Web Science kali ini, akan dibahas tentang Analisis Web.


Image by : intersearchmedia.com       
               
            Analisis Web adalah pengukuran, pengumpulan, analisis dan pelaporan data internet untuk tujuan memahami dan mengoptimalkan penggunaan web. Web analytics bukan hanya alat untuk mengukur lalu lintas web, tetapi dapat digunakan sebagai alat untuk bisnis dan riset pasar, dan untuk menilai dan meningkatkan efektivitas dari sebuah situs web, membantu orang untuk memperkirakan bagaimana lalu lintas ke situs web berubah setelah peluncuran  kampanye iklan baru. Web analytics menyediakan informasi tentang jumlah pengunjung ke sebuah situs web dan jumlah tampilan halaman. Ini membantu mengukur lalu lintas dan popularitas tren yang berguna untuk riset pasar.

Pengukuran Web
pengukuran kinerja web (web measurement) adalah seni untuk mengumpulkan data dan menganalisa data agar dapat digunakan dan mudah dibaca oleh manusia. Salah satu teknik mengukur dan menguji suatu kinerja web adalah dengan mengukur pengalaman seseorang atau user experience pengunjung situs yang berinteraksi dengan halaman-halaman web yang berada di internet.

Ada beberapa tools yang digunakan untuk mengukur website dari segi kecepatan akses dan performanya, serta mengukur banyaknya pengunjung suatu website. Dibawah ini akan dipaparkan beberapa tools tersebut:


1. Pingdom Tools


Merupakan sebuah alat ukur kecepatan website dapat di akses, nilai dari sebuah website, dan beberapa ukuran dari sebuah website tersebut.

Beberapa kelebihannya di kategorikan sebagai berikut  :

Performance Grade : melihat nilai kecepatan performa halaman web, dari akses DNS, browser cache, combine external css dan lain-lain.
Waterfall : melihat detail kecepatan akses ketika membuka halaman web, dari gambar bahkan sampai seberapa cepat script tersebut dapat di akses.
Page Analysis : melihat detail analisa halaman web.
History : melihat detail akses dari beberapa hari lalu.

Kekurangan yang terdapat pada tools ini, sama seperti tools alat ukur akses web pada umumnya yaitu Membutuhkan akses internet yang stabil, karena tidak mungkin kita bisa mengukur kecepatan akses suatu website kalau akses internet kita terhadap website tersebut tidak stabil/berjalan dengan baik.

 2.  GTmetrix

image by : buildajoomlawebsite.com
      Adalah website untuk menganalisa kecepatan web yang tersedia secara gratis, dengan menggunakan google page speed dan Yahoo Yslow sebagai analyze engine dan untuk menampilkan hasil serta rekomendasi yang harus dilakukan.
Dengan GTmetrix juga dapat membandingkan beberapa URL sekaligus




3. Alexa Rank
      Alexa Internet, Inc. adalah perusahaan yang mengoperasikan situs yang menyediakan informasi mengenai banyaknya pengunjung suatu situs dan urutannya. Cara kerja Alexa rank Alexa memberikan peringkat ke sebuah situs berdasarkan jumlah pengunjung unik. Semakin rendah alexarank dari situs berarti situs memiliki sedikit pengunjung unik.Jadi jika Anda bisa mendapatkan lebih banyak traffic ke situs Anda, Anda akan mendapatkan lebih rendah alexa rank.

Selain tools-tools diatas, masih banyak tools serupa lainnya yang bisa dicari sendiri di Search Engine.



Crawlers

image by : seo-advisors.com

Crawler adalah robot milik search engine yg tugasnya mengumpulkan informasi pada halaman blog/web dan semua media internet yg bisa diindeks oleh search engine.

Cara kerja Crawlers, Pertama robot mengumpulkan informasi pada halaman blog/web dan semua media internet yg bisa diindeks oleh search engine. Robot tersebut kemudian membawa informasi yg didapatnya ke data center. Di data center, data tersebut kemudian di oleh sedemikian rupa, apabila memenuhi persyaratan, maka dia akan dimasukkan ke dalam indeks. Nah, proses yg dilakukan oleh user search engine adalah memanggil indeks-indeks tersebut, apabila indeks2 memiliki kesesuaian dengan yg dicari user (dan bila memiliki peringkat yg baik), di akan ditampilkan di halaman utama search engine (berperingkat).

Web crawler adalah suatu program atau script otomat yang relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.
Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan.

Ketika web crawl suatu search engine mengunjungi halaman web, ia “membaca” teks yang terlihat, hyperlink, dan konten berbagai tag yang digunakan dalam situs seperti meta tag yang banyak berisi keyword. Berdasar informasi yang dikumpulkan web crawl, search engine akan menentukan mengenai apakah suatu situs dan mengindex informasinya. Website itu kemudian dimasukkan ke dalam database search engine dan dilakukan proses penentuan ranking halaman-halamannya.


Search Engine

image by : encrypted-tbn0.gstatic.com


Mesin pencari atau Search engine adalah program komputer yang dirancang untuk melakukan pencarian atas berkas-berkas yang tersimpan dalam layanan www, ftp, publikasi milis, ataupun news group dalam sebuah ataupun sejumlah komputer peladen dalam suatu jaringan. Search engine merupakan perangkat pencari informasi dari dokumen-dokumen yang tersedia. Hasil pencarian umumnya ditampilkan dalam bentuk daftar yang seringkali diurutkan menurut tingkat akurasi ataupun rasio pengunjung atas suatu berkas yang disebut sebagai hits. Informasi yang menjadi target pencarian bisa terdapat dalam berbagai macam jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis berkas lainnya. Beberapa mesin pencari juga diketahui melakukan pengumpulan informasi atas data yang tersimpan dalam suatu basisdata ataupundirektori web.
                                
Sebagian besar mesin pencari dijalankan oleh perusahaan swasta yang menggunakan algoritma kepemilikan dan basisdata tertutup, di antaranya yang paling populer adalah Google (MSN Search danYahoo!). Telah ada beberapa upaya menciptakan mesin pencari dengan sumber terbuka (open source), contohnya adalah Htdig, Nutch, Egothor dan OpenFTS.

Mesin pencari web bekerja dengan cara menyimpan informasi tentang banyak halaman web, yang diambil langsung dari WWW. Halaman-halaman ini diambil dengan web crawler — browser web otomatis yang mengikuti setiap pranala/link yang dilihatnya. Isi setiap halaman lalu dianalisis untuk menentukan cara indeks-nya (misalnya, kata-kata diambil dari judul, subjudul, atau field khusus yang disebut meta tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya. Sebagian mesin pencari, seperti Google, menyimpan seluruh atau sebagian halaman sumber (yang disebut cache) maupun informasi tentang halaman web itu sendiri.

Selain halaman web, Mesin pencari juga menyimpan dan memberikan informasi hasil pencarian berupa pranala yang merujuk pada file, seperti file audio, file video, gambar, foto dan sebagainya, serta informasi tentang seseorang, suatu produk, layanan, dan informasi beragam lainnya yang semakin terus berkembang sesuai dengan perkembangan teknologi informasi.
Ketika seseorang mengunjungi mesin pencari dan memasukkan query, biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan daftar halaman web yang paling sesuai dengan kriterianya, biasanya disertai ringkasan singkat mengenai judul dokumen dan kadang-kadang sebagian teksnya.
Archiving Web
Adalah proses pengumpulan bagian-bagian dari World Wide Web untuk memastikan informasi tersebut diawetkan dalam arsip bagi para peneliti di masa depan, sejarawan, dan masyarakat umum. Web Archivist biasanya menggunakan web crawler untuk menangkap otomatis karena ukuran besar dan jumlah informasi di Web. Organisasi terbesar web pengarsipan berdasarkan pendekatan bulk crawling adalah Internet Archive yang berusaha untuk mempertahankan sebuah arsip dari seluruh Web.

Web Archive adalah Sebuah file format terkompresi, didefinisikan oleh Java EE standar, untuk menyimpan semua sumber daya yang diperlukan untuk menginstal dan menjalankan aplikasi Web dalam satu file.

Teknik yang paling umum digunakan dalam pengarsipan Web adalah dengan menggunakan web crawler untuk mengotomatisasi proses pengumpulan halaman web. Web crawler biasanya mengakses halaman web dengan cara yang sama seperti yang user biasa lihat pada Web. Contoh pengarsipan web yang menggunakan web crawlers diantaranya adalah :

1. Heritrix

image by : wikipedia.org

Heritrix adalah crawler web yang dirancang untuk keperluan Web Archiving. Heritrix ditulis oleh Internet Archive. Heritrix berlisensi free software dan ditulis dalam bahasa Java. Interface utama dapat diakses menggunakan Web Browser,, ada beberapa baris perintah yang opsional dapat digunakan untuk menginisiasi Crawler.

Heritrix dikembangkan bersama oleh Internet Archive dan perpustakaan nasional Nordic pada awal 2003. Rilis resmi pertama adalah pada bulan Januari 2004, dan telah terus ditingkatkan oleh karyawan dari Internet Archive dan pihak lain yang berkepentingan.

Heritrix bukan crawler utama yang digunakan untuk menjelajah konten untuk koleksi web Internet Archive selama bertahun-tahun. Penyumbang terbesar untuk koleksi adalah Alexa Internet. menjelajah web untuk keperluan sendiri, dengan menggunakan crawler bernama ia_archiver. Alexa kemudian menyumbangkan materi ke Internet Archive. Internet Archive sendiri melakukan crawlingnya sendiri menggunakan Heritrix, tetapi hanya pada skala yang lebih kecil.

Mulai tahun 2008, Internet Archive mulai peningkatan kinerja untuk melakukan Crawling skala luas sendiri, dan sekarang telah mengumpulkan sebagian besar isinya.

2. HTTrack

image by : httrack.com

HTTrack merupakan Web Crawler yang gratis dan bersifat open source, dikembangkan oleh Xavier Roche dan berlisensi di bawah Lisensi GNU General Public License Versi 3. HTTrack memungkinkan pengguna untuk men-download situs World Wide Web dari Internet ke komputer lokal. HTTrack juga dapat mengupdate situs mirror yang ada dan melanjutkan download terputus. HTTrack dikonfigurasi dengan option dan oleh filter (include/exclude), dan memiliki sistem bantuan yang terintegrasi. Ada versi baris perintah dasar dan dua versi GUI (WinHTTrack dan WebHTTrack)

HTTrack menggunakan crawler Web untuk men-download website. Beberapa bagian dari situs web tidak dapat didownload secara default karena protokol exclusion robot dinonaktifkan selama program. HTTrack dapat mengikuti link yang dihasilkan dengan dasar JavaScript dan di dalam Applet atau Flash, tapi bukan kompleks link (dihasilkan dengan menggunakan fungsi atau ekspresi) atau peta gambar server-side.

3. Wget


image by : wikipedia

GNU Wget, seringkali hanya disebut wget, adalah sebuah program komputer sederhana yang mengambil materi dari web server, dan merupakan bagian dari Proyek GNU. Namanya diturunkan dari World Wide Web dan get, konotatif dari fungsi primernya. Program ini mendukung pengunduhan melalui protokol HTTP, HTTPS, dan FTP, protokol berbasis TCP/IP yang paling luas digunakan untuk penjelajahan web.
Fitur-fiturnya meliputi pengunduhan rekursif, konversi pranala untuk peninjauan offline dari HTML lokal, mendukung proxy, dan lebih banyak lagi. Pertama kali muncul pada tahun 1996, dilatarbelakangi oleh ledakan penggunaan Web, menyebabkan penggunaan yang luas di antara para pengguna Unix dan distribusi Linuxterkemuka. Ditulis menggunakan bahasa C portabel, Wget dapat diinstal secara mudah pada sistem mirip-Unix apa saja dan telah diportasi ke beberapa lingkungan, termasuk Mac OS X, Microsoft Windows, OpenVMS danAmigaOS.
Wget digunakan sebagai basis program-program GUI semisal Gwget untuk desktop GNOME. Dirilis di bawah Lisensi Publik Umum GNU v3, Wget adalah perangkat lunak bebas.

Cara kerja Web Archiving
1.    Menemukan Informasi Website lewat crawling web
Bagaimana cara kerja web crawling Google ? Google memiliki software khusus untuk proses perayapan website/blog yang bisa diakses secara umum. Secara sederhana cara kerja web crawler Google menggunakan aplikasi yang disebut Googlebot.
Crawler Googlebot akan merayapi setiap halaman website/blog seperti ketika sobat belajar online membuka link lewat browser, kemudian mengikuti link setiap halaman web dan membawa data dari website/blog tersebut ke server Google.
Proses crawling web oleh googlebot dimulai dari crawling alamat utama web (domain), kemudian ke sitemap (peta situs) yang dibuat oleh pemilik website.
adanya sitemap website akan memudahkan google bot google dalam proses crawling web/blog tersebut.
Pada akhirnya program google bot akan menentukan situs mana yang ramai pengunjung dan selalu diupdate, berapa banyak konten yang ada, untuk menentukan posisinya.
Google tidak menerima bayaran dalam memposisikan website. Website/blog yang menurut mesin pencari google bagus maka akan berada di posisi pertama hasil pencarian Google. Mengapa Google tidak mau menerima bayaran dalam merayapi dan mengindeks website ? Hal ini tentu saja berkaitan dengan manfaat untuk pengguna yang mencari informasi lewat mesin pencari google, karena itu merupakan bisnis utama mesin pencari Google.

2.    Mengorganisasi informasi hasil proses crawling web
Setelah proses crawling web, maka mesin pencari google kemudian memasukkannya dalam daftar indeks Google. Gambaran internet itu ibarat perpustakaan dengan miliaran buku, namun sayangnya tidak mempunyai katalog khusus dan pengarsipan utama. Dari situ, maka google mengumpulkan alamat dan isi halaman-halaman web yang dicrawl oleh google bot kemudian membuat indeks. Dengan begitu mesin pencari google tahu persis bagaimana Google melihat halaman yang bersangkutan.
Gambaran bagaimana google membuat indeks dari miliaran web yang ada di dunia, coba sobat belajar online buka indeks buku yang ada di bagian belakang. Indeks Google juga berisi tentang informasi kata-kata dan lokasi kata tersebut.
Dengan perkembangan web generasi kedua, ditambah dengan html 5 yang memberikan kesempatan kepada developer web untuk membuat web dinamis semakin banyak jenis konten yang harus diindeks google, dari teks, gambar dan video. Google pun juga menyempurnakan pengindekan konten-konten yang ada di internet untuk memahami apa yang diinginkan oleh pencari informasi lewat mesin pencari Google.

3.    Pengaturan crawling pada pemilik website/blog
Walaupun Google dapat merayapi setiap halaman web, namun mesin pencari juga memberikan kebebasan kepada pemilik situs yang tidak ingin websitenya dirambah dan diindeks mesin pencari Google.
Untuk memilih dan memberitahu google bot agar tidak merayapi dan mengindeks halaman sensitif yang berbahaya apabila diakses oleh umum, maka sobat dapat menggunakan file robot.txt. Sobat dapat mengakses Google Webmasters Tool untuk mendapatkan file robots.txt dan mengisi bagian mana yang tidak boleh dirayapi dan diindeks dari website/blog sobat oleh Google crawl



Sumber :
http://en.wikipedia.org/wiki/Web_analytics
http://empatbelast.blogspot.com/2011/04/pengukur-kinerja-situs-web.html
http://clickforgamers.blogspot.com/2013/04/pengukuran-web-crawler-search-engine.html
http://bie-wellca.blogspot.com/2013/04/pengukuran-web-crawler-search-engine.html
http://djuyadi.wordpress.com/2010/03/06/web-crawl-web-spider-web-robot-bot-crawl-automatic-indexer/
http://id.wikipedia.org/wiki/Mesin_pencari_web
http://en.wikipedia.org/wiki/Web_archiving
http://en.wikipedia.org/wiki/Heritrix
http://en.wikipedia.org/wiki/HTTrack
http://id.wikipedia.org/wiki/Wget
http://muhammadyusuf-gunadarma.blogspot.com/2013/05/web-archiving.html








Tidak ada komentar:

Posting Komentar