Judul: Makalah statistika
Penulis: Yusuf Lubis
BAB I
PENDAHULUAN DAN DISTRIBUSI FREKUENSI
Pokok Bahasan:
Arti dan Kegunaan Statistika
Macam-macam Data: Data Kuantitatif dan Data Kualitatif
Pengertian tentang Populasi dan Sampel
Pengertian tentang dan Cara Menyusun Distribusi Frekuensi
Distribusi Frekuensi Relatif dan Kumulatif
Gambar dan Grafik Distribusi Frekuensi
Arti dan Kegunaan Statistik
Statistik memiliki arti yang sangat luas, bisa berbeda antara satu dengan yang lain tergantung dari tujuan penggunaannya. Singkatnya, statistik mengacu pada penggunaan data kuantitatif.
Secara umum statistik dibedakan menjadi dua, yaitu statistik deskriptif dan statistik inferensi. Statistik deskriptif bisa diartikan sebagai penyajian data dalam bentuk yang lebih ringkas agar lebih mudah dipahami. Beberapa topik yang dibahas dalam statistik deskriptif adalah ukuran pemusatan (rata-rata, median, modus) dan ukuran penyebaran (standar deviasi dan koefisien variasi). Sedangkan statistik inferensia merupakan pernyataan yang digeneralisasi untuk populasi berdasarkan sampel random (dari populasi tersebut). Berkaitan dengan statistik inferensi, perlu dipahami konsep sampling, pendugaan, pengujian hipotesis dan sebagainya.
Macam-macam Data: Data Kuantitatif dan Data Kualitatif
Statistik berkaitan erat dengan pemanfaatan data. Ada berbagai jenis pengelompokan data, salah satunya adalah kategori data kuantitatif dan data kualitatif. Data kuantitatif mengacu pada angka, seperti: jumlah penduduk, Produk Domestik Bruto (PDB), tingkat pertumbuhan ekonomi, dan sebagainya.
Sedangkan data kualitatif mengacu pada yang bukan angka, seperti: agama, jenis kelamin, tingkat pendidikan, tingkat pengalaman, dan sebagainya. Akan tetapi yang perlu dicatat, dalam proses pengolahan data kuantitatif, bisa dilakukan kuantifikasi dari data kualitatif tersebut. Salah satunya adalah dengan membuat kode untuk data kualitatif. Sebagai contoh, jenis kelamin. Untuk memudahkan proses pengolahan data, diberikan kode 1 untuk responden laki-laki dan kode 0 untuk responden perempuan. Sehingga, data jenis kelamin yang pada awalnya adalah kualitatif, setelah diberikan kode 1 dan 0, berubah menjadi data kuantitatif.
Pengertian tentang Populasi dan Sampel
Pengertian tentang populasi dan sampel dapat dipahami melalui ilustrasi berikut. Sebagai contoh, Perusahaan Konsultan "Selalu Berkarya" ingin melihat hubungan kemampuan bahasa asing TKW Indonesia dengan tingkat pendapatan. Berkaitan dengan studi tersebut, populasinya adalah seluruh TKW Indonesia yang memiliki kemampuan bahasa asing. Tentunya, perusahaan tersebut agak sulit untuk mendata seluruh TKW Indonesia yang memiliki kemampuan bahasa asing. Sehingga diambil sampel random dari TKW Indonesia yang memiliki kemampuan bahasa asing yang bisa mewakili kondisi populasi.
Berdasarkan ilustrasi di atas, dapat dijelaskan pengertian populasi dan sampel. Populasi mengacu pada seluruh elemen yang akan diobservasi untuk mendukung kesimpulan yang diambil, yaitu seluruh TKW Indonesia yang memiliki kemampuan bahasa asing. Sedangkan sampel adalah elemen observasi yang diambil secara random dari populasi, yaitu individu-individu TKW Indonesia yang memiliki kemampuan bahasa asing. Yang perlu dicatat adalah sampel yang diambil harus random. Tujuannya adalah agar kesimpulan yang diambil tidak bias. Suatu sampel dikatakan random apabila setiap elemen dalam populasi memiliki kesempatan yang sama untuk dipilih menjadi sampel.
Pengertian dan Cara Menyusun Distribusi Frekuensi
Pada umumnya, data tidak langsung tersedia dengan rapi (siap pakai). Dari kumpulan data mentah tersebut, perlu dilakukan pengaturan ataupun pengelompokan agar data menjadi lebih ringkas dan mudah dibaca. Akan tetapi, peringkasan dan pengelompokan data tersebut tidak boleh mengurangi inti informasi. Untuk itu, perlu dibuat tabel distribusi frekuensi. Sederhananya, frekuensi dapat diartikan sebagai banyaknya data yang muncul pada interval tertentu. Sedangkan frekuensi relatif diartikan sebagai kemunculan data dalam setiap interval dibagi dengan jumlah total.
Berdasarkan tabel distribusi frekuensi, secara umum dapat dilihat berapa nilai tengah, nilai yang paling sering muncul (modus), dan pemusatan data. Salah satu acuan dalam pengelompokan data adalah kemiripan karakteristik. Tujuan dari pengelompokan data tersebut adalah jumlah kelompok data relatif kecil, memudahkan penghitungan dan analisa. Tetapi kekurangan dari pengelompokan data tersebut adalah ada beberapa informasi rinci yang tidak tampak lagi dalam susunan data.
Penyusunan distribusi frekuensi dapat dilakukan sebagai berikut. Untuk keperluan pengelompokan, data mentah perlu diurutkan dari data yang paling kecil sampai besar. Sebagai contoh adalah data penjualan donat harian di warung P'Udin periode 1 Juni-20 Juli 2006 (50 hari).
Jumlah penjualan donat per hari (Sebelum Diurutkan)
55 48 22 49 78 59 27 41 68 54
34 80 68 42 75 51 76 45 32 53
66 32 64 47 76 58 75 60 35 57
73 38 30 44 54 57 72 67 51 86
25 37 69 71 52 25 47 63 59 64
Jumlah penjualan donat per hari (Setelah Diurutkan)
22 25 25 27 30 32 32 34 35 37
38 41 42 44 45 47 47 48 49 51
51 52 53 54 54 55 57 57 58 59
59 60 63 64 64 66 67 68 68 69
71 72 73 75 75 76 76 78 80 86
Setelah data diurutkan, dapat dibuat tabel distribusi frekuensi. Beberapa aturan yang harus diperhatikan dalam penyusunan distribusi frekuensi adalah:
Tentukan nilai terkecil, nilai terbesar, dan jarak (nilai terbesar dengan nilai terkecil). Berdasarkan data penjualan donat periode 1 Juni-20 Juli 2006 dapat dilihat jumlah penjualan terendah dan tertinggi, yaitu masing-masing sebesar 22 dan 86. Sedangkan jarak antara penjualan terendah dan tertinggi adalah 64.
Banyaknya kelas pada umumnya adalah 5-15 kelas. Penentuan banyaknya kelas ini tergantung pada keperluan. Di sini, metode statistik tidak memberikan ukuran tertentu dalam hal penentuan kelas.
Jumlah kelas dari suatu distribusi bisa ditentukan berdasarkan karakteristik data mentah dan tujuan penggunaan data tersebut. Meskipun tidak ada ukuran tertentu di statistik, ada satu rumus rujukan dari ahli statistik yang dapat digunakan untuk menentukan jumlah kelas, yaitu:
Dimana: k = jumlah kelas
N = jumlah data yang diobservasi
Berdasarkan contoh di atas, jumlah kelas dapat ditentukan sebagai berikut:
k = 1 + 5.64 = 6.64 ≈ 7
Selanjutnya, interval kelas dapat ditentukan dengan membagi jarak dengan jumlah kelas. Jadi berdasarkan contoh di atas, interval kelas adalah:
Distribusi Frekuensi Relatif dan Kumulatif
Distribusi frekuensi bisa diklasifikasikan menjadi distribusi relatif dan kumulatif. Singkatnya, distribusi frekuensi relatif merupakan pembagian masing-masing frekuensi kelas dengan total frekuensi. Sehingga hasil dari distribusi frekuensi relatif berupa proporsi; pada umumnya dinyatakan dalam persen. Sedangkan distribusi frekuensi kumulatif merupakan penjumlahan masing-masing kelas dari distribusi frekuensi relatif; pejumlahan pada kelas terakhir merupakan nilai total kelas.
Sebagai contoh adalah pilihan pekerjaan bagi mahasiswa yang sudah lulus dari Universitas "Berwarna" per Fakultas. Total mahasiswa yang lulus pada periode Agustus 2006 adalah 300 mahasiswa. Berdasarkan pilihan pekerjaan per fakultas yang diminati oleh mahasiswa yang lulus pada periode tersebut, dapat diperoleh distribusi frekuensi relatif dan kumulatif sebagai berikut. Selanjutnya dinyatakan dalam persen.
Tabel 1.1
Pilihan Pekerjaan dan Minat (Pilihan) Mahasiswa yang Lulus
Periode Agustus 2006
Pilihan Pekerjaan Fakultas Jumlah Lulusan Per Fakultas 2006 Distribusi Frekuensi Relatif (%) Distribusi Frekuensi Kumulatif (%)
Artist Budaya 40 13.3 13.33
Psikiater Psikologi 60 20.0 33.33
Doctor Kedokteran 70 23.3 56.67
Banker Ekonomi 50 16.7 73.33
Journalist FISIP 40 13.3 86.67
Lawyer Hukum 30 10.0 96.67
Lecturer Keguruan 10 3.3 100.00
300 100 Gambar dan Grafik Distribusi Frekuensi
Penyajian data bisa dilakukan dengan berbagai cara. Tujuannya adalah agar data lebih mudah untuk dibaca dan dipahami jika dibandingkan dengan penyajian data dalam bentuk tabel frekuensi. Beberapa bentuk penyajian data berupa histogram, polygon frekuensi dan diagram pie.
Dengan menggunakan contoh di atas, berbagai tampilan data dalam bentuk grafik dapat disajikan sebagai berikut. Pada gambar 1.1.a dan 1.1.b disajikan diagram pie dan diagram batang dari distribusi frekuensi relatif. Sedangkan pada gambar 1.2.a dan 1.2.b disajikan diagram pie dan diagram batang dari distribusi frekuensi kumulatif.
Gambar 1.1.a Diagram Pie
Gambar 1.1.b Diagram Batang
0.00
5.00
10.00
15.00
20.00
25.00
Artist
Psikiater
Doctor
Banker
Journalist
Lawyer
Lecturer
Distribusi Frekuensi Relatif (%)
Gambar 1.2.a Diagram Pie
Gambar 1.2.b Diagram Batang
0.00
20.00
40.00
60.00
80.00
100.00
Artist
Psikiater
Doctor
Banker
Journalist
Lawyer
Lecturer
Distribusi Frekuensi Kumulatif (%)
1.7 Latihan: Soal & Jawab
Berikut ini adalah data dari usia masyarakat di distrik A yang mendapatkan pelayanan sosial dari pemerintah.
83 51 66 61 82 65 54 56 92 60
65 87 68 64 51 70 75 66 74 68
44 55 78 69 98 67 82 77 79 62
38 88 76 99 84 47 60 42 66 74
91 71 83 80 68 65 51 56 73 55
Berdasarkan data tersebut, buatlah distribusi frekuensi relatif dengan membuat 7 dan 13 kelas.
Jawab:
Tabel Distribusi Frekuensi Relatif (7 kelas)
No. Kelas Frek. Relatif
1 30-39 0.02
2 40-49 0.06
3 50-59 0.16
4 60-69 0.32
5 70-79 0.20
6 80-89 0.16
7 90-99 0.08
1.00
Tabel Distribusi Frekuensi Relatif (13 kelas)
No. Kelas Frek. Relatif
1 35-39 0.02
2 40-44 0.04
3 45-49 0.02
4 50-54 0.08
5 55-59 0.08
6 60-64 0.10
7 65-69 0.22
8 70-74 0.10
9 75-79 0.10
10 80-84 0.12
11 85-89 0.04
12 90-94 0.04
13 95-99 0.04
1.00
Berdasarkan soal (1), pihak pemerintah mensyaratkan bahwa 50% dari penerima jasa pelayanan sosial memiliki usia lebih dari 50 tahun. Apakah persyaratan tersebut terpenuhi?
Jawab:
Berdasarkan distribusi di atas (baik 7 ataupun 13 kelas) menunjukkan bahwa sekitar 90% penerima jasa pelayanan sosial memiliki usia lebih dari 50 tahun. Jadi target kebijakan pemerintah sesuai dengan yang diharapkan.
Berdasarkan soal (1), apakah pembagian kelas menjadi 13 lebih membantu dalam memberikan informasi data dibandingkan dengan pembagian kelas menjadi 7.
Jawab:
Untuk kasus ini, kedua kategori kelas cukup mudah untuk digunakan. Jadi, sama saja apakah menggunakan pembagian kelas menjadi 7 atau 13 kategori.
Berdasarkan soal (1), jika pemerintah ingin mengetahui proporsi masyarakat yang mendapatkan pelayanan sosial dengan usia antara 45-50 tahun, manakah yang lebih baik, distribusi frekuensi dengan 7 atau 13 kelas.
Jawab:
Dalam hal ini, pembagian kelas menjadi 13 kategori lebih bagus dalam memberikan informasi. Karena pembagian kelas menjadi 7 kategori hanya menyediakan kelas dengan interval 40-49.
Berikut adalah data skor anak SMU dan SMK di bawah. Berdasarkan data di bawah, susunlah data mulai dari skor terendah sampai dengan tertinggi dengan berbasis pada skor SMU.
SMU SMK SMU SMK
3.6 2.5 3.4 3.6
2.6 2.7 2.9 3.0
2.7 2.2 3.9 4.0
3.7 3.2 3.2 3.5
4 3.8 2.1 2.5
3.5 3.6 2.2 2.8
3.5 3.8 3.4 3.4
2.2 3.5 3.6 3.0
3.9 3.7 2.6 1.9
4.0 3.9 2.4 3.2
Jawab:
Skoring Data: SMU
SMU SMK SMU SMK
4.0 3.8 3.4 3.4
4.0 3.9 3.2 3.5
3.9 3.7 2.9 3.0
3.9 4.0 2.7 2.2
3.7 3.2 2.6 2.7
3.6 2.5 2.6 1.9
3.6 3.0 2.4 3.2
3.5 3.6 2.2 3.5
3.5 3.8 2.2 2.8
3.4 3.6 2.1 2.5
Berdasarkan soal (5), susunlah data mulai dari skor terendah sampai dengan data tertinggi dengan berbasis pada skor SMK.
Jawab:
Skoring Data: SMK
SMK SMU SMK SMU
4.0 3.9 3.2 3.7
3.9 4.0 3.2 2.4
3.8 4.0 3.0 2.9
3.8 3.5 3.0 3.6
3.7 3.9 2.8 2.2
3.6 3.5 2.7 2.6
3.6 3.4 2.5 3.6
3.5 2.2 2.5 2.1
3.5 3.2 2.2 2.7
3.4 3.4 1.9 2.6
Berdasarkan jawaban no. 5 dan 6, apa yang dapat anda simpulkan dari data tersebut.
Jawab:
Skoring siswa SMU dan SMK tidak jauh berbeda, artinya skoring tinggi di SMU beriringan dengan di SMK dan seterusnya sampai skoring terendah meskipun ada beberapa pengecualian
Sebuah perusahaan jasa pengantar kue memiliki jadwal untuk mengantar pesanan (jumlah hari dalam sebulan) ke beberapa tempat pada periode tertentu. Buatlah tabel distribusi frekuensi relatif dengan interval kelas sebanyak 6 hari.
4 12 8 14 11 6 7 13 13 11
11 20 5 19 10 15 24 7 29 26
Jawab:
Kelas Frekuensi Frekuensi Relatif
1-6 4 0.20
7-12 8 0.40
13-18 4 0.20
19-24 3 0.15
25-30 1 0.05
Berdasarkan soal (8), bagaimana efektifitas dari jasa pengantar kue tersebut berdasarkan hasil dari distribusi frekuensi di atas.
Jawab:
Dengan asumsi jasa pengantar kue buka selama 6 hari dalam satu minggu, 80% pemesanan dapat diselesaikan dalam 3 minggu atau kurang.
Berdasarkan soal (8), jika perusahaan ingin memastikan bahwa 50% dari pemesanan bisa diselesaikan dalam 10 hari atau kurang, apakah tabel distribusi frekuensi cukup memberikan informasi?
Jawab:
Berdasarkan tabel distribusi frekuensi, hanya digambarkan bahwa 20%-60% pemesanan dapat dipenuhi dalam 10 hari atau kurang. Jadi tabel di atas tidak memberikan cukup informasi.
Berdasarkan soal (8), apa manfaat dari perhitungan frekuensi relatif pada tabel di atas.
Jawab:
Distribusi frekuensi relatif membantu kita dalam menginterpretasikan informasi yang ada pada data dalam bentuk persentase ataupun proporsi.
Berikut ini adalah bobot (dalam pounds) dari 150 orang yang naik kereta gantung di TMII. Berdasarkan data di bawah, buatlah kurva histogram.
Kelas Frekuensi Kelas Frekuensi
75-89 10 150-164 23
90-104 11 165-179 9
105-119 23 180-194 9
120-134 26 195-209 6
135-149 31 210-224 2
Jawab:
Berat Pengguna Kereta Gantung di TMII
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
82.5
97.5
112.5
127.5
142.5
157.5
172.5
187.5
202.5
217.5
Berat (pounds)
Frekuensi
Berdasarkan soal (12), informasi apa yang dapat anda gali dari histogram di atas yang tidak bisa digambarkan melalui sajian data dalam bentuk tabel.
Jawab:
Banyak observasi yang berada di bagian bawah (lower tail) dibandingkan dengan di bagian atas (upper tail).
Berdasarkan soal (12), jika pihak manajemen sudah menentukan bahwa berat maksimum untuk setiap kereta gantung adalah 400 pounds, apa yang dapat dilakukan operator untuk memaksimumkan penggunaan kereta gantung.
Jawab:
Pihak operator bisa menggabungkan orang yang memiliki berat badan besar dan kecil. Hal ini dapat dibantu melalui pembuatan tabel di atas.
Dari rumah sakit bayi dan anak "Sangat Sehat" diketahui data berat badan bayi (dalam pounds). Buatlah tabel frekuensi kumulatif dari data berikut.
Kelas Frekuensi Kelas Frekuensi
0.5-0.9 10 2.5-2.9 31
1.0-1.4 11 3.0-3.4 23
1.5-1.9 23 3.5-3.9 9
2.0-2.4 26 4.0-4.4 9
Jawab:
Kelas Frek. Kumulatif Kelas Frek. Kumulatif
0.5-0.9 0.050 2.5-2.9 0.545
1.0-1.4 0.145 3.0-3.4 0.715
1.5-1.9 0.265 3.5-3.9 0.915
2.0-2.4 0.400 4.0-4.4 1.000
Berdasarkan soal (15), kira-kira berapa nilai tengah dari set data berat bayi di atas.
Jawab:
Nilai tengah dari berat bayi di atas sekitar 2.8 pounds.
Berdasarkan soal (15), jika bayi dengan berat di bawah 3 pounds membutuhkan inkubator untuk beberapa hari perawatan, berapa persentase bayi yang butuh inkubator.
Jawab:
Berdasarkan tabel frekuensi kumulatif di atas, sekitar 55% bayi membutuhkan inkubator.
Berikut ini adalah data dari produksi batubara (dalam ton) sebanyak 35 shift. Berdasarkan data tersebut, buatlah distribusi frekuensi relatif dan kumulatif dengan membuat 6 kelas yang seimbang.
356 331 299 391 364 317 386
360 281 360 402 411 390 362
311 357 300 375 427 370 383
322 380 353 371 400 379 380
369 393 377 389 430 340 368
Jawab:
Kelas Frekuensi Frek. Relatif Frek. Kumulatif
281-305 3 0.09 0.09
306-330 3 0.09 0.18
331-355 3 0.09 0.26
356-380 15 0.43 0.69
381-405 8 0.23 0.92
406-430 3 0.09 1.00
35 1.00
Berdasarkan soal (18), jika diperkirakan produksi optimal antara 330-380 ton per shift, berapa persentase produksi di bawah dan di atas produksi optimal.
Jawab:
Berdasarkan tabel di atas dapat dilihat jumlah produksi yang di bawah produksi optimal sekitar 26%. Sedangkan produksi yang di atas produksi optimal sekitar 31%.
Berdasarkan soal (18), informasi apa yang perlu digali lagi berkaitan dengan produksi batu bara.
Jawab:
Data di atas hanya menunjukkan produksi optimal (antara 330-380 ton per shift) tanpa memberikan penjelasan bagaimana produksi optimal tersebut dicapai. Sehingga tidak bisa dilakukan evaluasi bagi shift yang belum mencapai produksi optimal.
BAB II
DISTRIBUSI FREKUENSI, UKURAN SENTRAL
& UKURAN PENYEBARAN
Pokok Bahasan:
Rerata Hitung Data Terkelompok dan Tidak Terkelompok
Median Data Terkelompok dan Tidak Terkelompok
Perhitungan Kuartil dan Persentil
Modus (Mode) Terkelompok dan Tidak Terkelompok
Pengertian tentang Persebaran
Deviasi Standar Data Terkelompok dan Tidak Terkelompok
Koefisien Variasi
Rerata Hitung dan Rerata Ukur Data
Mean atau nilai rerata, dinotasikan dengan , diperoleh dengan menjumlahkan semua data dan membaginya dengan jumlah pengamatan. Sederhananya dapat diilustrasikan sebagai berikut:
dimana: i =1, 2, ..., n
Sebagai contoh, dicari rerata waktu yang dihabiskan responden untuk menonton TV selama seminggu. Di sini ada 5 responden dimana masing-masing orang menghabiskan waktu untuk menonton TV sebanyak (dalam jam) 5, 7, 3, 38, dan 7. Rerata dapat dicari sebagai berikut:
Jadi, rerata waktu dari 5 responden yang dihabiskan untuk menonton TV selama seminggu adalah 12 jam.
Rerata dapat diartikan sebagai nilai khas yang mewakili suatu himpunan data. Nilai khas cenderung terletak secara terpusat dan merupakan nilai yang mewakili seluruh nilai observasi. Ada dua jenis rerata, yaitu rerata hitung dan rerata ukur. Masing-masing rerata digunakan untuk data yang tidak dikelompokkan (data mentah) dan data yang dikelompokkan dalam distribusi frekuensi.
2.1.1 Rerata hitung
Data Tidak Dikelompokkan.
Rata-rata hitung dari nilai observasi x1, x2, ..., xn adalah hasil penjumlahan semua nilai observasi dibagi dengan jumlah observasi. Secara matematis, dapat dinyatakan dengan:
Data Dikelompokkan.
Pengelompokan observasi dalam distribusi frekuensi perlu dilakukan karena jumlah observasi cukup besar. Tujuannya adalah untuk memudahkan perhitungan. Secara matematis, dapat dinyatakan dengan:
(i)Metode Langsung, dirumuskan dengan
(ii) Metode Short-Cut, dirumuskan dengan
Keterangan:
πa = rata-rata hitung yang diasumsikan
f = frekuensi kelas
fm = frekuensi kelas median
d = penyimpangan nomor interval kelas
N = jumlah frekuensi
i = interval kelas
2.1.2 Rerata ukur
Rerata ukur (geometric mean) dari nilai sejumlah n observasi adalah akar pangkat n dari perkalian seluruh nilai data. Salah satu kegunaan rerata ukur adalah untuk melihat tingkat pertumbuhan (rate of growth). Tujuannya adalah untuk mengurangi bias yang disebabkan nilai yang ekstrim.
Data Tidak Dikelompokkan.
Rumus rerata ukur dinyatakan dengan:
dimana , menunjukkan observasi ke-1 dan selanjutnya.
Data Dikelompokkan.
Rumus rerata ukur dinyatakan dengan:
dimana G merupakan anti log dari rumus di atas.
Median Data
Tahap awal yang harus dilakukan untuk memperoleh nilai median adalah mengurutkan data dari data yang terkecil sampai dengan yang terbesar. Secara definisi, median diartikan sebagai nilai yang berada di tengah ketika data diurutkan menurut besarnya. Jika jumlah titik data adalah genap, maka nilai tengah merupakan rata-rata dari dua nilai yang berada di tengah.
Sebagai contoh, dicari median dari data berat badan empat orang anak TK; masing-masing sebesar (dalam kg) 20, 25, 27, dan 30. Median dari berat badan anak TK tersebut adalah 26.
Seperti halnya pada rerata, median juga digunakan untuk data yang dikelompokkan dan data yang tidak dikelompokkan.
Data Tidak Dikelompokkan.
Dari sejumlah N data yang telah diurutkan, jika N adalah ganjil, maka median adalah data yang terletak di tengah. Tetapi jika N adalah genap, maka median adalah rerata hitung dari dua data yang terletak di tengah. Dirumuskan dengan :
Median = Md =
Data Dikelompokkan.
Untuk data yang dikelompokkan, secara matematis, dapat dinyatakan dengan:
Keterangan:
= batas bawah kelas median
= jumlah frekuensi
= frekuensi kumulatif dari atas pada kelas sebelum kelas median
= frekuensi kelas median
= interval kelas median
Perhitungan Kuartil dan Persentil
Kuartil membagi serangkaian data yang sudah diurutkan menurut besarnya menjadi empat bagian. Secara notasi dapat dinyatakan dengan Q1 (kuartil pertama), Q2 (kuartil kedua), dan Q3 (kuartil ketiga). Di sini, kuartil kedua tidak lain adalah median. Rumus kuartil ke-1 dan ke-3 dapat dinyatakan dengan
Persentil adalah nilai yang membagi serangkaian data menjadi seratus bagian yang sama dan dinyatakan dengan P1, P2, P3, ...,Pn. Rumus persentil dinyatakan dengan
Modus (Mode) Terkelompok dan Tidak Terkelompok
Modus adalah nilai yang paling sering muncul dari serangkaian data. Serangkaian data bisa memiliki dua modus (bimodal) atau lebih dari dua modus (multimodal). Munculnya bimodal kadang-kadang disebabkan oleh penggabungan dua distribusi yang berbeda.
Untuk data yang dikelompokkan, rumus modus adalah:
Keterangan:
= batas bawah kelas modus
= selisih antara frekuensi kelas modus dengan frekuensi kelas sebelum modus
= selisih antara frekuensi kelas modus dengan frekuensi kelas setelah modus
= interval kelas modus
Pengertian tentang Persebaran
Ukuran-ukuran persebaran merupakan salah topik penting selain ukuran pemusatan. Singkatnya, persebaran menunjukkan distribusi data pada suatu rentang tertentu. Persebaran data juga dikenal dengan dispersi atau variabilitas data.
Yang menjadi pertanyaan lebih lanjut adalah, mengapa variabilitas data merupakan salah satu karakteristik yang penting untuk dipelajari dan diukur? Pertama, memberikan tambahan informasi untuk menilai reliabilitas ukuran terpusat. Jika data tersebar dalam rentang yang sangat panjang, ukuran terpusat menjadi kurang representatif. Kedua, karena data tersebar dalam rentang yang panjang, kita harus mampu memahami karakteristik data tersebut sebelum menganalisis masalah. Ketiga, bisa dilakukan komparasi dispersi data dari berbagai sampel.
Dalam konteks dispersi, analis keuangan sangat memperhatikan pendapatan perusahaan. Apabila dispersi pendapatan perusahaan sangat luas (mulai dari pendapatan dengan jumlah yang sangat tinggi sampai dengan yang sangat rendah atau bahkan negatif), hal ini mengindikasikan resiko yang ditanggung pemegang saham sangat besar.
Deviasi Standar Data Terkelompok dan Tidak Terkelompok
Ukuran yang Data Tidak Dikelompokkan. Rumus deviasi standar dinyatakan dengan:
Data Dikelompokkan. Rumus deviasi standar dinyatakan dengan:
→ untuk populasi
→ untuk sampel
Keterangan:
f = frekuensi kelas
m = titik tengah kelas
N = jumlah frekuensi
π = rata-rata hitung dari data yang telah dikelompokkan
Koefisien Variasi
Koefisien Variasi
Koefisien variasi merupakan ukuran penyebaran relatif yang menunjukkan persentase standar deviasi suatu distribusi terhadap rata-ratanya.
Rumus koefisien variasi adalah:
Koefisien variasi bebas dari satuan yang digunakan sehingga berguna untuk membandingkan distribusi dengan satuan yang berbeda.Dari contoh di atas, dapat dibuat ukuran pemusatan dan ukuran penyebaran baik untuk data yang tidak dikelompokkan maupun data yang dikelompokkan.
2.8 Latihan: Soal & Jawab
Berdasarkan group data besarnya belanja ibu rumah tangga (dalam US$), carilah rata-rata sampel group data berikut.
Kelas (US$) Frekuensi
0-49.99 78
50.00-99.99 123
100.00-149.99 187
150.00-199.99 82
200.00-249.99 51
250.00-299.99 47
300.00-349.99 13
350.00-399.99 9
400.00-449.99 6
450.00-499.99 4
Jawab:
Kelas (US$) Nilai Tengah (x) Frekuensi (f) xf
0-49.99 25 78 1,950
50.00-99.99 75 123 9,225
100.00-149.99 125 187 23,375
150.00-199.99 175 82 14,350
200.00-249.99 225 51 11,475
250.00-299.99 275 47 12,925
300.00-349.99 325 13 4,225
350.00-399.99 375 9 3,375
400.00-449.99 425 6 2,550
450.00-499.99 475 4 1,900
600 85,350
Jadi rata-rata sampel dari belanja ibu RT dari berbagai kategori di atas adalah US$ 142.25
Apa yang dimaksung dengan coding? Buatlah coding berdasarkan data di bawah.
Kelas 1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40 41-45
Jawab:
Coding secara sederhana dapat dinyatakan sebagai proses penyederhanaan data dengan membuat kode untuk setiap nilai tengah dari kelas data. Pada umumnya, diletakkan nilai nol pada distribusi frekuensi yang terletak di tengah.
Kelas 1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40 41-45
Kode (u) -4 -3 -2 -1 0 1 2 3 4
Berdasarkan data di bawah, buatlah coding-nya. dan carilah nilai rata-ratanya.
Kelas 0-7 8-15 16-23 24-31 32-39 40-47
Nilai Tengah 3.5 11.5 19.5 27.5 35.5 43.5
Frekuensi 2 6 3 5 2 2
Jawab:
Kelas 0-7 8-15 16-23 24-31 32-39 40-47
Nilai Tengah 3.5 11.5 19.5 27.5 35.5 43.5
Koding -2 -1 0 1 2 3
Berdasarkan soal (3), carilah rata-rata dari kelas data di atas.
Jawab:
Kelas Nilai Tengah Koding (u) Frekuensi uf
0-7 3.5 -2 2 -4
8-15 11.5 -1 6 -6
16-23 19.5 0 3 0
24-31 27.5 1 5 5
32-39 35.5 2 2 4
40-47 43.5 3 2 6
20 5
Dimana:
Berikut ini adalah daftar berat paket (dalam pounds) yang ada di perusahaan pengiriman "Sangat Cepat".
Kelas Frekuensi Kelas Frekuensi
10.5-10.9 1 15.0-15.9 11
11.0-11.9 4 16.0-16.9 8
12.0-12.9 6 17.0-17.9 7
13.0-13.9 8 18.0-18.9 6
14.0-14.9 12 19.0-19.9 2
Berdasarkan data tersebut, tentukan nilai tengah kelas, coding, dan data yang dibutuhkan untuk menentukan berbagai ukuran statistik.
Jawab:
Kelas
Frekuensi (f) (Jawaban No. 6) (No. 7) (No.8)
Nilai Tengah (x) Fx Koding (u) uf Koding (u) uf
10.5-10.9 1 10.5 10.5 -3 -3 -5 -5
11.0-11.9 4 11.5 46.0 -2 -8 -4 -16
12.0-12.9 6 12.5 75.0 -1 -6 -3 -18
13.0-13.9 8 13.5 108.0 0 0 -2 -16
14.0-14.9 12 14.5 174.0 1 12 -1 -12
15.0-15.9 11 15.5 170.5 2 22 0 0
16.0-16.9 8 16.5 132.0 3 24 1 8
17.0-17.9 7 17.5 122.5 4 28 2 14
18.0-18.9 6 18.5 111.0 5 30 3 18
19.0-19.9 2 19.5 39.0 6 12 4 8
∑=65 ∑=988.5 ∑=111 ∑=-19
Berdasarkan soal (5), hitunglah rata-rata sampel dengan menggunakan rumus berikut [].
Jawab:
Jadi berat rata-rata dari paket yang akan dikirim adalah 15.2077 pounds.
Berdasarkan soal (5), hitunglah rata-rata sampel dengan menggunakan coding; dimana angka 0 diletakkan di kelas ke-4.
Jawab:
Berdasarkan soal (5), hitunglah rata-rata sampel dengan menggunakan coding; dimana angka 0 diletakkan di kelas ke-6.
Jawab:
Jelaskan mengapa jawaban no (7) dan (8) adalah sama.
Jawab:
Karena penentuan coding tidak mempengaruhi hasil akhir. Jadi tidak masalah, apakah nilai 0 diletakkan di kelas ke-4, ke-6 ataupun kelas manapun, hasilnya akan sama.
Berikut ini adalah data yang menunjukkan persetujuan kredit (dalam US$) dari pihak manajemen bagi konsumen yang ingin membeli barang elektronik secara kredit. Perusahaan akan mengurangi tingkat bunga jika rata-rata kredit bulanan lebih dari US$ 65000. Apa yang diputuskan perusahaan berdasarkan data berikut.
Bulan Kredit Bulan Kredit Bulan Kredit Bulan Kredit
Jan. 121300 April 72800 Juli 58700 Okt. 52800
Feb. 112300 Mei 72800 Agust. 61100 Nov. 49200
Maret 72800 Juni 57300 Sept. 50400 Des. 46100
Jawab:
Jadi dapat disimpulkan bahwa pihak manajemen akan mengurangi tingkat bunga karena kredit bulanan lebih dari US$ 65000
Perusahaan roti "Sangat Enak" harus menempatkan berbagai level pekerja pada 2 jenis roti yang diproduksi, yaitu rati "Siap-Santap" dan roti "Siap-Siap". Pekerja dibedakan menjadi pekerja tidak berpengalaman, cukup berpengalaman, dan berpengalaman. Berikut ini adalah jumlah pekerja yang dibutuhkan untuk tiap jenis roti (dalam jam/unit output). Tentukan biaya roti "Siap-Santap" per unit pekerja.
Tingkat Pekerja (US$) Jumlah jam kerja/unit output
Upah/Jam Roti "Siap-Santap" Roti "Siap-Siap"
Tidak Berpengalaman 5 1 4
Cukup Berpengalaman 7 2 3
Berpengalaman 9 5 3
Jawab:
Jadi, biaya yang dibutuhkan untuk setiap unit roti "Siap-Santap" per pekerja adalah US$ 6.8/jam
Berdasarkan soal (11), tentukan biaya roti "Siap-Siap" per unit pekerja dengan menggunakan rumus berikut .
Jawab:
Jadi, biaya yang dibutuhkan untuk setiap unit roti "Siap-Siap" per pekerja adalah US$ 8/jam.
Dimana:
Apa yang dapat anda simpulkan dari jawaban no. 11 dan 12.
Jawab:
Biaya pekerja per jam yang dibutuhkan untuk membuat roti "Siap-Siap" lebih mahal dibandingkan dengan roti "Siap-Santap"
Perusahaan Retail "Sangat Besar" mengumumkan bahwa untuk beberapa jenis produk (produk A-F), pihak manajemen memastikan bahwa harga produk mereka adalah yang paling murah. Jika ada kompetitornya, Retail "Lain", yang memberikan harga lebih murah, maka konsumen akan mendapat barang tersebut secara cuma-cuma. Bapak A yang sangat cermat dan teliti menemukan beberapa produk yang dibeli di retail "Sangat Besar" ternyata lebih mahal dibandingkan dengan toko lain. Dari struk pembelian dapat diperoleh data sebagai berikut (dalam US$).
Retail A B C D E F
Retail "Sangat Besar" 1.35 2.89 3.19 4.98 7.59 11.5
Jumlah unit yang dibeli 7 9 12 8 6 3
Sedangkan harga produk yang sama di Retail "Lain" adalah:
Retail "Lain" 1.29 2.97 3.49 5 7.5 10.95
Berdasarkan data di atas, hitung rata-rata tak tertimbang (unweighted average) dari belanja Bapak A.
Jawab:
Note:
Berdasarkan soal (14), hitung rata-rata tertimbang (weighted average) dari belanja Bapak A.
Jawab:
Informasi apa yang dapat anda sampaikan kepada konsumen berdasarkan jawaban no. 14 dan no. 15.
Jawab:
Apabila menggunakan ukuran rata-rata tidak tertimbang, rata-rata harga di Retail "Sangat Besar" lebih mahal dibandingkan dengan Retail "Lain". Akan tetapi sebaliknya, apabila menggunakan ukuran rata-rata tertimbang, rata-rata harga di Retail "Sangat Besar" lebih murah dibandingkan dengan Retail "Lain".
Pihak Manajemen Retail "Sangat Besar" mendasarkan pernyataannya berdasarkan harga rata-rata tertimbang. Apakah ada kemungkinan terjadinya masalah berkaitan dengan pernyataan pihak manajemen tersebut.
Jawab:
Potensi munculnya masalah dari pernyataan tersebut cukup besar. Mengapa? Karena konsumen tidak terlalu peduli dengan istilah "rata-rata tidak tertimbang" ataupun "rata-rata tertimbang". Yang menjadi fokus perhatian konsumen adalah pihak Retail "Sangat Besar" bersedia memberikan gratis jika ada pihak lain yang menjual produk yang sama dengan harga yang lebih rendah.
Dari soal no. 17, anda sebagai pihak yang netral, apakah pihak manajemen Retail "Sangat Besar" bisa dikatakan sudah melakukan kecurangan?
Jawab:
Tidak ada alasan yang cukup kuat untuk menyatakan pihak manajemen Retail "Sangat Besar" melakukan kecurangan. Karena pernyataan yang dibuat hanya merupakan salah satu strategi pemasaran untuk mendongkrak penjualan.
Perusahaan perkakas rumah "Bersahaja" memiliki pangsa pasar di beberapa daerah. Bagian pemasaran menyiapkan berbagai promosi untuk meningkatkan angka penjualan tahun depan. Berikut ini adalah data penjualan tahun sebelumnya dan tingkat pertumbuhan penjualan yang diharapkan di beberapa region.
Region Penjualan
(US$) Ekspektasi Pertumbuhan (%)
A 193.8 7.25
B 79.3 8.20
C 57.5 7.15
Berdasarkan data di atas, hitung rata-rata tingkat pertumbuhan penjualan tahun depan.
Jawab:
Berdasarkan data di atas, apakah dapat diperoleh informasi bahwa penjualan di Region A sangat tinggi karena jumlah penduduk yang besar dan daya beli yang lebih tinggi dibandingkan dengan Region B dan C.
Jawab:
Tidak bisa. Karena data di atas tidak menyertakan data jumlah penduduk dan daya beli di masing-masing region. Jadi faktor jumlah penduduk dan daya beli belum bisa dijadikan alasan tingginya jumlah penjualan di Region A.
BAB III
EKSPLORASI DATA
Pokok Bahasan:
Pendahuluan: Pengantar ke Eksplorasi Data
Histogram (A Set Univariate Data)
Diagram Dahan Daun
Diagram Kotak Garis (Box Plot) dan Pemeriksaan Outliers (pencilan)
3.1 Pendahuluan: Pengantar ke Eksplorasi Data
Exploratory data analysis (EDA) adalah salah satu cakupan statistik yang menfokuskan pada review, komunikasi, dan penggunaan data. Sederhananya, EDA adalah salah satu pendekatan yang digunakan untuk analisis data. Teknik EDA berkaitan dengan pemanfaatan data mentah dan pola pikir statistik. Atau bisa dinyatakan, EDA lebih mengacu pada filosofi bagaimana membedah data, apa yang dapat digali dari data tersebut, bagaimana melihat data, dan bagaimana menginterpretasikan data. EDA juga bisa didefinisikan sebagai penggunaan teknik "statistik grafik". Mengapa? Karena salah satu fokus EDA adalah menggali atau mengeksplorasi data; dan salah satu caranya adalah melalui sajian grafis. Akan tetapi EDA tidak sepenuhnya identik dengan grafik. Beberapa penyajian grafis yang digunakan EDA cukup sederhana, yaitu:
Plot data mentah (seperti: dan histogram)
Plot statistik sederhana (seperti: plot rata-rata, plot standar deviasi, box plot, dan sebagainya)
Penyajian grafis lain yang biasa digunakan adalah scatter plot dan stem-and-leaf plot. Plot data dapat mencerminkan kondisi data secara kasar.
Tujuan dari EDA adalah:
Mendukung hipotesis tentang penyebab dari fenomena yang diobservasi
Menilai asumsi yang menjadi patokan statistik inferensi
Mendukung pemilihan instrumen dan metode statistik yang tepat
Menyediakan pedoman pengumpulan data yang lebih lanjut melalui survei atau eksperimen
Yang menjadi pertanyaan lebih lanjut adalah apa yang membedakan EDA dengan analisis data klasik lainnya? Ada tiga pendekatan yang pada umumnya digunakan untuk analisis data, yaitu:
Pendekatan Klasik (Classical Approach)
EDA Approach
Pendekatan Bayesian (Bayessian Approach)
Ditinjau dari paradigma dalam melakukan teknik analisis, tiga pendekatan di atas serupa dalam konteks bahwa tiga pendekatan tersebut berawal dari permasalahan dan solusi umum di bidang ilmu pengetahuan. Perbedaannya terletak pada alur dan fokus pada prosesnya. Berikut ini adalah alur dari masing-masing pendekatan.
Alur Pendekatan Klasik (Classical Approach)
Problem => Data => Model => Analysis => Conclusions
Alur EDA Approach
Problem => Data => Analysis => Model => Conclusions
Alur Pendekatan Bayesian (Bayessian Approach)
Problem => Data => Model => Prior Distribution => Analysis => Conclusions
Selanjutnya, untuk pendekatan analisis klasik, kumpulan data diikuti dengan persyaratan yang harus dipenuhi model (seperti: normalitas, linearitas dan sebagainya) dan analsisis, estimasi, pengujian yang secara keseluruhan fokus pada parameter model. Untuk pendekatan EDA, kumpulan data tidak diikuti dengan berbagai macam persyaratan; akan tetapi, diikuti dengan analisis model yang tepat untuk menghasilkan inferensi yang diinginkan. Sedangkan untuk pendekatan Bayesian, dibuat analisis dengan mengakomodir informasi/pengetahuan awal ke dalam analisis dengan menerapkan syarat pada data, sebagai contoh, distribusi independen terhadap parameter yang dipilih dalam model. Selanjutnya, analisis merupakan kombinasi dari distribusi awal (prior distribution) dan kumpulan data yang secara bersama-sama digunakan untuk membuat inferensi dan atau menguji parameter model. Dalam aplikasinya, analisis data bisa merupakan mix dari ketiga pendekatan tersebut. Perbedaan pendekatan di atas hanya untuk menekankan fokus studi dari masing-masing pendekatan.
Yang perlu dipahami, statistik dan prosedur analisis data pada dasarnya dibedakan menjadi dua, yaitu kuantitatif dan grafis. Teknik kuantitatif adalah prosedur statistik dimana outputnya berupa angka (numerik) atau tabulasi. Sebagai contoh:
pengujian hipotesis (hypothesis testing)
analisis varians (analysis of variance)
titik estimasi dan interval kepercayaan (point estimates and confidence intervals)
least squares regression
Dalam konteks analisis klasik, semua teknik penting. Di sisi lain, ada beberapa instrumen statistik yang pada umumnya mengacu pada teknik grafis. Beberapa teknis grafis tersebut mencakup:
scatter plots
histograms
probability plots
residual plots
box plots
block plotssteam-and-leaf plots
Pada modul ini, hanya tiga teknik grafis yang dibahas, yaitu: histograms, steam-and-leaf plots, dan box plots.
Pendekatan EDA berkaitan erat dengan teknik grafis. Prosedur grafis bukan hanya melekat pada EDA tetapi juga suatu instrumen yang penting untuk dipilih atau digunakan. Berbagai instumen grafis merupakan cara yang paling mudah dan singkat untuk mendapatkan insight dari data berkaitan dengan:
pengujian asumsi (testing assumptions)
pemilihan model (model selection)
validasi model (model validation)
pemilihan estimator (estimator selection)
identifikasi hubungan (relationship identification)
factor effect determination
deteksi outlier (outlier detection)
Histogram (A Univariate Data Set)
Tujuan histogram adalah membuat ringkasan secara grafis dari distribusi set data tunggal (univariat data set). Histogram secara grafis menunjukkan beberapa point berikut:
pemusatan data (center of the data)
persebaran data (spread of the data)
kecondongan data (skewness of the data)
adanya outlier (presence of outliers)
adanya modus ganda dalam data (presence of multiple modes)
Melalui histogram, dapat dilihat indikasi yang kuat bagaimana bentuk distribusi yang tepat pada data. Untuk melakukan verifikasi bentik distribusi dari data tersebut bisa digunakan plot probabilitas (probability plot) atau uji goodness-of-fit. Berikut ini adalah salah satu contoh histogram.
Gambar 4.1
1257300179070
Pada umumnya histogram diperoleh dengan membagi data menjadi beberapa kelas. Kelas tersebut bisa ditentukan berdasarkan tujuan ataupun berdasarkan aturan tertentu. Secara teoritis, aturan tersebut diajukan oleh Scott (Scott, 1992). Selanjutnya untuk setiap kelas, dihitung berapa frekuensi untuk setiap kelas. Dari gambar histogram, sumbu vertikal menunjukkan frekuensi dan sumbu horisontal menunjukkan variabel.
Histogram kumulatif adalah variasi histogram dimana sumbu vertikal tidak hanya terdiri dari satu kelas tetapi beberapa kelas. Semakin ke atas, frekuensi kelas makin kecil. Baik histogram atupun histogram kumulatif memiliki variasi yang disebut dengan histogram relatif dan histogram kumulatif relatif.
Ada dua cara untuk membuat normalisasi angka, yaitu:
Normalisasi angka adalah angka atau frekuensi dalam suatu kelas dibagi dengan total observasi. Angka atau frekuensi relatif tersebut jika dijumlahkan, hasilnya sama dengan satu (atau 100 jika digunakan skala persentase). Jadi ketinggian histogram menunjukkan proporsi data setiap kelas.
Normalisasi angka adalah angka atau frekuensi di kelas dibagi dengan total observasi dikalikan dengan lebar kelas (the class width). Untuk kategori normalisasi ini, area atau integral dibawah histogram sama dengan satu. Dilihat dari sudut pandang probabilitas, hasil normalisasi histogram relatif dikaitkan dengan probability density function; sedangkan histogram kumulatif relatif dikaitkan dengan cumulative distribution function.
Penjelasan tentang histogram di atas dapat digunakan untuk menjawab beberapa pertanyaan berkut, yaitu:
Apa jenis distribusi populasi dari data tersebut?
Dimanakah data terpusat?
Bagaimanakah persebaran data tersebut?
Apakah data tersebut simetris atau memiliki kecondongan?
Apakah data tersebut mengandung outliers?
Berikut ini adalah beberapa contoh bentuk atau pola data, yaitu
Normal
Symmetric, Non-Normal, Short-Tailed
Symmetric, Non-Normal, Long-Tailed
Symmetric and Bimodal Bimodal Mixture of 2 Normals
Skewed (Non-Symmetric) Right
Skewed (Non-Symmetric) Left
Symmetric with Outlier Diagram Dahan Daun (Stem-and-Leaf Plot)
Diagram dahan daun (stem-and-leaf plot) adalah sajian grafis dari data kuantitatif yang serupa dengan histogram dan sangat berguna dalam menggambarkan bentuk distribusi. Diagram dahan daun ini disebut juga dengan stemplots. Diagram dahan daun ini memiliki informasi lebih dibandingkan dengan histogram karena nilai data individu disajikan dalam format tabel untuk data yang memiliki pengaruh lebih besar. Berbeda dengan histogram dimana data disajikan dalam bentuk batang (bars). Sederhananya, diagram dahan daun terdiri dari dua kolom yang dipisahkan dengan garis vertikal. Kolom sebelah kiri adalah dahan dan sebelah kanan adalah daun.
Untuk membuat diagram dahan daun, observasi harus disusun dari nilai terkecil ke nilai terbesar. Sebagai contoh adalah set data berikut.
54 56 57 59 63 64 66 68 68 72 72 75 76 81 84 88 106
Selanjutnya, ditentukan data yang mewakili dahan dan data yang mewakili daun. Daun terdiri dari digit terakhir suatu angka dan dahan seluruh digit lainnya. Dalam kasus data sangat besar atau sangat kecil, nilai data dapat disederhanakan dalam satuan tertentu (seperti ratusan) yang digunakan untuk daun. Sedangkan sisanya digunakan sebagai dahan. Dalam contoh berikut, daun mewakili satuan tertentu dan dahan mewakili sisanya (puluhan dan digit yang lebih tinggi). Berikut ini adalah contoh diagram dahan daun.
Contoh 3.1
5 | 4 6 7 9
6 | 3 4 6 8 8
7 | 2 2 5 6
8 | 1 4 8
9 |
10 | 6
Double stemplots merupakan variasi dari diagram dahan daun. Double stemplots dapat dibedakan menjadi splitting stems dan the back-to-back stemplot.
a. Splitting Stems
Untuk suatu set data, pemecahan atau pembagian setiap dahan menjadi bagian-bagian yang lebih kecil, dua atau lima dahan, akan memberikan ilustrasi yang lebih baik dari bentuk distribusi data. Ketika melakukan pemecahan dahan, yang penting dicatat adalah seluruh dahan harus dipecah dan pemecahan tersebut harus seimbang. Sebagai contoh, dahan dipecah menjadi dua dan lima. Ketika dahan dipecah menjadi dua bagian, satu dahan terdiri dari 0-4 daun dan dahan berikutnya terdiri dari 5-9 daun. Sedangkan ketika dahan dipecah menjadi lima bagian, satu dahan terdiri dari 0-1 daun, dahan berikutnya terdiri dari 2-3 daun, dan untuh dahan-dahan selanjutnya terdiri dari 4-5 daun, 6-7 daun, dan 8-9 daun. Berikut ini adalah contoh dari split stemplot dimana satu dahan dipecah menjadi dua dahan (untuk contoh ini, data masih mengacu pada data di atas).
Contoh 3.2
5 | 4
5 | 6 7 9
6 | 3 4
6 | 6 8 8
7 | 2 2
7 | 5 6
8 | 1 4
8 | 8
9 |
9 |
10 |
10 | 6
b. Back-to-back stemplot
Back-to-back stemplots digunakan untuk membandingkan dua distribusi side-by-side. Jenis double stemplot ini terdiri dari tiga kolom, masing-masing dipisahkan oleh garis vertikal. Kolom dibagian tengah merupakan dahan sedangkan kolom pertama dan ketiga terdiri dari daun yang memiliki distribusi yang berbeda. Berikut ini adaah contoh back-to-back stemplot yang membandingkan distribusi Set B dan Set A.
Contoh 3.3
Set A Set B
------- -------
6 5 3 | 4 |
8 7 6 5 | 5 | 4 6 7 9
7 3 2 | 6 | 3 4 6 8 8
4 2 | 7 | 2 2 5 6
6 | 8 | 1 4 8
| 9 |
| 10 | 6
Diagram Kotak Garis (Box Plot) dan Pemeriksaan Outliers (pencilan)
Salah satu tujuan pembuatan diagram kotak garis (box plot) adalah untuk mengecek pergeseran lokasi dan variasi. Box plots (Chambers, 1983) adalah alat yang sangat bagus untuk menggambarkan informasi lokasi dan variasi suatu data, khususnya untuk mendeteksi dan mengilustrasikan perubahan lokasi dan variasi antara kelompok data yang berbeda. Contoh berikut menyatakan bahwa mesin memiliki efek signifikan terhadap energi berkaitan dengan lokasi dan variasi yang memungkinkan.
Gambar 4.2 Box Plot
Diagram kotak garis di atas menunjukkan perbandingan empat mesin yang bisa digunakan untuk menghasilkan output. Mesin memiliki efek yang signifikan terhadap energi berkaitan dengan lokasi dan variasi. Mesin tiga memiliki respon energi terbesar (sekitar 72.5); mesin empat memiliki respon energi terkecil.
Diagram kotak garis dapat menjawab beberapa pertanyaan berikut:
Apakah faktor tersebut signifikan?
Apakah lokasinya berbeda antara dua sub kelompok?
Apakah variasinya berbeda antara dua sub kelompok?
Apakah ada outlier?
Diagram kotak garis dibentuk oleh sumbu vertikal (variabel respon, sebagai contoh adalah energi) dan horisontal (faktor yang mempengaruhi, sebagai contoh adalah mesin). Lebih spesifik, diagram kotak garis dapat dibuat berdasarkan tahapan berikut:
Menghitung median dan kuartil (kuartil terendah adalah 25% persentil dan kuartil tertinggi adalah 75% persentil).
Membuat plot simbol pada median (atau menggambar garis) dan menggambar sebuah boks (selanjutnya dikenal dengan istilah box-plot) antara kuartil terendah dan tertinggi; boks ini mewakili 50% data pertengahan (the "body" of the data).
Membuat garis dari kuartil terendah ke titik minimum dan membuat garis dari kuartil tertinggi ke titik maksimum. Secara spesifik, simbol digambarkan pada titik minimum dan maksimum, meskipun hal ini tidak harus dilakukan.
Dari gambar yang dibuat, box-plot mampu mengidentifikasi 50% data pertengahan, median dan titik ekstrim.
Diagram kotak-garis tunggal (a single box plot) dapat dibuat untuk sejumlah data yang tidak memiliki perbedaan. Sebagai alternatif, diagram kotak-garis ganda (multiple box plots) dapat dibuat secara bersama-sama untuk membandingkan beberapa set data atau berbagai kelompok data dalam set data tunggal. Untuk diagram kotak-garis tunggal, lebar boks bisa berubah-ubah. Sedangkan untuk diagram kotak-garis ganda, lebar boks dapat ditetapkan secara proporsional dengan jumlah sampel. Pada umumnya, lebar diagram kotak-garis ditetapkan sama untuk seluruh boks.
Salah satu manfaat dari diagram kotak-garis adalah mengidentifikasi outliers. Tahapan yang dilakukan untuk mengidentifikasi outliers adalah:
Menghitung median dan kuartil terendah dan tertinggi.
Membuat plot simbol median dan membuat boks antara kuartil terendah dan tertinggi.
Menghitung interval interkuartil (interquartile range) yang merupakan perbedaan antara kuartil terendah dan tertinggi, dinotasikan dengan IQ.
Menghitung beberapa point berikut:
L1 = kuartil terendah - 1.5*IQL2 = kuartil terendah - 3.0*IQU1 = kuartil tertinggi + 1.5*IQU2 = kuartil tertinggi + 3.0*IQ
Pada awalnya, garis dibuat dari kuartil terendah ketitik minimum, sekarang garis dibuat dari kuartil terendah ke titik yang paling kecil tetapi lebih besar dibandingkan dengan L1. Hal yang sama juga berlaku bagi kuartil tertinggi. Pada awalnya garis dibuat dari kuartil tertinggi ke titik maksimum, sekarang garis dibuat dari kuartil tertinggi ke titik yang paling besar tetapi lebih kecil dibandingkan dengan U1.
Titik antara L1 dan L2 atau antara U1 dan U2 digambarkan dalam lingkaran (circle) yang lebih kecil. Sedangkan titik yang lebih kecil dari L2 atau lebih besar dari U2 digambarkan dalam lingkaran yang lebih besar.
Diagram kotak-garis merupakan instrumen EDA yang penting untuk menentukan apakah suatu faktor memiliki efek yang signifikan dengan lokasi dan variasi yang berbeda. Selain itu diagram kotak-garis juga efektif untuk meringkas informasi yang sangat besar.
BAB IV
HIMPUNAN
1. Definisi Himpunan
Himpunan adalah konsep dasar dari semua cabang matematika. Gerorg Cantordianggap sebagai bapak teori himpunan. Himpunan adalah suatu koleksi / kumpulan objek-objek dari intuisi atau pikiran kita yang dapat dibedakan antara yang satu dan lainnya. Objek di dalam himpunan disebut elemen, unsur, atau anggota. Himpunan diberi simbol dengan huruf besar dari abjad: A, B, …, Z. Contohnya: Himpunan lima bilangan genap positif pertama: B = {4, 6, 8, 10}. Jika x merupakan anggota himpunan A, maka ditulis x Î A. Dan jika x bukan merupakan anggota himpunan A, maka ditulis x Ï A.Untuk mendefinisikan himpunan digunakan 4 cara, yaitu : (1) Mendaftarkan semua anggotanya. (2) Menyatakan sifat yang dimiliki anggotanga. (3) Menyatakan sifat dengan pola (4) Menggunakan notasi pembentuk himpunan.
2. Macam-Macam Himpunan Berdasarkan Jumlah Anggotanya
Himpunan kosong, yaitu himpunan yang tidak mempunyai anggota. Dilambangkan dengan " " atau { }.
Contoh : bilangan prima genap > 10
Himpunan semesta, yaitu himpunan yang anggotanya semua objek pembicaraan. Himpunan semesta dilambangkan dengan S atau U.
Contoh : S = {-4, 5, 7, 9} dan A = {7, 9} maka S merupakan semesta dari himpunan A
Himpunan berhingga dan himpunan tak berhingga. Himpunan dikatakan berhingga jika himpunan tersebut mempunyai anggota yang banyaknya berhingga. Himpunan dikatakan tak berhingga jika himpunan tersebut mempunyai anggota yang banyaknya tidak berhingga.
Contoh : H = {x | x= 1, 2, 3, 4, 5, 6, …}, H disebut himpunan tidak berhingga.
A = {x | x= 1, 2, 3, 4, …, 10}, A disebut himpunan berhingga.
Himpunan bagian (Subset). Himpunan A dikatakan himpunan bagian dari himpunan B ditulis "A⊂B", jika setiap anggota A merupakan anggota dari B.
Contoh : A = {2, 3, 5} dan B = {1, 2, 3, 4, 5}. Maka A⊂B.
P = {2, 3, 5, 7} dan Q = { 1, 3, 5, 7, 9}. Maka P⊄Q
Dua himpunan A dan B dikatakan sama, ditulis "A=B", jika dan hanya jika A⊂B dan B⊂A.
Contoh : A = {2, 3, 5,7} dan B = {2, 3, 5, 7}. Maka A=B.
Himpunan berpotongan. Dua himpunan A dan B dikatakan berpotongan ditulis "A∝B" jika dan hanya jika ada anggota yang menjadi anggota B.
Contoh : A = {2, 3, 5,} dan B = {1, 3, 5, 7, 9}. Maka A∝B.
Himpunan lepas. Dua himpunan A dan B dikatakan lepas ditulis "//" jika dan hanya jika kedua anggota himpunan tersebut tidak kosong dan tidak mempunyai anggota yang sama.
Contoh: A = {3, 5, 7,11} dan B = {2, 4, 6, 8}. Maka A ∕∕ B.
Operasi Dalam Himpunan
Ada beberapa konsep dasar himpunan yang harus dipahami, yaitu:
Set – adalah kumpulan elemen atau objek studi
Set juga bisa dibedakan menjadi:
Set kosong (empty set) dinotasikan dengan
Yaitu set yang tidak memiliki elemen
Set universal (universal set) dinotasikan dengan S
Yaitu set yang terdiri dari seluruh elemen yang memungkinkan
Komplemen (Complement)
Komplemen A adalah set dari elemen S yang bukan A
Perpotongan (Intersection) dinyatakan dengan "dan"
Untuk kasus dua set, A dan B, intersection adalah set yang merupakan irisan elemen A dan B
Union dinyatakan dengan "atau"
Yaitu set yang terdiri dari seluruh elemen A atau B atau keduanya
Mutually exclusive or disjoint sets
Yaitu beberapa set yang tidak memiliki irisan. Irisan dari set tersebut berupa himpunan kosong (empty set)
Partition
Yaitu kumpulan set mutually exclusive yang elemennya secara bersama-sama membuat set universal
Set, Intersection dan Union dapat dilihat pada gambar 4.1.a-c di bawah.
Gambar 4.1.a SetGambar 4.1.b Intersection
02108202971800114300
A
B
A
Gambar 4.1.c Union
0114300
22860097155
AB
Eksperimen (Experiment)
Yaitu suatu proses yang menghasilkan output yang memungkinkan. Sebagai contoh: output dari pelemparan koin adalah "muka" dan "ekor". Setiap eksperimen hanya menghasilkan satu output. Sebagai contoh, satu kali pelemparan koin hanya akan menghasilkan satu output, yaitu "muka atau ekor". Output dari eksperimen yang random tidak diketahui sebelum dilakukan percobaan.
Kejadian (Events)
Sering disebut dengan "Ruang sampel" (Sample Space) atau "set kejadian" (Event Set). Kejadian merupakan set seluruh output yang memungkinkan pada percabaan tertentu.
Contoh:
1. Pelemparan dadu
Kejadian yang memungkinkan adalah S = (1,2,3,4,5,6)
2. Kumpulan dari angka genap
Kejadian yang memungkinkan adalah A = (2,4,6)
Probabilitas dari suatu kejadian adalah jumlah dari probabilitas kejadian yang ada. Contoh: probabilitas A merupakan penjumlahan dari beberapa kejadian. Dinotasikan dengan, P(A) = P(2) + P(4) + P(6).
4. Hukum-Hukum Aljabar Himpunan
Hukum Idempoten : (a). A∪A=A ; (b).A∩A=A.
Hukum Assosiatif : (a). (A∪B)∪C=A∪(B∪C) ; (b). (A∩B)∩C=A∩(B∩C)
Hukum Komutatif : (a). A∪B=B∪A ; (b). A∩B=B∩A
Hukum Distributif : (a). (A∪B)∩C=(A∩B)∪(A∩C)
(b). A∪(B∩C)=(A∪B)∩(B∪C)
(c). (A∩B)∪C=(A∪C)∩(B∪C).
Terimakasih telah membaca Makalah statistika. Gunakan kotak pencarian untuk mencari artikel yang ingin anda cari.
Semoga bermanfaat
0 komentar: