Agar saya terangkan kenapa.
Mengecheck hitung-hitungan
Artikel dalam The Economist mengatakan jika Walmart sudah merekam 2,5 petabyte data pembelian customer serta 1 juta transaksi /jam. Semua info itu disimpan dalam sarana penyimpanan data memiliki seputar 2,5 petabyte. Menjadi info, 1 petabyte ialah 1.000 terabyte atau 1 juta gigabyte.Satu juta transaksi terdengar banyak sekali. Penulis artikel itu nampaknya kagum dengan ukuran dari data yang dibuat serta disimpan oleh Walmart.
Tetapi info apakah yang sebetulnya tercakup dalam data itu? Apa jumlah transaksi membuat data yang dibuat jadi demikian besar?
Dalam 1 tahun ada 8.760 jam. Dengan jumlahnya 1 juta transaksi /jam, akan berlangsung 8,76 miliar transaksi per tahun. Mari kita bulatkan angka itu jadi 10 miliar (anggapan ini bermakna berlangsung 1 juta transaksi di Walmart saat 24 jam, 365 hari tiada henti, lantas dibulatkan ke atas sampai angka unit).
Nah, data apa yang ada pada suatu transaksi?
Untuk menuturkan perihal ini, saya akan memprediksi ukuran (dalam unit byte) dari satu info yang tersimpan pada setiap transaksi, contorna:
- Ukuran standard untuk info berkaitan tanggal/waktu umumnya sejumlah 8 byte.
- Angka-angka seperti harga produk dapat disimpan dengan ukuran 4 byte.
- Nomer kartu credit umumnya terbagi dalam 16 sampai 19 digit, mari kita kira ukurannya 19 byte.
Kadang waktu transaksi ini dikerjakan dengan tunai serta sedikit data customer yang didapati. Meskipun begitu, mari beranggapan jika kita mempunyai:
- Info tanggal/waktu (8 byte),
- Nomer kartu credit (19 byte),
- Nomer konsumen setia (19 byte),
- Nomer jati diri toko (katakanlah 8 byte), dan
- Info berkaitan kasir yang lakukan transaksi (seputar 8 byte).
Tiap-tiap barang yang dibeli miliki kode produk (12 byte), harga (4 byte), serta jumlah (4 byte), hingga membuahkan ukuran 20 byte untuk setiap barang. Ukuran info itu jadi 100 byte untuk keseluruhan belanjaan jika beli lima type barang. Dengan begitu, ukuran data untuk setiap transaksi berada di rata-rata 162 byte.
Mungkin ada banyak hal yang belumlah kita pikirkan. Bisa saja satu barang mempunyai lebih dari satu kode produk, atau ada kode promo potongan harga untuk penawaran-penawaran spesial. Untuk menampung beberapa anggapan yang peluang lewatkan, mari naikkan ukuran data untuk setiap transaksi dalam perhitungan kita.
Alih-alih 162 byte, mari kita naikkan jadi 1.000 byte. Ukuran ini sebetulnya sangat besar untuk merekam satu transaksi, tetapi semestinya cukuplah untuk meliputi semua penambahan info lainnya yang belumlah kita pikirkan.
Menggunakan anggapan 10 miliar transaksi per tahun (yang telah kita bulatkan ke atas terlalu berlebih) serta perhitungan ukuran data kasar 1.000 byte per transaksi, kita akan memperoleh 10 triliun byte per tahun. Ukuran ini sama juga dengan 10 terabyte.
Mari kita kira Walmart merekam data transaksi saat sepuluh tahun. Ukuran data yang mereka miliki akan sejumlah 100 terabyte.
Menurut artikel The Economist, Walmart sudah menaruh data transaksi memiliki ukuran 2,5 petabyte (yang ekuivalen dengan 2.500 terabyte). Angka ini 25 kali semakin besar dibanding semua data transaksi yang menurut perhitungan kita dapat mereka rekam dalam periode waktu sepuluh tahun, walau sebenarnya hitungan kita telah memakai anggapan yang dilebih-lebihkan.
Apakah tujuan semuanya?
Data apakah yang dimaksud dalam artikel itu? Jika angka-angka yang dijelaskan memang benar terdapatnya, jadi ukuran data sebesar 2,5 petabyte peluang berisi overhead. Ini dapat bermakna ukuran yang terekam itu terbagi dalam 96 % overhead serta 4 % data terpenting. Sebenarnya, pembagian ini mungkin lebih mendekati 99 % overhead serta 1 % data terpenting.Jika kamu mengkalkulasi lagi sebagian besar angka berkaitan big data, kamu akan temukan beda besar pada jumlahnya aktual data yang disimpan serta apa yang direkam.Perihal ini berlangsung sebab sejumlah besar rekaman data terbagi dalam relational database (susunan data yang berperan untuk mengidentifikasi jalinan pada info satu dengan yang lainnya). Merekam info ini menyebabkan inefisiensi kemampuan penyimpanan data.
Satu artikel sama yang diterbitkan Forbes mengatakan jika Walmart merekam data memiliki ukuran 2,5 petabyte setiap jam. Walau sebenarnya dengan volume transaksi sebesar 1 juta kali /jam, diperlukan 250 tahun supaya jumlahnya data itu mendekati 2,5 petabyte. Cukuplah tidak mungkin Walmart dapat merekam data sebesar itu dalam tempo satu jam.
Coba banding dengan ukuran semua data yang diupload di YouTube /hari yang sampai 1 petabyte. Artikel ini mengaku Walmart merekam data memiliki ukuran enam puluh kali semakin besar di banding YouTube setiap harinya.
Adakah yang mengeditnya tulisan-tulisan ini? Apa ada pihak yang mengkalkulasi lagi klaim-klaim itu?
Sayangnya, ada beberapa pihak yang kurang mengerti hitung-hitungan seperti ini, bahkan juga pada publikasi berbentuk tehnis, dalam manajemen perusahaan, sampai lingkungan investor. Angka-angka yang dijelaskan umumnya tidak dicek lagi.
Jika kamu membaca tulisan mengenai big data di hari esok, atau tahu satu startup yang coba menaiki arus big data, coba pelajari apakah yang betul-betul mereka kerjakan. Apa itu betul-betul big data, big overhead, atau sekedar hanya hitung-hitungan salah.



0 Comments