Data Analyst

1. Data merupakan informasi yang terkumpul dari berbagai sumber, seperti sensor, aplikasi, sistem, dan lainnya. Jenis data dapat bervariasi, mencakup angka, teks, gambar, suara, atau kombinasi dari jenis data tersebut. Pemanfaatan data meliputi beragam bidang seperti analisis, pengambilan keputusan bisnis, dan pengembangan produk, dengan tujuan meningkatkan efisiensi, kualitas, serta memperbaiki proses pengambilan keputusan. (sumber : https://telkomuniversity.ac.id/pengertian-data-fungsi-jenis-jenis-manfaat-dan-contohnya/)

2. Menurut beberapa ahli, Data Analyst diartikan sebagai berikut :
  • Seorang profesional yang memiliki keterampilan dalam menganalisis dan menggambarkan data internal suatu perusahaan dengan maksud membantu dalam proses pengambilan keputusan organisasi (Friedrichsen dkk., 2022).
  • Individu yang mengelola volume data yang signifikan untuk memfasilitasi proses pengambilan keputusan perusahaan (Chojecki, 2020),
  • Yang bertanggung jawab atas pengumpulan dan transformasi data menjadi informasi yang dapat dimanfaatkan oleh orang lain (Murray, 2013).
    Jadi, bisa disimpulkan bahwa data Analyst merupakan suatu profesi yang bertanggung jawab untuk menganalisis dan mengolah data untuk pengambilan keputusan yang efektif. (sumber : https://www.umn.ac.id/data-analyst-pengertian-tugas-dan-serba-serbinya/)

3. Big data adalah himpunan data yang memiliki dimensi atau volume yang sangat besar, terdiri dari data terstruktur, semi-terstruktur, dan tidak terstruktur, yang dapat berkembang seiring waktu.Dalam big data, terdapat tiga karakteristik atau aspek yang umumnya dikenal sebagai Three V, yaitu:
  • Volume (Ukuran data).
  • Velocity (Kecepatan data).
  • Variety (Keragaman data).
(sumber : https://www.dicoding.com/blog/apa-itu-big-data/)

4. Pandas DataFrame merupakan bentuk struktur data yang sering digunakan dalam melakukan analisis data menggunakan bahasa pemrograman Python. DataFrame dapat dianggap sebagai tabel dua dimensi yang dapat menampung data dalam bentuk numerik maupun teks. Penggunaan Pandas DataFrame memungkinkan pelaksanaan berbagai operasi seperti penyaringan, pengurutan, dan pengelompokan data, selain juga kemampuan untuk mengimpor dan mengekspor data dari berbagai format, seperti CSV, Excel, dan SQL. (sumber : https://realpython.com/pandas-dataframe/ )

5. Library Visualisasi Data Pada Bahasa Python.
    Dalam dunia analisis data menggunakan Python, terdapat dua pustaka visualisasi data yang sangat umum digunakan, yaitu Matplotlib dan Seaborn. Matplotlib telah menjadi standar de facto untuk membuat berbagai jenis plot grafik yang memungkinkan pengguna untuk mewakili data secara efektif. Seaborn, yang dibangun di atas Matplotlib, tidak hanya menyediakan fungsionalitas dasar untuk pembuatan plot, tetapi juga menambahkan lapisan abstraksi yang memudahkan pengguna dalam menciptakan plot grafik yang lebih estetis dan interaktif. Penggunaan kedua pustaka ini bukan hanya untuk merepresentasikan data dengan jelas, tetapi juga untuk memudahkan interpretasi hasil analisis dan pengambilan keputusan yang lebih baik. Dengan visualisasi data yang kuat dari Matplotlib dan Seaborn, analis data dapat dengan lebih mudah mengidentifikasi pola, tren, dan anomali dalam data mereka, serta mengkomunikasikan temuan mereka dengan efektif kepada pemangku kepentingan lainnya. (sumber : https://dqlab.id/library-dan-jenis-visualisasi-data-dengan-python-yang-harus-diketahui)

6. Machine learning adalah teknologi yang memungkinkan mesin untuk belajar secara mandiri dari data yang ada tanpa perlu arahan langsung(menganalisa data tanpa perintah). Dengan dasar dari disiplin ilmu seperti statistika dan matematika, mesin dapat mengeksplorasi pola-pola dalam data, memungkinkannya untuk melakukan berbagai tugas tanpa perlu diprogram secara eksplisit. Istilah ini pertama kali diperkenalkan oleh ilmuwan matematika pada tahun 1920-an, dan sejak itu, telah mengalami perkembangan signifikan. Salah satu contoh aplikasi machine learning yang terkenal adalah Deep Blue yang dikembangkan oleh IBM pada tahun 1996. (sumber : https://www.dicoding.com/blog/machine-learning-adalah/)

7. Outlier merupakan nilai yang secara signifikan berbeda dari nilai lainnya dalam kumpulan data. Nilai ini menonjol sebagai suatu pengecualian dalam pola data yang ada.Nilai yang termasuk dalam outlier dapat jauh lebih tinggi atau lebih rendah dari nilai-nilai lain dalam dataset tersebut. Keberadaan outlier bisa disebabkan oleh berbagai faktor, seperti kesalahan pengukuran, kejadian yang jarang terjadi, atau faktor lain yang tidak terduga. Sebagai contoh, Misalkan kita memiliki data tentang tinggi badan siswa di sebuah kelas. Sebagian besar siswa memiliki tinggi badan yang berada dalam rentang yang serupa, tetapi ada satu siswa yang memiliki tinggi badan yang jauh lebih tinggi atau lebih rendah dari siswa lainnya. Tinggi badan siswa tersebut bisa dianggap sebagai outlier dalam dataset tinggi badan siswa. (sumber : https://revou.co/kosakata/outlier)

8. Supervised learning, menurut International Business Machine (IBM), merupakan pendekatan dalam bidang machine learning dan kecerdasan buatan yang memanfaatkan kumpulan data yang sudah diberi label. Data ini digunakan untuk melatih algoritma dalam mengklasifikasikan data atau meramalkan hasil dengan akurasi yang tinggi. Data yang sudah diberi label adalah data asli yang diperkaya dengan informasi tambahan, memungkinkan mesin untuk mengaitkan pola-pola dengan informasi tersebut. Dengan menggunakan data yang sudah diberi label, model dapat mengevaluasi keakuratannya dan terus belajar dari pengalaman. Dalam analogi ini, supervised learning mirip dengan proses belajar yang dipandu oleh seorang guru, di mana model belajar dari contoh-contoh yang sudah diberi label dan dapat dikoreksi jika diperlukan.
    Beberapa Metode Supervised learning yang umum digunakan antara lain:
  • Regresi linear, adalah metode algoritma supervised learning yang sering digunakan untuk mengidentifikasi hubungan antara variabel dependen dan satu atau lebih variabel independen. Identifikasi tersebut digunakan untuk memprediksi hasil di masa depan. Jika hanya terdapat satu variabel dependen dan satu variabel independen, disebut sebagai simple regresi linear, sedangkan jika terdapat banyak variabel independen, disebut sebagai multiple regresi linear.
  •  K-Nearest Neighbor, metode yang menggunakan algoritma non-parametrik untuk mengelompokkan data berdasarkan kedekatan mereka dengan data lain yang tersedia.
  • Support vector machine, digunakan untuk klasifikasi data dan pembangunan batas keputusan yang memisahkan kelas-kelas titik data.
  •  Neural networks, yang paling sering digunakan untuk deep learning, meniru interkoneksi otak manusia melalui lapisan-lapisan node. Model ini belajar melalui supervised learning dan disesuaikan menggunakan teknik seperti gradient descent untuk meningkatkan akurasi prediksi.

9. Cross validation sampling adalah teknik statistik yang umumnya digunakan dalam machine learning dan pemodelan prediktif untuk mengevaluasi kinerja dan kemampuan generalisasi suatu model. Menurut geeksforgeeks.org, dalam cross validation, data yang ada dibagi menjadi subset yang disebut fold, memungkinkan dilakukannya pelatihan dan pengujian model secara berulang. Dengan memberikan estimasi kinerja model yang lebih akurat pada data yang tidak terlihat sebelumnya, cross validation membantu mengatasi masalah overfitting, yaitu saat model terlalu spesifik pada data pelatihan dan mengalami penurunan kinerja saat diuji dengan data baru. (sumber: https://revou.co/kosakata/cross-validation)

10. Hyperparameter tuning merupakan proses krusial dalam menentukan nilai yang optimal untuk sekumpulan hyperparameter yang digunakan oleh algoritma pembelajaran. Hyperparameter tuning melibatkan penyesuaian nilai-nilai ini untuk memengaruhi dan mengoptimalkan proses pembelajaran. Hyperparameter sendiri adalah nilai-nilai yang tidak ditentukan oleh model, tetapi mempengaruhi cara model tersebut belajar dari data. Selain hyperparameter, aspek lain seperti bobot simpul juga merupakan bagian dari tuning yang dilakukan. Dengan pola data yang bervariasi, model machine learning yang sama mungkin memerlukan pengaturan yang berbeda untuk hyperparameter seperti batasan, bobot, atau kecepatan pembelajaran agar dapat menggeneralisasi pola data dengan baik. (sumber: https://codingstudio.id/blog/hyperparameter-tuning/#:~:text=Dalam%20machine%20learning%2C%20hyperparameter%20tuning,seperti%20bobot%20simpul%20juga%20dipelajari.)

11. Google Collab, sebuah platform berbasis cloud, memungkinkan pengguna untuk menulis, menjalankan, dan berbagi kode Python melalui web browser. Didesain untuk berbagai kalangan seperti analis, pengembang, peneliti, dan pendidik di bidang data science dan machine learning, platform ini menyediakan lingkungan komputasi yang fleksibel dan mudah diakses tanpa biaya. Dengan kemampuan untuk menjalankan Jupyter Notebook langsung dari web browser tanpa konfigurasi tambahan, Google Colab menawarkan kemudahan akses dan penggunaan. Fitur kolaborasi real-time memungkinkan pengguna untuk berbagi notebook mereka dengan orang lain, sementara penyimpanan di Google Drive memungkinkan akses dari berbagai perangkat. Dalam analisis data, Google Colab memberikan akses ke berbagai library Python yang telah terinstall, seperti TensorFlow, PyTorch, dan OpenCV, yang dapat meningkatkan analyst kecepatan dan efisiensi dalam pengembangan dan pelaksanaan model machine learning. (sumber : https://revou.co/kosakata/google-colab)

Komentar

Postingan populer dari blog ini

GitHub & GitLab

Laravel