Data Science

Visualisasi

Apabila Anda belum mengenal Web Scraping, disarankan untuk membaca artikel ini

Jika Anda belum membaca tentang Regular Expression, kami sarankan untuk membaca artikel ini

Proyek ini mencerminkan ilmu data karena sebagian besar waktu dihabiskan untuk mengumpulkan dan memformat data. Namun, sekarang kita memiliki dataset yang bersih, kita bisa membuat beberapa plot! Kita bisa menggunakan matplotlib dan seaborn untuk memvisualisasikan data.

Jika kita tidak terlalu khawatir tentang estetika, kita bisa menggunakan metode plot bawaan dataframe untuk dengan cepat menampilkan hasil:

# Make a horizontal bar chart
df.plot(kind='barh', x = 'President', y = 'salary')

Untuk mendapatkan plot yang lebih baik, kita perlu melakukan beberapa pekerjaan. Kode plotting dalam Python, seperti ekspresi reguler, bisa agak kompleks, dan perlu beberapa latihan untuk terbiasa dengannya. Sebagian besar waktu, saya belajar dengan membangun berdasarkan jawaban di situs seperti Stack Overflow atau dengan membaca dokumentasi resmi.

Setelah sedikit usaha, kita mendapatkan plot berikut (lihat notebook untuk detailnya):

Jauh lebih baik, tetapi ini masih belum menjawab pertanyaan awal saya! Untuk menunjukkan berapa banyak mahasiswa membayar untuk 5 menit waktu presiden mereka, kita bisa mengonversi gaji menjadi $ / lima menit dengan asumsi 2000 jam kerja per tahun.

Ini mungkin bukanlah plot yang pantas dipublikasikan, tetapi ini adalah cara yang bagus untuk mengakhiri sebuah proyek kecil. Kesimpulan

Cara paling efektif untuk belajar keterampilan teknis adalah dengan berpraktik. Meskipun seluruh proyek ini bisa saja diselesaikan dengan cara manual dengan memasukkan nilai-nilai ke dalam Excel, saya suka memandang jangka panjang dan memikirkan bagaimana keterampilan yang dipelajari di sini akan membantu di masa depan. Proses pembelajaran lebih penting daripada hasil akhirnya, dan dalam proyek ini kita dapat melihat bagaimana menggunakan 3 keterampilan kritis dalam ilmu data:

  • Web Scraping: Mengambil data daring
  • Ekspresi Reguler: Mengurai data kita untuk mengekstrak informasi
  • Visualisasi: Menampilkan semua kerja keras kita

Sekarang, mulailah proyek Anda sendiri dan ingatlah: proyek Anda tidak harus mengubah dunia untuk memiliki nilai yang berarti.

Leave a Reply

Your email address will not be published. Required fields are marked *