Semalt - Web Sayfalarını Kazıma

Güzel Çorba, XML ve HTML belgelerinden bir ayrıştırma ağacı oluşturarak web sayfalarını kazımak için yaygın olarak kullanılan bir Python kütüphanesidir. Web sitelerinden ve sayfalardan veri çıkarma tekniği olan web kazıma, veri analizi ve yönetim alanlarında yaygın olarak kullanılmaktadır. Çoğu durumda, Python programlama dili veri biliminde bir ön koşuldur.

Python 3, veri yönetimi projenize uygulayabileceğiniz kazıma araçlarına ve modüllerine sahiptir. Şu anda Güzel Çorba 4 olarak çalışan bu modül hem Python 3 hem de Python 2.7 ile uyumludur. Güzel Çorba 4 modülü, kapalı olmayan etiket çorbası için bir ayrıştırma ağacı oluşturabilir. Bu öğreticide, sayfayı nasıl kazımayı ve kazınmış verileri bir CSV dosyasına nasıl yazacağınızı öğreneceksiniz.

Başlangıç

Başlamak için PC'nizde bir sunucu veya yerel tabanlı Python kodlama ortamı kurun. Ayrıca, makinenize Beautiful Soup and Requests modülünü de yüklemelisiniz. Her iki modülle çalışma bilgisi de gerekli bir önkoşuldur. HTML etiketleme ve yapıya aşinalık da ek bir avantajdır.

Verilerinizi anlama

Bu bağlamda, Güzel Çorba 4'ü nasıl kullanacağınızı anlamanıza yardımcı olmak için Ulusal Sanat Galerisi'nden gerçek veriler kullanılacaktır. Ulusal Sanat Galerisi, yaklaşık 13.000 sanatçı tarafından yapılan 120.000 parçadan oluşmaktadır. Sanatın merkezi Washington DC, ABD'dir.

Beautiful Soup ile web verilerinin çıkarılması o kadar karmaşık değil. Örneğin, Z harfine odaklanırsanız, listedeki adı işaretleyin ve not edin. Bu durumda, ilk isim Zabaglia, Niccola'dır. Tutarlılık için, sayfa sayısını ve o sayfadaki son sanatçının adını belirtin.

İstekler ve Güzel Çorba kütüphanesi nasıl alınır

Kütüphaneleri içe aktarmak için Python 3 programlama ortamınızı etkinleştirin. Programlama ortamınızla aynı dizinde bulunduğunuzdan emin olun. Başlamak için aşağıdaki komutu çalıştırın. my_env / bin / etkinleştirin.

Yeni bir dosya oluşturun ve Beautiful Soup and Requests kitaplıklarını içe aktarmaya başlayın. İstek kütüphanesi, HTTP'yi Python programlarınızda okunabilir formatlarda kullanmanıza izin verecektir. Güzel Çorba ise sayfaları çabucak kazımak için çalışıyor. Güzel Çorba ithal etmek için bs4 kullanın.

Web sayfası nasıl toplanır ve ayrıştırılır

İstekler'i kullanarak ilk sayfanızın URL'sini toplayın. İlk sayfanın URL'si değişken sayfaya atanacaktır. İstekler'den bir BeautifulSoup nesnesi oluşturun ve nesneyi Python'un ayrıştırıcısından ayrıştırın.

Bu yazıda amaç bağlantılar ve sanatçıların isimlerini toplamaktır. Örneğin, sanatçıların tarihlerini ve uyruklarını toplayabilirsiniz. Windows kullanıcıları için, sanatçının adına sağ tıklayın. Bu durumda, Zabaglia, Niccola kullanın. Mac OS kullanıcıları için "CTRL" ye dokunun ve adı tıklayın. Web geliştiricilerinin araçlarına erişmek için ekranınızda açılan "Öğeyi Denetle" menüsünü tıklayın. Güzel Çorbanın bir ağacı hızla ayrıştırması için sanatçının isimlerini yazdırın.

Alt bağlantıların kaldırılması

Web sayfanızdaki alt bağlantıları kaldırmak için, öğeyi sağ tıklayarak DOM'yi inceleyin. Bağlantıların bir HTML tablosunun altında olduğunu belirleyeceksiniz. Güzel Çorba kullanarak, ayrıştırma ağacından etiketleri kaldırmak için "ayrıştır yöntemini" kullanın.

Bir etiketten içerik nasıl alınır?

Tüm bağlantı etiketini yazdırmanıza gerek yoktur, bir etiketten malzeme çıkarmak için Güzel Çorba kullanın. Güzel Çorba 4'ü kullanarak sanatçılarla ilişkili URL'leri de yakalayabilirsiniz.

Alıntılanan verileri bir CSV dosyasına kaydetme

CSV dosyası, yapılandırılmış verileri çoğunlukla veri sayfaları için kullanılan bir biçim olan düz bir metinde saklamanızı sağlar. Python'da düz metin dosyalarını kullanma bilgisi önerilir.

Web verisi çıkarma, sayfaları kazımak ve bilgi edinmek için kullanılır. Bilgilendirme yaptığınız web sitelerini düşünün. Bazı dinamik web siteleri, sitelerinde web verilerinin alınmasını kısıtlar. Güzel Çorba ve Python 3 ile sayfa kazımak kolaydır.

mass gmail