marți, 16 iunie 2020

Web scraping. Cum să fii protejat împotriva colecției de date automate


Valentina Astafi
Bibliotecar, Filiala „Onisifor Ghibu”


Rezumat: Transformarea automată a resurselor Web într-un format specific constă în extragerea de date web sau web scraping. Extragerea datelor web se face folosind limbaje de programare backend, accesând site-ul web cu un client http și extrăgând datele adresându-vă etichetele, clasele, identificatorii documentului care descrie pagina. De multe ori, web scraping-ul se face în scopul analizei și culegerii informațiilor din mai multe surse într-un singur loc. Scopul principal al acestui articol a fost să familiarizeze și să explice care este scraping-ul web, modul în care este utilizat, tehnicile, ce scopuri și modul în care administratorii site-ului web pot fi protejați de colectarea automată a datelor.

Cuvinte cheie: extragere de date, analiză HTML, structuri de date, solicitare GET, automatizare, browser.

Introducere
Odată cu apariția aplicațiilor Internet și Web, a apărut necesitatea transformării informațiilor din paginile HTML în formate mai practice, ceea ce permite gestionarea mai flexibilă. Ca răspuns la această nevoie, a apărut tehnologia de web scraping. De-a lungul timpului, dezvoltatorii web au creat multe instrumente, biblioteci, pachete care permit o raclare web mai ușoară folosind API-ul acestor instrumente.
Schițarea web și-a găsit aplicația în căutarea anumitor informații, în indexarea paginilor web, în ​​analiza și monitorizarea datelor, și-a găsit aplicația în lupta împotriva concurenței din partea companiilor, poate fi folosită de către utilizatori să capteze oferte mai profitabile, să analizeze mai multe magazine de internet etc.

Web Scraping
Extragerea de date web este procesul de transformare automată a resurselor Web într-un format specific structurat. De exemplu, dacă o colecție de pagini web HTML descrie detalii despre diferite companii (nume, locații etc.), extragerea datelor web ar însemna transformarea acelui format HTML nativ în structuri de date care pot fi modificate de computer, cum ar fi intrările în tabele de baze de date relaționale.
Scopul extragerii datelor web este de a face datele web disponibile pentru etapele ulterioare de manipulare sau integrare.
Utilizare: Web scraping-ul se face rulând un program, scris într-un limbaj de programare backend. Deși nu poate fi realizat de utilizatorii obișnuiți, există resurse, servicii și aplicații care oferă utilizatorilor simpli privilegiile acestei tehnologii.
Securitate
Unele site-uri web folosesc metode pentru a preveni web scraping-ul, cum ar fi detectarea și blocarea crawling-ului (vizualizarea) de către roboți pe paginile lor. Ca răspuns la acest lucru, există sisteme de răzuire web care se bazează pe utilizarea metodelor de analiză DOM, viziunea computerului și procesarea limbajului natural pentru a simula vizualizarea umană pentru a asigura colecția de conținut de pagini web. pentru analiza offline.
Site-urile web pot folosi diferite mecanisme pentru a detecta web scraping-ul:
1. Trafic neobișnuit / rata de descărcare ridicată, în special de la un singur client / sau o adresă IP unică într-o perioadă scurtă de timp.
2. Sarcini repetitive efectuate pe site - pe baza presupunerii că un utilizator uman nu îndeplinește aceleași sarcini repetitive tot timpul.
3. Detectarea prin ghivece de miere - acestea sunt, de obicei, legături care nu sunt vizibile pentru un utilizator normal, ci doar pentru un păianjen. Când un răzuitor / păianjen încearcă să acceseze legătura, alarmele sunt declanșate.
Pentru a evita blocarea, răzuitorii web ar trebui să efectueze acțiuni pe site cât mai aproape de comportamentul utilizatorului. Prin urmare, ar trebui să rotiți adrese IP periodic, să schimbați agenții de utilizator și să setați viteza de compresie web la optim și între apeluri pentru a crea acțiuni aleatorii pe site care nu vor cauza suspiciuni.

Concluzie
Acest articol vorbește despre extragerea datelor web, care a crescut odată cu dezvoltarea tehnologiei informației. Extragerea datelor web este folosită atât cu gânduri bune, cât și cu gânduri rele, fără a ține cont de respectarea drepturilor de autor. Pentru aceasta, sunt utilizate diferite limbaje de programare care permit transformarea datelor în formate mai flexibile și mai ușor de utilizat. Diferite metode care detectează acțiunea de răzuire sunt utilizate pentru a proteja împotriva extracției de date dăunătoare.
Pe măsură ce Internetul a crescut astronomic și companiile au devenit tot mai dependente de date, acum este esențial să ai acces la cele mai recente date despre fiecare subiect. Datele au devenit baza tuturor proceselor de luare a deciziilor, fie că este o afacere sau o organizație non-profit. Prin urmare, web scraping-ul și-a găsit aplicațiile în toate eforturile notelor din epoca contemporană. În plus, devine din ce în ce mai clar că cei care folosesc instrumentul de web scraping într-un mod creativ și avansat vor fi cu un pas înaintea celorlalți și vor obține un avantaj competitiv.
Deși există metode care ar proteja extragerea automată a datelor, acestea au doar un efect de încetinire, deoarece este nevoie de mai multe coduri și de viteza mare a colectării datelor.