peviitor.ro – scraper[3]

Pasii care vor trebui implementati pentru a realiza un scraper pentru o companie, sunt:

sterge datele din index
extrage locurile de munca din website-ul companiei
pregateste datele pentru a putea fi trimise prin API

trimite datele= locurile de munca…


This content originally appeared on DEV Community and was authored by Boga Sebastian Nicolae

Pasii care vor trebui implementati pentru a realiza un scraper pentru o companie, sunt:

  1. sterge datele din index
  2. extrage locurile de munca din website-ul companiei
  3. pregateste datele pentru a putea fi trimise prin API
  4. trimite datele= locurile de munca spre index

Acesta este algoritmul care va trebui scris pentru fiecare companie in parte. In ce limbaj scri scraperul nu este important, insa ce e important?

  1. scraperul trebuie sa fie cat mai rapid
  2. scraperul nu are voie sa preia de foarte multe ori pe zi date de pe website (acceptabil o data pe zi sau de doua ori pe zi)
  3. datele care se trimit spre index trebuie sa aibe sens, si aici ne referim la faptul ca oamenii de HR s-ar putea sa introduca date gresite sau care nu au corespondent la noi in index.

Validarea datelor

Ne propunem ca inainte de a pune scraperul la lucru zilnic sa ne validam aceste locuri de munca pe un environment de test.

Nu are sens ca datele din productie sa fie partial valide sau in proces de a fi corectate, astfel pana cand nu suntem siguri ca scraperul extrage corect datele, toate datele vor fi trimise catre un server de test.
Odata ce scraperul este validat, putem sa il programam printr-un proces sa se ruleze zilnic sau de doua ori pe zi.

Propunere de implementare scraper

Propunem spre implementare scraper cu tehnologiile: JMeter, RegEx, JSON extractor si pentru automatizarea de a se instantia o data pe zi: GitHUB Actions

In articolul urmator venim cu o solutie in care am implementat un scraper pentru o anumita firma.


This content originally appeared on DEV Community and was authored by Boga Sebastian Nicolae


Print Share Comment Cite Upload Translate Updates
APA

Boga Sebastian Nicolae | Sciencx (2022-01-03T18:01:25+00:00) peviitor.ro – scraper[3]. Retrieved from https://www.scien.cx/2022/01/03/peviitor-ro-scraper3/

MLA
" » peviitor.ro – scraper[3]." Boga Sebastian Nicolae | Sciencx - Monday January 3, 2022, https://www.scien.cx/2022/01/03/peviitor-ro-scraper3/
HARVARD
Boga Sebastian Nicolae | Sciencx Monday January 3, 2022 » peviitor.ro – scraper[3]., viewed ,<https://www.scien.cx/2022/01/03/peviitor-ro-scraper3/>
VANCOUVER
Boga Sebastian Nicolae | Sciencx - » peviitor.ro – scraper[3]. [Internet]. [Accessed ]. Available from: https://www.scien.cx/2022/01/03/peviitor-ro-scraper3/
CHICAGO
" » peviitor.ro – scraper[3]." Boga Sebastian Nicolae | Sciencx - Accessed . https://www.scien.cx/2022/01/03/peviitor-ro-scraper3/
IEEE
" » peviitor.ro – scraper[3]." Boga Sebastian Nicolae | Sciencx [Online]. Available: https://www.scien.cx/2022/01/03/peviitor-ro-scraper3/. [Accessed: ]
rf:citation
» peviitor.ro – scraper[3] | Boga Sebastian Nicolae | Sciencx | https://www.scien.cx/2022/01/03/peviitor-ro-scraper3/ |

Please log in to upload a file.




There are no updates yet.
Click the Upload button above to add an update.

You must be logged in to translate posts. Please log in or register.