Raspagem
Raspagem, ou "raspagem da web", é o processo de extrair grandes quantidades de informações de um site. Isso pode envolver descarga várias páginas da web ou o site inteiro. O conteúdo baixado pode incluir apenas o texto das páginas, o conteúdo completo HTML, ou o HTML e as imagens de cada página.
Existem muitos métodos diferentes de raspar um site. O mais básico é baixar manualmente páginas da web. Isso pode ser feito copiando e colando o conteúdo de cada página em um editor de texto ou usando o navegador comando para salvar cópias locais de páginas individuais. A raspagem também pode ser feita automaticamente usando o software de raspagem da web. Essa é a maneira mais comum de baixar um grande número de páginas de um site. Em alguns casos, bots pode ser usado para raspar um site em intervalos regulares.
A raspagem da Web pode ser feita para vários propósitos diferentes. Por exemplo, convém arquivar uma seção de um site para modo offline Acesso. Ao fazer o download de várias páginas no seu computador, você pode lê-las posteriormente, sem estar conectado ao Internet. Às vezes, os desenvolvedores da Web raspar seus próprios sites ao testar se há problemas Links e imagens dentro de cada página. A raspagem também pode ser feita para fins ilegais, como copiar um site e republicá-lo com um nome diferente. Esse tipo de raspagem é visto como uma violação de direitos autorais e pode levar a um processo legal.
NOTA: Embora a raspagem de um site com o objetivo de republicar informações esteja sempre errada, a raspagem de um site para outros fins ainda pode violar os termos de uso do site. Portanto, você deve sempre ler os termos de uso de um site antes de baixar o conteúdo do site.