Como Extrair URL links de um site
Às vezes o webmaster necessita dos links de um certo blog, geralmente eles estão presentes nos sitemaps do blog, que podem ser encontrados a partir do robots.txt. Porém nem todo blog é organizado desta maneira.
Os blog construídos em cima do wordpress oferecem o sitemap com facilidade.
A melhor forma de extair as urls de um blog é usando o shell do linux. Digite no prompt o seguinte comando:
lynx -dump “http://domain.com/” | egrep -o “http:.*” >mylinks.txt |