Python 3 scrapy Library Script to Build Spider to Crawl Website URL's and Generate XML Sitemap File

sitemap_generator.py

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
import xml.etree.ElementTree as ET

class SitemapSpider(CrawlSpider):
    name = 'sitemap_spider'
    allowed_domains = ['geeksforgeeks.org']  # Replace with the target site
    start_urls = ['https://www.geeksforgeeks.org/']  # Replace with the target URL

    rules = (
        Rule(LinkExtractor(), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        url = response.url
        self.save_url(url)
        
    def save_url(self, url):
        # Create or append to the sitemap.xml file
        sitemap_file = 'sitemap.xml'
        
        try:
            tree = ET.parse(sitemap_file)
            root = tree.getroot()
        except FileNotFoundError:
            root = ET.Element("urlset", xmlns="http://www.sitemaps.org/schemas/sitemap/0.9")
            tree = ET.ElementTree(root)
        
        url_elem = ET.SubElement(root, "url")
        loc = ET.SubElement(url_elem, "loc")
        loc.text = url
        
        tree.write(sitemap_file, encoding="UTF-8", xml_declaration=True)

        print(f"URL saved: {url}")

import scrapy

from scrapy.spiders import CrawlSpider, Rule

from scrapy.linkextractors import LinkExtractor

import xml.etree.ElementTree as ET

class SitemapSpider(CrawlSpider):

name = 'sitemap_spider'

allowed_domains = ['geeksforgeeks.org'] # Replace with the target site

start_urls = ['https://www.geeksforgeeks.org/'] # Replace with the target URL

rules = (

Rule(LinkExtractor(), callback='parse_item', follow=True),

)

def parse_item(self, response):

url = response.url

self.save_url(url)

def save_url(self, url):

# Create or append to the sitemap.xml file

sitemap_file = 'sitemap.xml'

try:

tree = ET.parse(sitemap_file)

root = tree.getroot()

except FileNotFoundError:

root = ET.Element("urlset", xmlns="http://www.sitemaps.org/schemas/sitemap/0.9")

tree = ET.ElementTree(root)

url_elem = ET.SubElement(root, "url")

loc = ET.SubElement(url_elem, "loc")

loc.text = url

tree.write(sitemap_file, encoding="UTF-8", xml_declaration=True)

print(f"URL saved: {url}")

Python 3 scrapy Library Script to Build Spider to Crawl Website URL’s and Generate XML Sitemap File

Comments

Leave a Reply Cancel reply

Archives