Analizar la estructura de las URLs

Este código en Python utiliza las bibliotecas requests, urllib.parse, y collections para analizar la estructura de las URLs en un archivo sitemap.xml. Aquí está el análisis del código:

  1. Importación de las bibliotecas necesarias:
    • from urllib.parse import urlparse: Importa la función urlparse de la biblioteca urllib.parse, que se utiliza para descomponer una URL en sus componentes.
    • from collections import Counter: Importa la clase Counter de la biblioteca collections, que se utiliza para contar la frecuencia de elementos en una lista.
  2. Definición de la función analizar_estructura_urls(sitemap_url): Esta función toma la URL de un archivo sitemap.xml como entrada y analiza la estructura de las URLs contenidas en él.
  3. Bloque try-except: El código está contenido dentro de un bloque try-except para manejar posibles errores que puedan ocurrir durante la ejecución del código.
  4. Realización de la solicitud HTTP: Se utiliza requests.get(sitemap_url) para realizar una solicitud HTTP GET a la URL del archivo sitemap.xml.
  5. Verificación del estado de la respuesta: Se verifica si la respuesta es exitosa (código de estado 200) utilizando response.status_code == 200.
  6. Extracción de URLs del sitemap: Si la respuesta es exitosa, se extraen las URLs del contenido del sitemap utilizando response.text.split(), que divide el contenido en una lista de URLs.
  7. Análisis de la estructura de las URLs: Se utiliza Counter para contar la frecuencia de las rutas (paths) de las URLs. Para cada URL en la lista, se utiliza urlparse(url).path para obtener la ruta de la URL.
  8. Impresión de la estructura de URLs: Se imprime la estructura de las URLs, mostrando cada ruta y el número de veces que aparece en el sitemap.
  9. Manejo de errores: En caso de que ocurra algún error durante el proceso, se imprime un mensaje de error.
  10. Ejemplo de uso: Se proporciona un ejemplo de cómo usar la función, donde se pasa una URL de ejemplo ("https://www.ejemplo.com/sitemap.xml") a la función analizar_estructura_urls.

En resumen, este código permite analizar la estructura de las URLs contenidas en un archivo sitemap.xml, mostrando la frecuencia de cada ruta en el sitemap.

from urllib.parse import urlparse
from collections import Counter

def analizar_estructura_urls(sitemap_url):
    try:
        response = requests.get(sitemap_url)
        if response.status_code == 200:
            urls = response.text.split()
            estructuras_urls = Counter([urlparse(url).path for url in urls])
            print("Estructura de URLs:")
            for path, count in estructuras_urls.items():
                print(f"- {path}: {count} veces")
        else:
            print("Error: No se pudo acceder al sitemap.")
    except Exception as e:
        print("Error:", e)

# Ejemplo de uso
url_sitemap = "https://www.SITIO-WEB-A-ANALIZAR.com.ar/sitemap.xml"
analizar_estructura_urls(url_sitemap)
Facebook
Twitter
LinkedIn

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *