Verificar root.txt de un sitio web

Este código Python utiliza la biblioteca requests para verificar la disponibilidad del archivo robots.txt en un sitio web dado. Aquí está el análisis del código:

  1. Importación de la biblioteca requests: El código importa la biblioteca requests, que se utiliza para realizar solicitudes HTTP.
  2. Definición de la función verificar_robots_txt(url): Esta función toma una URL como entrada y verifica si el archivo robots.txt está disponible en esa URL.
  3. Bloque try-except: El código está contenido dentro de un bloque try-except para manejar posibles errores que puedan ocurrir durante la ejecución del código.
  4. Construcción de la URL del archivo robots.txt: Se construye la URL del archivo robots.txt concatenando /robots.txt a la URL proporcionada.
  5. Realización de la solicitud HTTP: Se utiliza la función requests.get(robots_url) para realizar una solicitud HTTP GET a la URL del archivo robots.txt.
  6. Verificación del estado de la respuesta: Se verifica si la respuesta es exitosa (código de estado 200) utilizando response.status_code == 200.
  7. Impresión del resultado: Si el archivo robots.txt está disponible, se imprime un mensaje indicándolo. De lo contrario, se imprime un mensaje indicando que el archivo no está disponible.
  8. Manejo de errores: En caso de que ocurra algún error durante el proceso, se imprime un mensaje de error.
  9. Ejemplo de uso: Se proporciona un ejemplo de cómo usar la función, donde se pasa una URL de ejemplo ("https://www.ejemplo.com") a la función verificar_robots_txt.

En resumen, este código permite verificar la disponibilidad del archivo robots.txt en un sitio web dado.

import requests

def verificar_robots_txt(url):
    try:
        robots_url = url + '/robots.txt'
        response = requests.get(robots_url)
        if response.status_code == 200:
            print("El archivo robots.txt está disponible.")
        else:
            print("El archivo robots.txt no está disponible.")
    except Exception as e:
        print("Error:", e)

# Ejemplo de uso
url_sitio = "https://www.ejemplo.com"
verificar_robots_txt(url_sitio)
Facebook
Twitter
LinkedIn

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *