Detectar contenido duplicado

Este código en Python utiliza la biblioteca difflib para detectar contenido duplicado entre dos textos dados. Aquí está el análisis del código:

  1. Importación de la clase SequenceMatcher desde difflib: El código importa la clase SequenceMatcher de la biblioteca difflib. Esta clase proporciona funcionalidades para comparar secuencias, en este caso, secuencias de texto.
  2. Definición de la función detectar_contenido_duplicado(texto1, texto2): Esta función toma dos textos como entrada y determina si tienen un alto grado de similitud, lo que podría indicar contenido duplicado.
  3. Cálculo del ratio de similitud: Se utiliza SequenceMatcher(None, texto1, texto2).ratio() para calcular el ratio de similitud entre los dos textos dados. Este ratio varía entre 0 (sin similitud) y 1 (textos idénticos).
  4. Umbral de similitud: Se establece un umbral de similitud de 0.8. Si el ratio de similitud calculado es mayor que este umbral, se considera que los textos tienen un alto grado de similitud y se imprime un mensaje indicando que se ha detectado contenido duplicado.
  5. Impresión del resultado: Dependiendo del resultado del cálculo de similitud, se imprime un mensaje indicando si se detectó contenido duplicado o si el contenido parece ser único.
  6. Ejemplo de uso: Se proporciona un ejemplo de cómo usar la función, donde se pasan dos textos de ejemplo (texto1 y texto2) a la función detectar_contenido_duplicado.

En resumen, este código permite comparar dos textos y determinar si tienen un alto grado de similitud, lo que podría indicar contenido duplicado.

from difflib import SequenceMatcher

def detectar_contenido_duplicado(texto1, texto2):
    similarity_ratio = SequenceMatcher(None, texto1, texto2).ratio()
    if similarity_ratio > 0.8:  # Umbral ajustable según tus necesidades
        print("¡Contenido duplicado detectado!")
    else:
        print("El contenido parece ser único.")

# Ejemplo de uso
texto1 = "Este es un ejemplo de texto."
texto2 = "Este es un ejemplo de texto similar."
detectar_contenido_duplicado(texto1, texto2)
Facebook
Twitter
LinkedIn

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *