En la continuación de mi trabajo anterior, donde hablé sobre la recopilación de reseñas e información de productos a través de web scraping, ahora explicaré más sobre cómo construí el sistema de recomendación de productos.

Análisis Exploratorio de Datos

El Análisis Exploratorio de Datos (EDA) es un paso crucial en la ciencia de datos que nos permite entender mejor los datos. ScoreFast™ permite a los usuarios crear informes de datos utilizando consultas SQL y construir paneles de control con simples clics. Algunos de los hallazgos obtenidos incluyen:

Vectorización de Texto

Para utilizar el algoritmo KNN, primero necesitamos convertir los datos de texto en vectores. Se utilizó TF-IDF y Word2Vec para este propósito. TF-IDF se utiliza para la información del producto, mientras que Word2Vec se utilizó para las reseñas de productos.

Construcción de un Modelo KNN

El algoritmo de vecinos más cercanos (KNN) es un método de aprendizaje no paramétrico que se basa en la similitud de características del producto. Es útil como base para el desarrollo de sistemas de recomendación. El proceso implica calcular la “distancia” entre el producto objetivo y todos los demás productos en el conjunto de datos y recomendar los productos más similares.

Análisis de Sentimiento de Reseñas de Productos

El análisis de sentimiento es útil para que las empresas de E-Commerce obtengan una visión general de la opinión pública sobre su marca. Se utilizó VADER, un analizador de sentimientos basado en reglas/lexicones, para dividir las reseñas en diferentes grupos según su puntuación compuesta.

Se crearon nubes de palabras para diferentes grupos de puntuación y se identificaron patrones comunes en las opiniones de los clientes.

Predicción de Calificación de Reseñas

Se exploró la posibilidad de predecir la calificación de una reseña a través de su puntuación compuesta de sentimiento. Aunque el modelo no mostró un alto rendimiento debido a la falta de funciones de entrada, se descubrió que la puntuación de sentimiento no estaba altamente correlacionada con la calificación de la reseña.

Pensamiento Final

En este post se abordaron el web scraping, la recomendación basada en contenido y el análisis de sentimiento. El siguiente paso incluye experimentar con BERT para crear un modelo de predicción más robusto. También se planea trabajar en un análisis de sentimiento basado en aspectos específicos.

La exploración de datos textuales continúa en el sistema ScoreFast(™) y se espera seguir descubriendo nuevas oportunidades en este campo.

Agradecimiento

Agradezco a Kaushik Vasudevan, Prasanta Behera y al equipo de ScoreData por sus aportes y retroalimentación en este blog.

Source: Medium