drogon/explorer/explorer.py

# -*- coding: utf-8 -*-
import sys
sys.path.append('..')
import uuid
import datetime
from time import sleep
from bs4 import BeautifulSoup
import re
from random import randint
from core.mysql_wrapper import get_anunciosdb, get_tasksdb
from core.scrapping_utils import UrlAttack
from core.alerts import alert_master
from db_layer.capturing_tasks_interface import capturing_interface

class Explorer():
    
    sleep_time_no_work = 60
    sleep_time_no_service = 600
    working_hours = {'start': datetime.time(9, 0, 0),
                     'end': datetime.time(18, 0, 0)}
    monthly_capture_target = 1000
    ad_types = {'1': 'alquiler',
                     '2': 'venta'}

    def __init__(self):
        try:
            self.anunciosdb = get_anunciosdb()
            self.tasksdb = get_tasksdb()
        except:
            print("Could not connect to anuncios DB")

        self.max_db_retries = 3
        self.db_retries = 0
        self.max_queue_retries = 3
        self.queue_retries = 0

    def start(self):
        
        while True:
            if not self.there_is_work():
                sleep(Explorer.sleep_time_no_work)
                continue
            
            if not self.database_is_up():
                alert_master("SQL DOWN", "El explorer informa de que SQL esta caida. Actividad detenida")
                self.stop()

            current_task = ExploringTask(self.compose_listing_url())
            current_task.explore()

            if current_task.status == 'Referencias ready':
                referencias = current_task.get_referencias()
                for referencia in referencias:
                    capturing_interface.create_capturing_task(referencia)

            current_task._update_status("Sent to queue")

            continue                
        
        self.stop()        

    def stop(self):
        #TODO Detener el servicio
        #Detener el servicio
        pass
        
    def there_is_work(self):
        """
        Funcion que agrupa las condiciones que se deben cumplir para poder trabajar
        """
        if self.check_if_recent_task():
            return False

        if not self.in_working_hours():
            return False
        
        if self.get_referencias_acquired_today() >= self.get_max_referencias_for_today():
            return False
        
        if self.get_tasks_created_today() >= self.get_max_tasks_today():
            return False

        return True
        
    def database_is_up(self):
        while self.db_retries <= self.max_db_retries:
            try:
                self.anunciosdb.ping()
                self.db_retries = 0
                return True
            except:
                sleep(Explorer.sleep_time_no_service)
                self.db_retries = self.db_retries + 1
                
        return False
    
    def in_working_hours(self):
        return Explorer.working_hours['start'] <= datetime.datetime.now().time() <= Explorer.working_hours['end']
    
    def get_referencias_acquired_today(self):
        """
        Cuenta cuantas nuevas referencias han aparecido en las ultimas 24 horas
        """
        
        query_statement = """ SELECT count(referencia)
                              FROM primera_captura_full
                              WHERE fecha_captura >= now() - INTERVAL 1 DAY;
                          """
        
        cursor_result = self.anunciosdb.query(query_statement)
        
        return cursor_result.fetchone()[0]
    
    def get_max_referencias_for_today(self):
        """
        Calcula la cantidad objetivo para las ultimas 24 horas  en base a la
        diferencia con el objetivo mensual
        """
        query_statement = """ SELECT count(referencia)
                              FROM primera_captura_full
                              WHERE fecha_captura >= now() - INTERVAL 30 DAY;
                          """
        cursor_result = self.anunciosdb.query(query_statement)
        new_referencias_last_30 = cursor_result.fetchone()[0]

        deviation = (Explorer.monthly_capture_target - new_referencias_last_30) / Explorer.monthly_capture_target
        max_referencias = (Explorer.monthly_capture_target/30) * (1 + deviation)

        return max_referencias

    def get_tasks_created_today(self):
        """
        Mira en el task log cuantas tareas se han iniciado en las ultimas 24 horas
        """
        query_statement = """ SELECT count(uuid)
                              FROM exploring_tasks_logs
                              WHERE status = 'Attacked'
                              AND write_time >= now() - INTERVAL 1 DAY;
                          """
        cursor_result = self.tasksdb.query(query_statement)
        tasks_created_today = cursor_result.fetchone()[0]

        return tasks_created_today

    def get_max_tasks_today(self):
        """
        Calcula el maximo diario de intentos en forma de tareas, en base al
        maximo de capturas mas un multiplicador
        """
        return (self.get_max_referencias_for_today() / 30) * 6

    def check_if_recent_task(self):
        """
        Mira si se ha creado alguna tarea recientemente
        """
        query_statement = """ SELECT count(uuid)
                              FROM exploring_tasks_logs
                              WHERE status = 'Attacked'
                              AND write_time >= now() - INTERVAL 10 MINUTE
                          """
        cursor_result = self.tasksdb.query(query_statement)

        return cursor_result.row_count

    def compose_listing_url(self):
        """
        Genera URLs de manera aleatoria
        :return:
        """
        root = 'https://www.idealista.com/'
        type = ad_type[str(randint(1,2))]
        city = 'barcelona'
        page_number = str(randint(1,30))
        url = root + type + '-garajes/' + city + '-' + city + '/' + \
              'pagina-' + page_number + '.htm'
              
        return url

    
class ExploringTask:
    
    def __init__(self, url):
        self.anunciosdb = get_anunciosdb()
        self.tasksdb = get_tasksdb()
        self.target_url = url
        self.id = str(uuid.uuid4())
        self._update_status('Pending')
        
    def _update_status(self, new_status):
        self.status = new_status
        self._log_in_tasksdb()
        
    def explore(self):
        attack = UrlAttack(self.target_url)
        attack.attack()
        self._update_status('Attacked')
        
        if attack.success:
            self._validate_referencias(attack.get_text())
            self._extract_referencias(attack.get_text())
            if self.referencias:
                self._update_status('Referencias ready')
            elif self.there_are_referencias:
                self._update_status('Failure - No new referencias in HTML')
            else:
                self._update_status('Failure - HTML with no referencias')
        else:
            self._update_status('Failure - Bad request')

    def _log_in_tasksdb(self):
        """
        Graba en la base de datos de tareas un registro con el UUID de la tarea,
        un timestamp y el status
        """
        
        query_statement = """INSERT INTO exploring_tasks_logs
                            (uuid, write_time, status)
                            VALUES (%(uuid)s, NOW(), %(status)s)"""
        
        query_parameters = {'uuid': self.id,
                            'status': self.status}
        
        self.tasksdb.query(query_statement, query_parameters)
        
    def _validate_referencias(self, html):
        """
        Comprueba que las etiquetas sigan el formato de un anuncio.
        Lanza una advertencia si no es así.
        """
        soup = BeautifulSoup(html, 'html5lib')
        ads = soup.find_all(class_ = "item")
        pattern = "^[0-9]{3,20}$"
                
        for ad in ads:
            if not re.match(pattern, ad["data-adid"]):
                alert_master("Alerta - Referencias no válidas",
                             """Una tarea de exploración ha considerado inválida
                                una referencia. El texto de la referencia era : {}
                             """.format(ad["data-adid"]))
                break

    def _extract_referencias(self, html):
        """
        Saca referencias de HTML, descarta las que ya exiten en la base de datos
        de capturas, y guarda si han aparecido listings y si hay alguno nuevo
        """

        soup = BeautifulSoup(html, 'html5lib')
        ads = soup.find_all(class_ = "item")
        self.there_are_referencias = bool(ads)
        self.referencias = []
        for ad in ads:
            if self._is_new_listing(ad["data-adid"]):
                self.referencias.append(ad["data-adid"])        

    def _is_new_listing(self, referencia):
        """
        Comprueba si el listing ya existe en la base de datos de anuncios
        """
        query_statement = """SELECT count(referencia)
                             FROM capturas
                             WHERE referencia = %s"""
        query_params = (referencia,)
        cursor_result = self.anunciosdb.query(query_statement, query_params)
        
        result = cursor_result.fetchone()
        if result[0] > 0:
            return False
        else:
            return True
    
    def get_referencias(self):
        """
        Devuelve las referencias, si las hay
        """
        if self.referencias:
            return self.referencias
        else:
            return None


if __name__ == 'main':
    explorer = Explorer()
    explorer.start()
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00			`# -- coding: utf-8 --`
			`import sys`
			`sys.path.append('..')`
Creado clase de Exploring Task. Creado modulo de scraping utils 2018-08-12 23:14:47 +02:00			`import uuid`
Finalizado modulo de alertas. Testeado clase ExploringTask a fondo. 2018-09-09 19:22:21 +02:00			`import datetime`
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00			`from time import sleep`
Avanzado en la clase de Exploring Task y Explorer. 2018-08-13 23:55:17 +02:00			`from bs4 import BeautifulSoup`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`import re`
			`from random import randint`
			`from core.mysql_wrapper import get_anunciosdb, get_tasksdb`
			`from core.scrapping_utils import UrlAttack`
Finalizado modulo de alertas. Testeado clase ExploringTask a fondo. 2018-09-09 19:22:21 +02:00			`from core.alerts import alert_master`
Testeos en desarrollo del sistema de capturas. Pequeños retoques. 2018-10-13 18:07:32 +02:00			`from db_layer.capturing_tasks_interface import capturing_interface`
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00
			`class Explorer():`

			`sleep_time_no_work = 60`
			`sleep_time_no_service = 600`
Finalizado modulo de alertas. Testeado clase ExploringTask a fondo. 2018-09-09 19:22:21 +02:00			`working_hours = {'start': datetime.time(9, 0, 0),`
			`'end': datetime.time(18, 0, 0)}`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`monthly_capture_target = 1000`
Corregidos pequeños errores y type tras primer test del servicio. 2018-09-22 23:17:49 +02:00			`ad_types = {'1': 'alquiler',`
			`'2': 'venta'}`
Pequeños detalles en Explorer. 2018-09-09 19:42:52 +02:00
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00			`def __init__(self):`
			`try:`
			`self.anunciosdb = get_anunciosdb()`
Pequeños detalles en Explorer. 2018-09-09 19:42:52 +02:00			`self.tasksdb = get_tasksdb()`
Mas avances en el explorer 2018-08-14 20:02:40 +02:00			`except:`
			`print("Could not connect to anuncios DB")`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00			`self.max_db_retries = 3`
			`self.db_retries = 0`
			`self.max_queue_retries = 3`
			`self.queue_retries = 0`
Mas avances en el explorer 2018-08-14 20:02:40 +02:00
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00			`def start(self):`

			`while True:`
			`if not self.there_is_work():`
Finalizado modulo de alertas. Testeado clase ExploringTask a fondo. 2018-09-09 19:22:21 +02:00			`sleep(Explorer.sleep_time_no_work)`
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00			`continue`

			`if not self.database_is_up():`
Finalizado modulo de alertas. Testeado clase ExploringTask a fondo. 2018-09-09 19:22:21 +02:00			`alert_master("SQL DOWN", "El explorer informa de que SQL esta caida. Actividad detenida")`
Iniciadas clases de capturing_task y scraptargetfield. 2018-09-22 23:56:01 +02:00			`self.stop()`
Finalizado modulo de alertas. Testeado clase ExploringTask a fondo. 2018-09-09 19:22:21 +02:00
Corregidos pequeños errores y type tras primer test del servicio. 2018-09-22 23:17:49 +02:00			`current_task = ExploringTask(self.compose_listing_url())`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`current_task.explore()`
Refactorizado Explorer para que el Explorer, y no el exploring_task, se encargue de postear las tareas de captura. Creado una funcion independiente de creacion de capturas para que sea compartida entre todos aquellos servicios que las creen. 2018-09-21 18:19:33 +02:00
			`if current_task.status == 'Referencias ready':`
			`referencias = current_task.get_referencias()`
			`for referencia in referencias:`
Cambios notables. Creadas interfaces para la tabla de capturing task y la tabla de capturas. Traslado todo lo relacionado a Geocoding a un servicio independiente del capturer. Replanteo totalmente el parseo del html, creando un objeto nuevo. 2018-10-06 19:09:44 +02:00			`capturing_interface.create_capturing_task(referencia)`
Refactorizado Explorer para que el Explorer, y no el exploring_task, se encargue de postear las tareas de captura. Creado una funcion independiente de creacion de capturas para que sea compartida entre todos aquellos servicios que las creen. 2018-09-21 18:19:33 +02:00
Corregidos pequeños errores y type tras primer test del servicio. 2018-09-22 23:17:49 +02:00			`current_task._update_status("Sent to queue")`
Refactorizado Explorer para que el Explorer, y no el exploring_task, se encargue de postear las tareas de captura. Creado una funcion independiente de creacion de capturas para que sea compartida entre todos aquellos servicios que las creen. 2018-09-21 18:19:33 +02:00
Mas avances en el explorer 2018-08-14 20:02:40 +02:00			`continue`
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00
			`self.stop()`
Finalizado modulo de alertas. Testeado clase ExploringTask a fondo. 2018-09-09 19:22:21 +02:00
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00			`def stop(self):`
Finalizado modulo de alertas. Testeado clase ExploringTask a fondo. 2018-09-09 19:22:21 +02:00			`#TODO Detener el servicio`
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00			`#Detener el servicio`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`pass`
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00
			`def there_is_work(self):`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`"""`
			`Funcion que agrupa las condiciones que se deben cumplir para poder trabajar`
			`"""`
Refactorizado Explorer para que el Explorer, y no el exploring_task, se encargue de postear las tareas de captura. Creado una funcion independiente de creacion de capturas para que sea compartida entre todos aquellos servicios que las creen. 2018-09-21 18:19:33 +02:00			`if self.check_if_recent_task():`
			`return False`

Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`if not self.in_working_hours():`
			`return False`

			`if self.get_referencias_acquired_today() >= self.get_max_referencias_for_today():`
			`return False`

			`if self.get_tasks_created_today() >= self.get_max_tasks_today():`
			`return False`

			`return True`
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00
			`def database_is_up(self):`
			`while self.db_retries <= self.max_db_retries:`
			`try:`
			`self.anunciosdb.ping()`
			`self.db_retries = 0`
			`return True`
			`except:`
Finalizado modulo de alertas. Testeado clase ExploringTask a fondo. 2018-09-09 19:22:21 +02:00			`sleep(Explorer.sleep_time_no_service)`
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00			`self.db_retries = self.db_retries + 1`

Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`return False`

			`def in_working_hours(self):`
Pequeños detalles en Explorer. 2018-09-09 19:42:52 +02:00			`return Explorer.working_hours['start'] <= datetime.datetime.now().time() <= Explorer.working_hours['end']`
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`def get_referencias_acquired_today(self):`
			`"""`
			`Cuenta cuantas nuevas referencias han aparecido en las ultimas 24 horas`
			`"""`

Pequeños detalles en Explorer. 2018-09-09 19:42:52 +02:00			`query_statement = """ SELECT count(referencia)`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`FROM primera_captura_full`
			`WHERE fecha_captura >= now() - INTERVAL 1 DAY;`
			`"""`

			`cursor_result = self.anunciosdb.query(query_statement)`

Pequeños detalles en Explorer. 2018-09-09 19:42:52 +02:00			`return cursor_result.fetchone()[0]`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00
			`def get_max_referencias_for_today(self):`
			`"""`
			`Calcula la cantidad objetivo para las ultimas 24 horas en base a la`
			`diferencia con el objetivo mensual`
			`"""`
Pequeños detalles en Explorer. 2018-09-09 19:42:52 +02:00			`query_statement = """ SELECT count(referencia)`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`FROM primera_captura_full`
			`WHERE fecha_captura >= now() - INTERVAL 30 DAY;`
			`"""`
			`cursor_result = self.anunciosdb.query(query_statement)`
Pequeños detalles en Explorer. 2018-09-09 19:42:52 +02:00			`new_referencias_last_30 = cursor_result.fetchone()[0]`

Finalizado modulo de alertas. Testeado clase ExploringTask a fondo. 2018-09-09 19:22:21 +02:00			`deviation = (Explorer.monthly_capture_target - new_referencias_last_30) / Explorer.monthly_capture_target`
Pequeños detalles en Explorer. 2018-09-09 19:42:52 +02:00			`max_referencias = (Explorer.monthly_capture_target/30) * (1 + deviation)`

Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`return max_referencias`
Pequeños detalles en Explorer. 2018-09-09 19:42:52 +02:00
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`def get_tasks_created_today(self):`
			`"""`
			`Mira en el task log cuantas tareas se han iniciado en las ultimas 24 horas`
			`"""`
			`query_statement = """ SELECT count(uuid)`
Pequeños detalles en Explorer. 2018-09-09 19:42:52 +02:00			`FROM exploring_tasks_logs`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`WHERE status = 'Attacked'`
			`AND write_time >= now() - INTERVAL 1 DAY;`
			`"""`
			`cursor_result = self.tasksdb.query(query_statement)`
Pequeños detalles en Explorer. 2018-09-09 19:42:52 +02:00			`tasks_created_today = cursor_result.fetchone()[0]`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00
			`return tasks_created_today`

			`def get_max_tasks_today(self):`
			`"""`
			`Calcula el maximo diario de intentos en forma de tareas, en base al`
			`maximo de capturas mas un multiplicador`
			`"""`
			`return (self.get_max_referencias_for_today() / 30) * 6`

Refactorizado Explorer para que el Explorer, y no el exploring_task, se encargue de postear las tareas de captura. Creado una funcion independiente de creacion de capturas para que sea compartida entre todos aquellos servicios que las creen. 2018-09-21 18:19:33 +02:00			`def check_if_recent_task(self):`
			`"""`
			`Mira si se ha creado alguna tarea recientemente`
			`"""`
			`query_statement = """ SELECT count(uuid)`
			`FROM exploring_tasks_logs`
			`WHERE status = 'Attacked'`
			`AND write_time >= now() - INTERVAL 10 MINUTE`
			`"""`
			`cursor_result = self.tasksdb.query(query_statement)`

			`return cursor_result.row_count`

Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00			`def compose_listing_url(self):`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`"""`
			`Genera URLs de manera aleatoria`
			`:return:`
			`"""`
Corregidos pequeños errores y type tras primer test del servicio. 2018-09-22 23:17:49 +02:00			`root = 'https://www.idealista.com/'`
			`type = ad_type[str(randint(1,2))]`
			`city = 'barcelona'`
			`page_number = str(randint(1,30))`
			`url = root + type + '-garajes/' + city + '-' + city + '/' + \`
			`'pagina-' + page_number + '.htm'`
Creado clase de Exploring Task. Creado modulo de scraping utils 2018-08-12 23:14:47 +02:00
			`return url`
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00

Refactorizado Explorer para que el Explorer, y no el exploring_task, se encargue de postear las tareas de captura. Creado una funcion independiente de creacion de capturas para que sea compartida entre todos aquellos servicios que las creen. 2018-09-21 18:19:33 +02:00			`class ExploringTask:`
Finalizado la primera version del wrapper de Mysql. Empezado a trabajar en el cuerpo del explorer 2018-08-09 20:55:04 +02:00
Creado clase de Exploring Task. Creado modulo de scraping utils 2018-08-12 23:14:47 +02:00			`def __init__(self, url):`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`self.anunciosdb = get_anunciosdb()`
			`self.tasksdb = get_tasksdb()`
Creado clase de Exploring Task. Creado modulo de scraping utils 2018-08-12 23:14:47 +02:00			`self.target_url = url`
			`self.id = str(uuid.uuid4())`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`self._update_status('Pending')`
Mas avances en el explorer 2018-08-14 20:02:40 +02:00
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`def _update_status(self, new_status):`
Mas avances en el explorer 2018-08-14 20:02:40 +02:00			`self.status = new_status`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`self._log_in_tasksdb()`
Avanzado en la clase de Exploring Task y Explorer. 2018-08-13 23:55:17 +02:00
Creado clase de Exploring Task. Creado modulo de scraping utils 2018-08-12 23:14:47 +02:00			`def explore(self):`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`attack = UrlAttack(self.target_url)`
Creado clase de Exploring Task. Creado modulo de scraping utils 2018-08-12 23:14:47 +02:00			`attack.attack()`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`self._update_status('Attacked')`
Creado clase de Exploring Task. Creado modulo de scraping utils 2018-08-12 23:14:47 +02:00
			`if attack.success:`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`self._validate_referencias(attack.get_text())`
Mas avances en el explorer 2018-08-14 20:02:40 +02:00			`self._extract_referencias(attack.get_text())`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`if self.referencias:`
			`self._update_status('Referencias ready')`
			`elif self.there_are_referencias:`
			`self._update_status('Failure - No new referencias in HTML')`
Avanzado en la clase de Exploring Task y Explorer. 2018-08-13 23:55:17 +02:00			`else:`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`self._update_status('Failure - HTML with no referencias')`
Creado clase de Exploring Task. Creado modulo de scraping utils 2018-08-12 23:14:47 +02:00			`else:`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`self._update_status('Failure - Bad request')`
Avanzado en la clase de Exploring Task y Explorer. 2018-08-13 23:55:17 +02:00
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`def _log_in_tasksdb(self):`
			`"""`
			`Graba en la base de datos de tareas un registro con el UUID de la tarea,`
			`un timestamp y el status`
			`"""`

			`query_statement = """INSERT INTO exploring_tasks_logs`
			`(uuid, write_time, status)`
			`VALUES (%(uuid)s, NOW(), %(status)s)"""`

			`query_parameters = {'uuid': self.id,`
			`'status': self.status}`

			`self.tasksdb.query(query_statement, query_parameters)`

			`def _validate_referencias(self, html):`
			`"""`
			`Comprueba que las etiquetas sigan el formato de un anuncio.`
			`Lanza una advertencia si no es así.`
			`"""`
			`soup = BeautifulSoup(html, 'html5lib')`
			`ads = soup.find_all(class_ = "item")`
			`pattern = "^[0-9]{3,20}$"`

			`for ad in ads:`
			`if not re.match(pattern, ad["data-adid"]):`
Finalizado modulo de alertas. Testeado clase ExploringTask a fondo. 2018-09-09 19:22:21 +02:00			`alert_master("Alerta - Referencias no válidas",`
			`"""Una tarea de exploración ha considerado inválida`
			`una referencia. El texto de la referencia era : {}`
			`""".format(ad["data-adid"]))`
			`break`

Mas avances en el explorer 2018-08-14 20:02:40 +02:00			`def _extract_referencias(self, html):`
			`"""`
			`Saca referencias de HTML, descarta las que ya exiten en la base de datos`
			`de capturas, y guarda si han aparecido listings y si hay alguno nuevo`
			`"""`

Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`soup = BeautifulSoup(html, 'html5lib')`
			`ads = soup.find_all(class_ = "item")`
			`self.there_are_referencias = bool(ads)`
Mas avances en el explorer 2018-08-14 20:02:40 +02:00			`self.referencias = []`
			`for ad in ads:`
			`if self._is_new_listing(ad["data-adid"]):`
			`self.referencias.append(ad["data-adid"])`
Refactorizado Explorer para que el Explorer, y no el exploring_task, se encargue de postear las tareas de captura. Creado una funcion independiente de creacion de capturas para que sea compartida entre todos aquellos servicios que las creen. 2018-09-21 18:19:33 +02:00
Mas avances en el explorer 2018-08-14 20:02:40 +02:00			`def _is_new_listing(self, referencia):`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00			`"""`
			`Comprueba si el listing ya existe en la base de datos de anuncios`
			`"""`
Mas avances en el explorer 2018-08-14 20:02:40 +02:00			`query_statement = """SELECT count(referencia)`
			`FROM capturas`
			`WHERE referencia = %s"""`
			`query_params = (referencia,)`
			`cursor_result = self.anunciosdb.query(query_statement, query_params)`

			`result = cursor_result.fetchone()`
			`if result[0] > 0:`
			`return False`
			`else:`
			`return True`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00
Refactorizado Explorer para que el Explorer, y no el exploring_task, se encargue de postear las tareas de captura. Creado una funcion independiente de creacion de capturas para que sea compartida entre todos aquellos servicios que las creen. 2018-09-21 18:19:33 +02:00			`def get_referencias(self):`
			`"""`
			`Devuelve las referencias, si las hay`
			`"""`
			`if self.referencias:`
			`return self.referencias`
			`else:`
			`return None`
Finalizado modulo de alertas. Testeado clase ExploringTask a fondo. 2018-09-09 19:22:21 +02:00
Puesto mains en explorer y capturer. 2018-10-13 18:17:05 +02:00

			`if __name__ == 'main':`
			`explorer = Explorer()`
			`explorer.start()`
Correcciones en wrapper_mysql y avance en metodos de explorer. Iniciado modulo de alertas. 2018-08-30 19:38:31 +02:00