DISENO DE UNA METODOLOG~ IA PARA LA DETECCION DE P …
Transcript of DISENO DE UNA METODOLOG~ IA PARA LA DETECCION DE P …
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
DISENO DE UNA METODOLOGIA PARA LADETECCION DE PERDIDAS NO TECNICAS ENSISTEMAS DE DISTRIBUCION UTILIZANDO
METODOS DE MINERIA DE DATOS
Ruben Darıo Trejos Ramırez
13 de junio de 2014
Director: Dr. Carlos Julio Zapata GrisalesUniversidad Tecnologica de Pereira
Maestrıa en ingenierıa electrica
1 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Tabla de contenido
Problema de investigacion
Antecedentes
Metodologıa desarrollada
Resultados
Conclusiones
Preguntas
2 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Tabla de contenido
Problema de investigacion
Antecedentes
Metodologıa desarrollada
Resultados
Conclusiones
Preguntas
2 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Tabla de contenido
Problema de investigacion
Antecedentes
Metodologıa desarrollada
Resultados
Conclusiones
Preguntas
2 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Tabla de contenido
Problema de investigacion
Antecedentes
Metodologıa desarrollada
Resultados
Conclusiones
Preguntas
2 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Tabla de contenido
Problema de investigacion
Antecedentes
Metodologıa desarrollada
Resultados
Conclusiones
Preguntas
2 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Tabla de contenido
Problema de investigacion
Antecedentes
Metodologıa desarrollada
Resultados
Conclusiones
Preguntas
2 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Problema de investigacion
En el suministro de energıa electrica a los usuarios finales, las perdi-das totales se refieren a la cantidad de energıa inyectada a las redesde transmision y distribucion que no es pagada por los usuarios.
• Perdidas Tecnicas
• Perdidas No Tecnicas
Las perdidas totales en el sistema estan dadas por la diferencia entrela energıa entregada y la energıa vendida.
Eloss = Edelivered − Esold
3 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Las perdidas tecnicas ocurren de forma natural en el sistema, debidoa las propiedades fısicas de los componentes que conforman el mis-mo.
Las perdidas tecnicas incluyen:
• Perdidas resistivas en los alimentadores primarios y secundarios( i2 × r ), acometidas y medidores de energıa.
• Perdidas en la energıa registrada (Medidores).
La evaluacion de las perdidas tecnicas para cada segmento del sis-tema de distribucion permite la identificacion de las areas y equiposque mas contribuyen a ellas y la mejor forma de reducir su impactoen el sistema.
4 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Las perdidas no tecnicas son independientes a las perdidas tecnicas,ya que estas son causadas por acciones externas al sistema electrico.
Hay tres fuentes principales que contribuyen a este tipo de perdidas:
1. Alteracion de las bases de datos de los sistemas deinformacion.
• Almacenamiento ineficiente o fraudulento en los sistemas deinformacion (fraude informatico).
2. Averıas en los componentes.• Registros inadecuados o imprecisos por parte de los medidores
de energıa.• Fallas del medidor y equipos asociados.
3. Robo de energıa electrica• Manipulacion de los medidores de energıa.• Uniones ilegales en los bornes de conexion del medidor.• Incumplimiento en el pago de las cuentas de consumo
5 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Aunque algunos de los factores mostrados anteriormente son inevita-bles, se pueden tomar medidas para garantizar que sus consecuenciassean mınimas.
El robo de energıa electrica se realiza tanto en baja como en mediatension, siendo el nivel de baja tension donde se registran la mayorıade los casos de fraude. Imagenes 1
El problema de las perdidas no tecnicas es enfrentado no solo porla mayorıa de paıses en vıas de desarrollo en Africa, Asia o AmericaLatina, sino tambien por paıses desarrollados como Estados Unidosy el Reino Unido.
Paıses en vıa de desarrollo
Perdidas varıan desde un 20 hasta un 30 %
Paıses desarrollados
Perdidas no son superiores al 3.5 % =⇒ USDM 1.000-10.000
Imagenes 2
6 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Antecedentes
A traves de los anos se han propuesto y desarrollado varios metodospara superar y minimizar los problemas inherentes de las perdidas notecnicas en los sistemas de potencia. Los dos metodos mas comunesactualmente en uso son:
1. Instalacion de medidores electronicos (medicion inteligente).
2. Aplicacion de modelos de estimacion.
El primer metodo indica que la instalacion de medidores electronicoses beneficiosa, a pesar de su alto costo y las extensiones o mejorasnecesarias que deben realizarse a la infraestructura actual del siste-ma.
El segundo metodo aplica un metodo estadıstico para minimizarlas perdidas de energıa electrica, particularmente las perdidas notecnicas, en las redes de distribucion.
7 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
En anos recientes, el desarrollo de nuevas tecnologias ha proporcio-nado nuevas maneras para la realizacion de actividades relacionadasal fraude
En [Hodge and Austin, 2004] se presentan tres aproximaciones alproblema de deteccion de datos atıpicos (No supervisado, Semi-supervisado y Supervisado).
• Metodos basados en estadıstica.
• Metodos basados en distancia.
• Metodos basados en densidad
• Metodos basados en agrupamiento.
• Metodos basados en desviacion.
8 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
En el caso concreto de la deteccion de perdidas no tecnicas, losestudios realizados toman como variable principal el perfil de carga.
El perfil de carga se define como el patron de demanda en el consumode electricidad para uno o varios clientes en un periodo de tiempo[S.V., 1996].
Perfil de carga
9 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
El objetivo principal de los estudios con los perfiles de carga esextraer y registrar informacion relacionada con las caracterısticas deusuario y encontrar patrones que permitan observar tendencias sobrelos consumos particulares de un usuario o un grupo de ellos.
Objetivo general
Proponer una metodologıa que permita la identificacion y deteccionde usuarios con actividades de fraude o anomalıas en sus equipos demedicion de energıa electrica, teniendo en cuenta atributos propiosde los perfiles de carga.
http://techathon.mytechlabs.com/wp-content/uploads/
2013/02/knowledge-discovery-process-data-mining.png
10 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Metodologıa desarrollada
El esquema general de la metodologıa planteada, la cual se componede 4 etapas.
Validación de resultados
Pre-procesamiento de la información
Procesamiento de la información
Adquisición e integración de la
información
Esquema metodologico general
La metodologıa que se plantea a continuacion parte del hecho quese desconoce que no se conocen que tipos de usuarios tienen uncomportamiento Normal y Sospechoso.
11 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Adquisicion e integracion de la informacion
La adquisicion de la informacion desde las bases de datos, se realizaa partir de consultas con lenguaje estructurado (SQL), la cualespermite filtrar y extraer la informacion relacionada con los consumoselectricos para los diferentes perıodos de tiempo.
Grupo 1 Grupo
Consumos eléctricos Periodo
Base de datos Clientes
Consumos eléctricos Periodo 1
Consumos eléctricos Periodo 2
Consumos eléctricos
Consolidados
Grupo 1
Proceso para la adquisicion e integracion de la informacion
12 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Pre-procesamiento de la informacion
Esta etapa es fundamental ya que permite identificar registros in-consistentes e incoherentes que podrıan generar resultados erroneosen la parte de asignacion de etiquetas y clasificacion de los datos.
Reemplazar datos ausentes
Descartar datos (Consumos=0)
Grupo Descripción inicial de los
datos
Limpieza de datos
Datos depurados Grupo
Análisis estadístico
Remover datos atípicos
Proceso de pre-procesamiento de la informacion
13 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Procesamiento de la informacionLa etapa de procesamiento de divide en dos sub-procesos secuencia-les que cubren los siguientes dos aspectos:
Datos depurados Grupo
Aprendizaje No
Supervisado
Aprendizaje Supervisado
Asignación de etiquetas a los datos
Clasificación de los datos según las etiquetas generadas
Resultados
Fase de procesamiento de la informacion
14 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
• Aprendizaje No Supervisado: Se asigna a cada usuario una eti-queta, la cual depende del comportamiento de los registro deconsumo electrico segun el periodo de analisis. Los datos conetiquetados con el numero 0, representan aquellos consumossospechosos mientras que los etiquetados con el numero 1, re-presentan los consumos electricos normales.
= −
C, P Datos depurados
Valor optimo del grupo �
Algoritmo de agrupamiento
Índice de validación
Determinacion del numero de grupos segun el analisis de validacion
15 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
• Aprendizaje Supervisado: Se clasifica en forma correcta nuevosdatos de entrada, en base a los datos de entrenamiento y lasetiquetas predefinidas en el sub-proceso anterior.
= ( , ) Etapa 1 Entrenamiento Resultados
Grupos generados
Grupo usuarios Normales
Grupo usuarios Sospechosos
Grupo usuarios Prueba
Algoritmo de clasificación
Etapa 2 Prueba
: Etiquetas de los datos
: Datos de entrenamient o
Etapas de entrenamiento y clasificacion de los datos
16 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
El numero de algoritmos que se pueden utilizar en esta etapa varıasegun el juicio del analista, para el caso de la metodologıa que sepresenta se utilizan 4 algoritmos de clasificacion, los cuales en ordende aplicacion son:
• Maquina de Soporte Vectorial.
• Clasificador Bayes Naive.
• AdaBoost.
• Bagging. Conjunto
17 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Validacion de resultadosLa ultima etapa de la metodologıa consiste en validar los resultadosque entrega cada uno de los clasificadores.
Lista de posibles sospechosos
Verificación y comprobación de
resultados
Resultados Máquina de Soporte
Vectorial
Resultados Clasificador Bayes
Naive.
Resultados AdaBoost.
Resultados Bagging.
Validacion de los resultados obtenidos
18 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Resultados
Informacion base de datos
Archivo Caracterısticas Numero de registros
Grupo 1Usuarios residencialesEstrato socio-economico 6Grupo de calidad 1
326
Grupo 2Usuarios residencialesEstrato socio-economico 5Grupo de calidad 1
321
Grupo 2Usuarios residencialesEstrato socio-economico 4Grupo de calidad 1
1640
Archivos generados a partir de la base de datos
19 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Analisis inicial de los datos
• Periodo de analisis [meses]: 24.0
• Numero de registros iniciales: 326.0
• Numero de datos originales: 7824.0
• Valor Medio de los datos: 153.1
• Valor mınimo de los datos: 0.0
• Valor maximo de los datos: 3346.0
• Desviacion Estandar: 179.5
• Rango de los datos: 3346.0
20 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
2 4 6 8 10 12 14 16 18 20 22 240
500
1000
1500
2000
2500
3000
Período [Meses]
Con
sum
os [k
Wh]
Registros Originales
Analisis inicial de los datos
21 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
0
500
1000
1500
2000
2500
3000
3500
1
Comportamiento de los registros Originales
Con
sum
os [k
Wh]
Atípicos
0 500 1000 1500 2000 2500 3000 35000
1000
2000
3000
4000
5000
6000
7000
8000Registros Originales
Datos atípicos
a) b)
Analisis estadıstico de los registros originales a) Diagrama de caja yb)Histograma
22 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Pre-procesamiento de los datos
0 500 1000 1500 2000 2500 3000 35000
1000
2000
3000
4000
5000
6000
7000
8000Registros Filtro 1
0 50 100 150 200 250 300 350 4000
500
1000
1500Registros Filtro 2
a) b)
Histogramas a) Registros despues de aplicar el filtro 1 y b)Registrosdespues de aplicar el filtro 2
23 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Datos Numero de registrosPorcentaje de registros
segun los datos originalesConsumos originales 326 100 %
Consumos despues del filtro 1 322 98.7 %Consumos despues del filtro 2 284 87.11 %
Cantidad de registros durante la etapa de pre-procesamiento
Analisis final de los datos
• Numero de registros finales: 284.0
• Numero de datos finales: 6816.0
• Valor Medio de los datos: 123.4
• Valor mınimo de los datos: 0.0
• Valor maximo de los datos: 390.0
• Desviacion Estandar: 78.8
• Rango de los datos: 390.0
24 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
2 4 6 8 10 12 14 16 18 20 22 240
50
100
150
200
250
300
350
Período [Meses]
Con
sum
os [k
Wh]
Registros Depurados
Analisis final de los datos
25 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Asignacion de las etiquetas (Aprendizaje no supervisado)
0 0.2 0.4 0.6 0.8 1
1
2
3
4
5
6
Silhouette Value
Clu
ster
1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8Indice Silueta
Numero de grupos
Val
or d
el in
dice
Valor promedio de S
a) b)
Indice de validacion de Rousseeuw
De lo anterior, se observa que el maximo valor promedio (0.7) se dapara k=2, lo cual indica que se ha encontrado una estructura fuertede agrupamiento para dicho valor.
26 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Los centros de los grupos formados son:
• Centro 1: 210.2
• Centro 2: 76.2
• Grupo de usuarios Normales: Aquellos registrosrelacionados al centro 1 (105 registros).La etiqueta para estosregistros es 1.
• Grupos de usuarios Sospechosos: Aquellos registrosrelacionados al centro 2 (84 Registros). La etiqueta para estosregistros es 0.
El grupo de usuarios de Prueba se formo con 39 registros, pertene-cientes a los consumos depurados en la etapa de pre-procesamiento.
27 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
0 5 10 15 20 25100
150
200
250
300
350
Período [Meses]
Con
sum
os [k
Wh]
Registro Normal
0 5 10 15 20 250
20
40
60
80
100
120
Período [Meses]
Con
sum
os [k
Wh]
Registro Sospechoso
Registros Normales y Sospechosos
28 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Algoritmos de clasificacion (Aprendizaje Supervisado)
Maquina de Soporte Vectorial
• Funcion Kernel: RBF (Radial Basis Function=Funcion deBase Radial).
• Valor sigma (σ): 5.
Clasificador Bayes Naive
• Funcion de Distribucion: Normal.• Probabilidades a Priori:
1. Grupo de Sospechosos = 0.4442. Grupo de Normales = 0.555
Algoritmo Adaboost
• Algoritmo base: Clasificador por umbral.
• Numero de rondas de aprendizaje: 10.
Algoritmo Bagging
• Algoritmo base: Arbol de decision.
• Numero de modelos base: 10.29 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Resultados finales
• Registros que fueron clasificados como consumos Normales:18
• Registros que fueron clasificados como consumos Sospechosos:21
0 5 10 15 20 2570
80
90
100
110
120
130
140
150
Período [Meses]
Con
sum
os [k
Wh]
Usuarios NormalesUsuarios Sospechosos
Consumos promedio de usuarios Normales y Sospechosos de los datos deprueba
30 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
La lista final de sospechosos esta dada por la integracion de lossiguientes datos:
• Datos residuales filtro 1=4 registros
• Datos residuales filtro 2=38 registros
• Usuarios Sospechoso=21 registros
Lo cual genera una lista final de 63 registros consolidados.
Finalmente la eficacia individual cono global de los resultados sedetermina comparando la lista final de sospechosos con aquellosregistros reportados como sospechosos por parte de la empresa dedistribucion
• Registros sospechosos-metodologıa: 63
• Registros sospechosos-empresa de distribucion: 15
• Registros coincidentes: 10.
31 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
0 5 10 15 20 250
500
1000
1500
2000
2500
3000
3500
Período [Meses]
Con
sum
os [k
Wh]
Consumos sospechosos, segun la empresa de distribucion
32 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Algoritmo % de eficacia individualMaquina de
Soporte Vectorial16
ClasicadorBayes Naive
15
AlgoritmoAdaboost
18
AlgoritmoBagging
15
% de eficacia global 16
Eficacia de la metodologıa propuesta
Aunque el porcentaje de eficacia presentan un valor bajo, este erade esperarse ya que el sistema de la empresa de distribucion, de lacual se tomo la base de datos ya ha sido intervenido y se realiza unconstante control y monitoreo a los usuarios.
33 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Conclusiones
• La metodologıa propuesta en este trabajo muestra una perspec-tiva diferente a las presentadas en trabajo similares que abordanel problema de deteccion de perdidas no tecnicas en sistemasde distribucion, ya que el esquema metodologico desarrolladoabarca los siguientes aspectos:
• Los resultados obtenidos muestran que los algoritmos Adaboosty Bagging presentan un desempeno mejor a los algoritmos basa-dos maquinas de soporte vectorial y clasificadores Bayes naive,esto se debe a la estructura propia de los primeros que buscanla combinacion del mismo algoritmo varias veces con el fin deminimizar el error en la clasificacion.
34 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
• Aunque los porcentajes de eficacia individual y global son bajos,estos son mejores a los porcentajes de eficacia reportados enla literatura cuando se realizan inspecciones en sitios, dondedichos valores no sobrepasan el 5 %.
• Como trabajo futuro se plantea la idea de integrar los registrosde consumos electricos con otros tipos de registros como elconsumo de agua o de gas, ya que existen relaciones entreestos tres servicios. La idea principal consiste en determinarlas variaciones presentes en los registros historicos con el fin dediagnosticar comportamientos sospechosos en cualquiera de lostres tipos de consumo
35 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Preguntas
36 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Bibliografıa
Hodge, V. and Austin, J. (2004).A survey of outlier detection methodologies.Artificial Intelligence Review, 22(2):85–126.
S.V., Allera, A. H. (1996).Load profiling for the energy trading and settlements in the ukelectricity markets.In DA/DSM Europe DistribuTECH Conference.
37 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Conjuntos de Metodos
38 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Estructura del algoritmoBagging
Estructura del algoritmoAdaboost
39 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Reduccion del error entre clasificadores
Regreso
40 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
ImagenesConexiones ilegales
Regreso
41 / 42
Problema de investigacion Antecedentes Metodologıa desarrollada Resultados Conclusiones Preguntas Conjuntos de Metodos Imagenes
Comparacion redes electricas
Regreso
42 / 42