Detección de fraudes con hadoop
El volumen total de transacciones hace que sea más difícil de detectar el fraude debido al volumen de datos, irónicamente, este mismo reto puede ayudar a crear modelos predictivos mejor fraude - un área donde brilla Hadoop.
En el mundo interconectado de hoy, el volumen y la complejidad de las transacciones hace que sea más difícil que nunca encontrar el fraude. Lo que solía ser llamado " encontrar una aguja en un pajar " se ha convertido en la tarea de " encontrar una aguja específica en pilas de agujas ".
Los enfoques tradicionales de la prevención del fraude no son particularmente eficientes. Por ejemplo, la gestión de los pagos indebidos a menudo gestionado por analistas auditan lo que equivale a una muestra muy pequeña de las reclamaciones emparejado con solicitar la documentación médica de los remitentes específicos. El término de la industria para este modelo es de pago y persecución: Las reclamaciones son aceptados y pagados y los procesos buscan pagos en exceso, intencionales o no por vía de revisión post-pago de las reclamaciones.
Entonces, ¿cómo es la detección del fraude hecho ahora? Debido a las limitaciones de las tecnologías tradicionales, los modelos de fraude se construyen mediante el muestreo de los datos y el uso de la muestra de la construcción de un conjunto de modelos de fraude de predicción y -Detección. Al contrastar este modelo con un departamento anclado-Hadoop fraude que utiliza el conjunto de datos - sin toma de muestras - para construir los modelos, se puede ver la diferencia.
El tema recurrente más común que se ve en la mayoría de los casos de uso de Hadoop es que ayuda a los negocios a romper el techo de cristal en el volumen y la variedad de datos que se pueden incorporar en la analítica de decisión. Cuanto más datos que tiene (y el más historia que almacena), mejores serán sus modelos pueden ser.
Mezcla de formas no tradicionales de datos con el conjunto de las transacciones históricas puede hacer que sus modelos de fraude aún más robusta. Por ejemplo, si un trabajador hace reclamo de compensación al trabajador para una lesión en la espalda de un incidente de resbalón y caída, tener una piscina de millones de casos de resultado de los pacientes que el tratamiento detalle y duración de la recuperación ayuda a crear un patrón de detección de fraude.
Como un ejemplo de cómo puede funcionar este modelo, imagínese tratando de averiguar si los pacientes en las zonas rurales se recuperan más lentamente que los de las zonas urbanas. Puedes empezar por examinar la proximidad a los servicios de fisioterapia. ¿Existe una correlación entre el patrón de los tiempos de recuperación y ubicación geográfica?
Si su departamento de fraude determina que una determinada lesión lleva tres semanas de recuperación, pero que un agricultor con el mismo diagnóstico vive una hora de un fisioterapeuta y el empleado de oficina tiene un médico en su oficina, eso es otra variable para agregar al patrón de detección de fraude .
Cuando se cosecha social de datos de la red para los reclamantes y encontrar un paciente que dice estar sufriendo de latigazo cervical está haciendo alarde de completar la serie robusta de eventos de resistencia conocidos como Mudder duro, es un ejemplo de la mezcla de nuevos tipos de datos con formularios de datos tradicionales para detectar el fraude .
Si quieres patear los esfuerzos de detección de fraude a una velocidad mayor, su organización puede trabajar para alejarse de modelado segmento de mercado y avanzar hacia el modelaje a la transacción o al persona de nivel.
En pocas palabras, hacer un pronóstico sobre la base de un segmento es útil, pero tomar una decisión basada en la información particular acerca de una transacción individual es (obviamente) mejor. Para ello, se trabaja un conjunto mayor de datos que es convencionalmente posible en el enfoque tradicional. Sólo se utiliza (un máximo de) 30 por ciento de la información disponible que pueda ser útil para el modelado de fraude.
Para la creación de modelos de detección de fraude, Hadoop se adapta bien a
Maneje volumen: Eso significa que el procesamiento del conjunto de datos completo - sin muestreo de datos.
Manejo de nuevas variedades de los datos: Ejemplos de ello son la inclusión de la proximidad a la atención de servicios y círculos sociales para decorar el modelo de fraude.
Mantener un entorno ágil: Habilitar diferentes tipos de análisis y los cambios en los modelos existentes.
Modeladores de fraude pueden agregar y probar nuevas variables en el modelo sin tener que hacer una propuesta para su equipo administrador de la base y luego esperar un par de semanas para aprobar un cambio de esquema y colocarlo en su entorno.
Este proceso es fundamental para la detección del fraude porque entornos dinámicos suelen tener patrones de fraude cíclicas que aparecen y desaparecen en horas, días o semanas. Si los datos que se utilizan para identificar o impulsar nuevos modelos de detección de fraude no está disponible en cualquier momento, en el momento de descubrir estos nuevos patrones, podría ser demasiado tarde para evitar daños.
Evaluar el beneficio para su negocio, no sólo de la construcción a cabo modelos más integrales con más tipos de datos, sino también ser capaz de refrescar y mejorar los modelos más rápido que nunca. La empresa que puede refrescar y mejorar los modelos de diario le irá mejor que los que lo hacen trimestralmente.
Usted puede creer que este problema tiene una respuesta simple - sólo pregunte a su CIO para los gastos operativos (OPEX) y los gastos de capital (CAPEX) aprobaciones para dar cabida a más datos para tomar mejores modelos y cargar el otro 70 por ciento de los datos en sus modelos de decisión.
Usted puede incluso creer que esta inversión se pagará por sí mismo con un mejor Detection fraude sin embargo, el problema con este enfoque es los altos costos iniciales que deben ser hundido en desconocido de datos, donde no sabes si contiene alguna idea verdaderamente valioso.
Claro, triplicando el tamaño de su almacén de datos, por ejemplo, le dará más acceso a los datos históricos estructurados para afinar sus modelos, pero no pueden albergar estallidos de medios sociales. Las tecnologías tradicionales no son tan ágiles, tampoco. Hadoop hace que sea fácil de introducir nuevas variables en el modelo, y si resultan no ceder mejoras al modelo, puede simplemente descartar los datos y seguir adelante.