( PDF ) Descoberta de conhecimento em texto aplicada a um sistema de atendimento aos usuários de um plano de assistência à saúde

Download PDF

ads:

DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA

DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À

SAÚDE

Aline Regina de Oliveira Miranda

Dissertação de Mestrado apresentada ao Programa

de Pós-graduação em Engenharia Civil, COPPE,

da Universidade Federal do Rio de Janeiro, como

parte dos requisitos necessários à obtenção do

título de Mestre em Engenharia Civil.

Orientador: Nelson Francisco Favilla Ebecken

Rio de Janeiro

Setembro de 2009

ads:

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA

DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À

SAÚDE

Aline Regina de Oliveira Miranda

DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO

LUIZ COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA

(COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE

DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE

EM CIÊNCIAS EM ENGENHARIA CIVIL.

Aprovada por:

Prof. Nelson Francisco Favilla Ebecken, D. Sc.

Prof

. Valéria Menezes Bastos, D. Sc.

Prof

. Beatriz de Souza Leite Pires de Lima, D. Sc.

RIO DE JANEIRO, RJ – BRASIL

SETEMBRO DE 2009

ads:

iii

Miranda, Aline Regina de Oliveira

Descoberta de Conhecimento em Texto Aplicada a um

Sistema de Atendimento aos Usuários de um Plano de

Assistência à Saúde / Aline Regina de Oliveira Miranda. – Rio

de Janeiro: UFRJ/ COPPE, 2009.

XI, 82 p.: il; 29,7 cm.

Orientador: Nelson Francisco Favilla Ebecken

Dissertação (mestrado) – UFRJ/ COPPE/ Programa de

Engenharia Civil, 2009.

Referências Bibliográficas: p. 79-82.

1. Mineração de Textos. 2. Descoberta de Conhecimento

em Textos. I. Ebecken, Nelson Francisco Favilla. II.

Universidade Federal do Rio de Janeiro, COPPE, Programa de

Engenharia Civil. III. Titulo.

AGRADECIMENTOS

Gostaria de fazer um agradecimento a todos àqueles que de alguma forma

contribuíram para esta realização.

À Luis Carlos, meu marido, e ao meu filho Lucas que sempre estiveram comigo

me apoiando em todos os momentos, obrigada pelo incentivo e carinho.

Meus agradecimentos à gerência do plano de saúde da Petrobras que permitiu

que eu utilizasse suas bases de dados para tal objetivo.

A realização deste trabalho só foi possível graças à colaboração direta e indireta

de várias pessoas, nossa gratidão a todas elas.

Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos

necessários para a obtenção do grau de Mestre em Ciências (M.Sc.)

DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA

DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À

SAÚDE

Aline Regina de Oliveira Miranda

Setembro / 2009

Orientador: Nelson Francisco Favilla Ebecken

Programa: Engenharia Civil

A dissertação tem como objetivo explorar a Mineração de Textos através de um

estudo amplo e completo com o intuito de se extrair padrões úteis e desconhecidos em

uma base de dados do Serviço de atendimento aos usuários de um plano de saúde de

uma grande empresa. Os conhecimentos obtidos foram analisados e validados junto aos

especialistas do domínio.

A interessabilidade e a acionabilidade dos conhecimentos obtidos permitiram

ações que são relevantes para o aperfeiçoamento da operação do sistema. Alguns

comentários são apresentados para ilustrar o interesse da pesquisa.

Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the

requirements for the degree of Master of Science (M.Sc.)

DISCOVERY OF KNOWLEDGE IN TEXT SYSTEM APPLIED TO A USER

ATTENDING SYSTEM OF HEALTH ASSISTANCE PLAN

Aline Regina de Oliveira Miranda

September / 2009

Advisor: Nelson Francisco Favilla Ebecken

Department: Civil Engineering

The following essay is intended to explore the Text Mining through an extensive

and comprehensive study in order to extract useful and unknown patterns from a

database of the customer service users of the health care plan of large company. The

knowledge obtained was analyzed and validated with experts in the field.

The interestingness and actionability of the knowledge obtained allowed actions

that are relevant to the improvement of the business. Some comments are presented to

illustrate the interest of research.

vii

SUMÁRIO

LISTA DE FIGURAS.................................................................................................... ix

LISTA DE TABELAS.................................................................................................... x

LISTA DE SIGLAS E ABREVIATURAS .................................................................. xi

1. Introdução............................................................................................................... 1

1.1. Objetivo............................................................................................................ 2

1.2. Relevância ........................................................................................................ 3

1.3. Estado da Arte .................................................................................................. 3

1.3.1. Descoberta de conhecimento em Bases de Dados.................................... 4

1.3.2. Processamento de Linguagem Natural - PLN .......................................... 7

1.3.3. Descoberta de Conhecimento em Textos ................................................. 9

1.4. Organização da dissertação ............................................................................ 11

2. Metodologia........................................................................................................... 13

2.1 O processo de Mineração de Textos............................................................... 13

2.1.1 Tipos de Abordagens de Dados.......................................................... 14

2.1.2 Coleta de Dados.................................................................................. 19

2.1.3 Pré-processamento.............................................................................. 21

2.1.3.1 Identificação de Palavras no Texto..................................................... 24

2.1.3.2 Tokenização........................................................................................ 27

2.1.3.3 Retirada de palavras desnecessárias (stopwords)............................... 28

2.1.3.4 Normalização Morfológica (Stemming)............................................. 29

2.1.3.5 Dicionários de dados (Thesaurus) ...................................................... 33

2.1.3.6 Indexação............................................................................................ 35

2.1.4 Mineração........................................................................................... 37

2.1.5 Análise................................................................................................ 38

3. Estudo de Casos.................................................................................................... 41

3.1 Descrição do problema................................................................................... 41

3.2 Obtenção do arquivo de dados........................................................................ 44

3.3 Pré-processamento dos dados......................................................................... 48

3.4 Mineração....................................................................................................... 54

viii

3.4.1 O programa SAS..................................................................................... 54

3.4.2 Lematização............................................................................................ 56

3.4.3 Exploração dos Termos.......................................................................... 58

4. Resultados ............................................................................................................. 61

4.1 Estatísticas básicas da base de dados das manifestações................................ 61

4.2 Análise dos agrupamentos.............................................................................. 65

5. Conclusão .............................................................................................................. 76

REFERÊNCIAS BIBLIOGRÁFICAS ....................................................................... 79

LISTA DE FIGURAS

Figura 2-1 - Metodologia de Mineração de Textos com o "encadeamento" de técnicas

proposta por ARANHA.................................................................................................. 18

Figura 2-2 - Algumas atividades realizadas no pré-processamento de textos................ 22

Figura 2-3 - Identificação de palavras válidas................................................................ 26

Figura 2-4 – Stemming para Português........................................................................... 31

Figura 2-5 - Sequência do processo de indexação automática....................................... 36

Figura 3-1 – Tela principal do Fale Conosco................................................................. 42

Figura 3-2 – Tela para registro da manifestação do Fale Conosco ................................ 43

Figura 3-3 – Exemplo de ruído na base de dados........................................................... 48

Figura 3-4 - Exemplos de texto original com caracteres inválidos ................................ 50

Figura 3-5 - Exemplos de texto após etapa de pré-processamento................................. 54

Figura 3-6 – Tela interativa do Text Miner.................................................................... 56

Figura 3-7 – Histograma de atributos por frequência..................................................... 58

Figura 3-8 - Agrupamento de Documentos.................................................................... 59

Figura 4-1 – Histograma com a distribuição Mensal das Ocorrências........................... 63

Figura 4-2 – Percentual de manifestações por tipo......................................................... 63

Figura 4-3 – Percentual de manifestações por origem ................................................... 64

Figura 4-4 – Percentual de manifestações por gerência................................................. 64

Figura 4-5 – Distribuição dos agrupamentos.................................................................. 65

Figura 4-6 – Distribuição do Peso por frequência.......................................................... 66

Figura 4-7 – Distribuição da quantidade de documentos por frequência....................... 67

Figura 4-8 – Histograma de Número de Documentos por frequência............................ 67

Figura 4-9 – Links do Termo Credenciado .................................................................... 69

Figura 4-10 – Links do termo Descontar........................................................................ 69

LISTA DE TABELAS

Tabela 2-1 - Representação atributo-valor obtida à partir da etapa de Pré-processamento

........................................................................................................................................ 24

Tabela 2-2 - Identificação e Remoção de Stopwords (os tokens descartados estão

tachados)......................................................................................................................... 28

Tabela 3-1 – Exemplos da Base de Dados ..................................................................... 47

Tabela 3-2 – Exemplos de duplicação de Registro......................................................... 49

Tabela 3-3 – Stoplist utilizado no estudo de caso........................................................... 52

Tabela 3-4 – Estatísticas dos Termos Lematizados........................................................ 56

Tabela 3-5 – Termo com maior quantidade de variantes ............................................... 57

Tabela 3-6 – Variantes de Termos.................................................................................. 57

Tabela 3-7 – Exemplos de agrupamentos para depuração da base................................. 60

Tabela 4-1 – Distribuição Mensal das Ocorrências........................................................ 62

Tabela 4-2 – Distribuição das Manifestações por Gerência........................................... 64

Tabela 4-3 – Resumo de execução................................................................................. 68

Tabela 4-4 – Exemplos dos termos com os índices........................................................ 68

Tabela 4-5 – Agrupamentos ........................................................................................... 70

Tabela 4-6 – Manifestações relacionadas ao grupo 1..................................................... 71

Tabela 4-7 – Manifestações relacionadas ao grupo 2..................................................... 72

LISTA DE SIGLAS E ABREVIATURAS

AMS Assistência Multidisciplinar de Saúde;

DCD Descoberta de Conhecimento em Dados;

DCT Descoberta de Conhecimento em Textos;

DW Data Warehouse;

GED Gerenciamento Eletrônico de documentos;

KDD Knowledge Discovery in Databases (Descoberta de Conhecimentos em

Base de Dados);

KDT Knowledge Discovery in Text (Descoberta de Conhecimentos em

Textos);

HTML HyperText Markup Language (Linguagem de Marcação de Hipertexto);

OLAP On-line Analytical Processing;

PDF Portable Document Format;

PLN Processamento de Linguagem Natural;

SAS Statistical Analsys System;

SRI Sistema de Recuperação de Informações;

SVD Decomposição de Valor Singular;

TXT Arquivo de Texto.

1. Introdução

Com o desenvolvimento das tecnologias de informação, tem existido um

aumento das bases de dados em número, complexidade e rapidez de crescimento, o que

leva à necessidade de recurso a análises automáticas de grandes quantidades de

informação heterogênea estruturada (PETROVSKIY, 2003). Neste contexto surge a

utilização de Data Mining, ou seja, a extração de conhecimento de dados, que tem como

objetivo a descoberta de dependências escondidas nos dados (HAN e KAMBER, 2001).

A mineração de dados ou Data Mining é definida, ultimamente, como um

processo de descoberta de padrões em quantidades substanciais de dados, de forma

automática ou, na maioria das vezes, semi-automática, para a extração de informação

previamente desconhecida, válida que gera ações úteis, e onde que os padrões

descobertos são significativamente vantajosos para a tomada de decisões estratégicas

(CABENA et al., 1998). Essas características tem atraído uma boa parte das atenções da

indústria da informação, pois a mineração dos dados é apresentada como um resultado

da evolução natural da tecnologia da informação (HAN e KAMBER, 2001).

Atualmente, os recursos computacionais promovem o acesso à informação de

maneira rápida e eficiente, desde que esteja organizada em bancos de dados apropriados

à manipulação por computadores. Grande parte da informação eletrônica encontra-se

disponível em bases de dados frequentemente chamadas de não-estruturadas, ou seja,

bases de documentos textuais, cujo formato está adequado ao homem que, através da

leitura, é capaz de decodificar a informação contida no texto e apreendê-la.

Por outro lado, a quantidade desses documentos produzidos não é passível de ser

absorvida pelo homem por esse processo e, dessa maneira, a máquina desempenha um

papel fundamental na gestão da informação. Para tal, é necessário o processamento

prévio do texto com a finalidade de decodificá-lo e ajustá-lo às estruturas reconhecidas

pelos computadores.

Este trabalho aplica técnicas de mineração de texto em uma base de dados de

Serviço de Atendimento a usuários e prestadores de serviços do plano de assistência à

saúde da Petrobras. Ele visa demonstrar a utilidade da Descoberta de Conhecimento em

Textos que consistirá na criação de agrupamentos de textos a partir da coleção de

documentos existentes.

1.1. Objetivo

O objetivo principal deste trabalho é identificar e avaliar os agrupamentos

extraídos através de um estudo de caso real, o atendimento aos usuários do plano de

assistência à saúde da Petrobras, a partir da aplicação da metodologia de Descoberta de

Conhecimento em Textos, visando subsidiar políticas e estratégias de atendimento.

O estudo de caso extrairá conhecimento da base de dados de atendimento aos

usuários do plano de assistência à saúde da Petrobras com a aplicação de técnicas de

descoberta de conhecimento em textos, e identificará características das manifestações,

e estabelecerá correspondência entre variáveis e definirá sua natureza. Visa ainda

descrever o processo da organização, atendimento ao cliente, utilizando métodos que

caracterizam a abordagem quantitativa.

Tal estudo se faz necessário em função do potencial recurso de conhecimento

explícito, a ser explorado, através das manifestações por escrito dos clientes que podem

ser transformadas em fonte preciosa de informação estratégica.

1.2. Relevância

O uso da tecnologia de informação vem, há alguns anos, sofrendo diversas

mudanças, principalmente, no que se refere ao acesso, manipulação da informação e

análise de dados. À medida que os recursos computacionais tornam-se mais confiáveis,

o crescimento contínuo do volume de dados e a velocidade com que os dados são

disseminados contribuem para que a sua administração não seja trivial, além disto,

sendo pouco percebidos por humanos. Isto é, a quantidade de documentos produzidos

não é passível de ser absorvida pelo homem, e dessa maneira, a máquina desempenhará

um papel na gestão da informação.

As implicações destas mudanças para o mundo dos negócios são enormes.

Entretanto, é necessário o processamento prévio do texto com a finalidade de

decodificá-lo e ajustá-lo às estruturas reconhecidas pelos computadores.

A Descoberta de Conhecimento em Texto propõe soluções para tratar a

informação eletrônica textual com o auxílio de máquinas, visando diminuir o impacto

da sobrecarga de informação. É de interesse das organizações aplicarem algumas

técnicas de extração de conhecimento na tentativa de se encontrar conhecimento nesta

nova realidade.

Portanto, a importância deste trabalho está baseada na análise eficiente e a

aplicação de técnicas de text mining na busca de conhecimento escondido sejam eles

relevantes e/ou inesperados.

1.3. Estado da Arte

A mineração de Textos, também conhecida como Descoberta de

Conhecimento em Textos, (Knowledge Discovery in Texts – KDT) refere-se ao

processo de descoberta de conhecimento interessante, com a utilização de métodos e

técnicas que permitem analisar grandes conjuntos de dados para a extração de

informação previamente desconhecida, válida e que gera ações úteis, de grande ajuda

para a tomada de decisões estratégicas.

A mineração de textos surgiu a partir da necessidade de se descobrir, de forma

automática, padrões e anomalias em textos. As principais contribuições desta área estão

relacionadas à busca de informações específicas em documentos, para recuperar

informações, extrair dados, resumir documentos, descobrir padrões, associações e regras

e realizar a análise qualitativa e quantitativa de grandes volumes de textos, e a melhor

compreensão de textos disponíveis em documentos.

1.3.1. Descoberta de conhecimento em Bases de Dados

Com o advento da digitalização de documentos e o desenvolvimento das redes,

o volume de informação aumenta além da capacidade humana de apreensão e, dessa

forma, existe um lapso crescente entre a criação de dados e a compreensão deles

(FRAWLEY et al., 1992).

De acordo com WIVES (2002), descobrir conhecimento significa identificar,

receber informações relevantes, e poder processá-las e agregá-las ao conhecimento

prévio de seu usuário, mudando o estado de seu conhecimento atual, a fim de que

determinada situação ou problema possa ser resolvido. Neste sentido, observa-se que o

processo de descoberta de conhecimento está fortemente relacionado à forma pela qual

a informação é processada.

A área de Mineração de Dados, Data Mining, surgiu no final da década de

oitenta, e focaliza a extração de conhecimento a partir de grandes volumes de dados

usando o computador. Devido à sua natureza interdisciplinar, a pesquisa e

desenvolvimento da área de Mineração de Dados têm estreitas relações com as

contribuições oferecidas por diversas áreas como Banco de Dados, Aprendizado de

Máquina, Estatística, Recuperação de Informação, Computação Paralela e Distribuída.

Os princípios associados à Descoberta de Conhecimentos em Base de Dados

(KDD) conjugam fundamentos provenientes de diversas áreas, tais como a estatística, a

inteligência artificial, a aprendizagem automática, as bases de dados, os sistemas de

informação, entre outras. As aplicações disponíveis têm como objetivo a extração de

conhecimento partir de grandes bases de dados (FAYYAD et al., 1996).

O processo básico do KDD é traduzir a informação do seu nível mais

elementar, o dado, geralmente armazenado em grandes volumes, em formas mais

compactas, mais resumidas e mais úteis. Os métodos tradicionais de transformação de

dados em informação situam-se na análise manual e na interpretação, porém, em

contraste com a farta disponibilidade de base de dados, tornam-se lentos, caros e

altamente subjetivos. Assim, o KDD é uma tentativa de lidar com um problema que, na

era da informação digital, tornou-se real para todos nós: a sobrecarga de informação.

FRAWLEY et al. (1992) afirma que a Descoberta de Conhecimento é a

extração não-trivial da informação implícita, nos dados, previamente desconhecida e

potencialmente útil. FAYYAD et al. (1997) complementa que o KDD é o processo de

descoberta não-trivial de identificar, em dados, padrões válidos, novos, potencialmente

úteis e, principalmente, compreensíveis em meio às observações presentes em uma base

de dados. Dessas afirmações, entende-se que dado é um conjunto de fatos e padrão é a

estrutura implícita que será encontrada. O termo processo envolve a preparação dos

dados, a busca por padrões, a avaliação do conhecimento descoberto e os refinamentos

necessários em repetidas iterações. Pelo termo não-trivial depreende-se que a busca ou

inferência não seja uma operação direta de quantidades pré-definidas, como por

exemplo, o cálculo de uma média. Além disso, que os padrões descobertos sejam

válidos em novos dados com algum grau de confiabilidade. Deseja-se, ainda, que a

descoberta seja uma novidade que agregue alguma utilidade e benefício ao usuário e,

por último, que seja compreensível, mesmo que necessite de pós-processamento

(FAYYAD et al., 1997).

Segundo BERRY e LINOFF (1997), o KDD é a análise e exploração

automáticas ou semi-automáticas de grandes quantidades de dados com o objetivo de

descobrir regras e padrões significativos.

Para HAND et al. (2001), o KDD é a análise de bases de dados,

frequentemente grandes, com o objetivo de achar relações insuspeitas e resumir os

dados em novas maneiras que sejam compreensíveis e úteis ao usuário.

Portanto, o objetivo do KDD é encontrar padrões interessantes ocultos em

grandes quantidades de dados e fornecer informações como insumo para aquisição do

conhecimento. Além disso, oferece fundamentalmente novas capacidades, isto é, a

habilidade para otimizar a tomada de decisão utilizando métodos automáticos para

compreender com ações passadas (BERRY, LINOFF, 1997).

O KDD vem sendo utilizada há mais de uma década e estabeleceu-se como

solução que auxilia as organizações e pesquisadores em geral na transformação de

dados em informação da qual se adquire o conhecimento. Os dados são armazenados em

estruturas de banco de dados bem definidas, ou seja, os dados encontram-se em

formatos apropriados para serem explorados por softwares especialistas.

Podemos concluir que o principal objetivo do KDD está relacionado à

descoberta de co-relacionamentos e dados implícitos em registros de bancos de dados,

através do estudo e desenvolvimento de processos de extração de conhecimento, isto é,

encontrar conhecimento a partir de um conjunto de dados para ser utilizado em algum

processo decisório.

Desta forma, é importante que o resultado do processo de KDD seja

compreensível a humanos, além de útil e interessante para usuários finais do processo,

que geralmente são tomadores de decisão. Os processos de KDD devem ser vistos como

práticas para melhorar os resultados das explorações feitas utilizando ferramentas

tradicionais de exploração de dados, como os Sistemas de Gerenciamento de Bancos de

Dados (SGBD) (SILBERCHATZ et al., 2006).

O desenvolvimento do KDD está intrinsecamente relacionado à evolução da

tecnologia. O KDD vem sendo consolidado como um poderoso ferramental para

auxiliar o homem na exploração da grande quantidade de informação disponível em

formato eletrônico, dadas as limitações humanas no manuseio e interpretação dessa

informação.

1.3.2. Processamento de Linguagem Natural - PLN

O processamento de linguagem natural (PLN) é uma técnica chave para

mineração de textos. Utilizando conhecimentos da área de lingüística, o PLN permite

aproveitar ao máximo o conteúdo do texto, extraindo entidades, seus relacionamentos,

detectando sinônimos, corrigindo palavras escritas de forma errada e ainda não ter

ambiguidade. Participam normalmente na parte do pré-processamento dos dados,

transformando-os em números.

De acordo com MANNING e SCHUTZE (1999), o estudo da Linguística vem

contribuir para resolver alguns problemas, pois busca caracterizar e explicar a

diversidade de observações lingüísticas que nos cerca, seja em diálogos, seja na escrita,

seja em qualquer outro meio. Uma parte preocupa-se com o lado cognitivo de como o

homem adquire, produz e entende a linguagem, outra parte, a compreensão da relação

entre discurso linguístico e o mundo e, a terceira, com a compreensão de estruturas

linguísticas pelas quais o homem se comunica.

Paralelamente, o desenvolvimento da informática tem possibilitado grandes

avanços no estudo das línguas naturais. A área que examina as relações entre a

Linguística e a Informática é a Linguística Computacional que objetiva a construção de

sistemas especialistas em reconhecer e produzir informação em linguagem natural.

Encontram-se neste contexto os estudos de PLN que tem por objetivo a interpretação e

geração de informação nos diferentes aspectos da língua: sons, palavras, sentenças e

discurso nos níveis estruturais, de significado e de uso.

O PLN já existe há décadas e, nesse ínterim, desenvolveram-se várias técnicas

tipicamente linguística, isto é, as sentenças do texto são separadas em partes gramaticais

(sujeito, verbo, etc) utilizando uma gramática formal ou um léxico, então a informação

resultante é interpretada semanticamente e usada para extrair informação sobre o que foi

escrito (KAO, POTEET, 2005).

Não se propõe aqui uma discussão detalhada do PLN, seus métodos e suas

técnicas e, sim a contextualização da relação entre o KDD e KDT. Atualmente,

encontram-se procedimentos disponíveis capazes de realizar o tratamento do dado

textual de maneira a possibilitar sua transformação e sua estruturação na forma

adequada ao uso pelo KDD. Alguns desses procedimentos são ferramentas essenciais

para viabilizar a Descoberta de Conhecimento em Textos – KDT.

O PLN tem papel fundamental na Mineração de Textos, sendo utilizado no

estágio inicial da etapa de Pré-processamento, aonde sua principal função é fornecer um

primeiro nível de estruturação da informação textual, como o reconhecimento de início

e fim de sentenças e classificação de palavras quanto a sua função sintática.

1.3.3. Descoberta de Conhecimento em Textos

De acordo com DORRE et al (1999), a informação textual não está

prontamente acessível para ser usada por computadores, ou seja, ela é apropriada para

que pessoas, através da leitura e dos processos cognitivos característicos dos humanos,

manipulem e apreendam as informações contidas nesse formato.

Análise de dados armazenados em formato não estruturado pode ser

considerada uma atividade mais complexa, se comparada à análise de dados

estruturados, justamente pelo fato dos dados possuírem a característica da não

estruturação. Logo, são necessárias técnicas e ferramentas específicas para tratamento

deste tipo de dados. Este conjunto de técnicas e ferramentas também fazem parte da

área de Recuperação de Informações, mais especificamente da área conhecida como

Descoberta de Conhecimento em Textos (KDT) (PALAZZO et al, 2006).

Segundo TAN (1999), a KDT pode ser vista como uma extensão do KDD,

pois se refere ao processo de extração de padrões não-triviais e de conhecimento útil

para determinado objetivo em documentos não-estruturados. Todavia, a tarefa da KDT

torna-se mais complexa em função da manipulação de dados textuais registrados em

linguagem natural.

Diversos autores afirmam que as bases textuais apresentam-se de forma não-

estruturada. Porém, possuem uma estrutura implícita que necessita de técnicas

especializadas para ser reconhecida por sistemas automatizados. O processamento de

linguagem natural (PLN) trata exatamente da descoberta destas estruturas implícitas,

como por exemplo, a estrutura sintática (RAJMAN, BESANÇON, 1997).

A integração de técnicas de PLN e KDD constitui a Descoberta de

Conhecimento em Texto que objetiva automatizar o processo de transformação de

dados textuais em informação para possibilitar a aquisição do conhecimento.

Mineração de textos (Text Mining) ou Descoberta de conhecimento de base de

dados textuais (KDT) é um Processo de Descoberta de Conhecimento, que utiliza

técnicas de análise e extração de dados a partir de textos, frases ou apenas palavras.

Envolve a aplicação de algoritmos computacionais que processam textos e identificam

informações úteis e implícitas, que normalmente não poderiam ser recuperadas

utilizando métodos tradicionais de consulta, pois a informação contida nestes textos não

pode ser obtida de forma direta, uma vez que, em geral, estão armazenadas em formato

não estruturado

, o qual apresenta um alto nível de complexidade envolvida neste tipo

de representação de informação.

Mineração de textos consiste em extrair regularidades, padrões ou tendências

de grandes volumes de textos em linguagem natural, normalmente, para objetivos

específicos. Inspirado pelo data mining ou mineração de dados, que procura descobrir

padrões emergentes de banco de dados estruturados, a mineração de textos pretende

extrair conhecimentos úteis de dados não estruturados o semi-estruturados (ARANHA,

2006).

De acordo com BASTOS (2006), KDT engloba técnicas e ferramentas

inteligentes e automáticas que auxiliam na análise de grandes volumes de dados com o

intuito de “garimpar” conhecimento útil, beneficiando não somente usuários de

documentos eletrônicos da internet, mas qualquer domínio que utiliza textos não

estruturados.

____________________________

Formato não estruturado está relacionado ao fato de um texto ser livre de formato ou padrão de

armazenamento.

Logo, como a forma mais comum de armazenamento de informação é através

de texto, KDT, teoricamente, tem potencial maior de utilização do KDD, pois cerca de

80% de informações contidas nas organizações estão contidas em documentos textuais

(BEPPLER, 2005). Porém, mineração de texto é um processo muito mais complexo à

medida que envolve procedimentos com dados textuais que estão em linguagem natural,

não estruturados e confusos.

Os benefícios da mineração de textos pode se estender a qualquer domínio que

utilize textos, sendo que suas principais contribuições estão relacionadas à busca de

informações específicas em documentos, a análise qualitativa e quantitativa de grandes

volumes de textos, e a melhor compreensão do conteúdo disponível em documentos

textuais.

Ao utilizar os recursos de mineração de textos, um usuário não solicita

exatamente uma busca, mas sim uma análise de um documento. Entretanto, este não

recupera o conhecimento em si. É importante que o resultado da consulta seja analisado

e contextualizado para posterior descoberta de conhecimento.

1.4. Organização da dissertação

Neste capítulo foi apresentado o contexto geral do trabalho, a relevância para o

desenvolvimento da pesquisa de uma metodologia de descoberta de conhecimento em

dados disponíveis em texto, bem como os seus objetivos pretendidos.

O capítulo 2 trata da metodologia proposta e define as etapas necessárias para

desenvolver o processo de descoberta de conhecimento em textos, bem como a sua

importância, benefícios, dificuldades e uso.

No capítulo 3, é apresentado o estudo de caso, com a descrição do problema,

as etapas do processo de descoberta de conhecimento em textos utilizada para o caso

real e a ferramenta utilizada para a mineração dos textos.

No capítulo 4 um conjunto de dados foi processado, o que permitiu a análise

dos resultados obtidos.

E o capítulo 5, descreve as considerações finais.

2. Metodologia

2.1 O processo de Mineração de Textos

O processo de mineração de textos é iterativo, pois é formado por uma série de

etapas seqüenciais, onde se pode retornar às descobertas realizadas, ou a falta delas

pode levar a novas hipóteses de descobertas. E o processo torna-se interativo, pois neste

caso, o usuário pode decidir pela retomada de processos de mineração ou a uma nova

seleção de atributos, por exemplo, para validar hipóteses que surgiram durante o

processo.

As pessoas envolvidas na realização do processo de mineração de textos

devem possuir um canal de comunicação que viabilize uma boa troca de informações.

Estes usuários possuem diferentes especialidades e necessidades, e cada um possui o

seu papel dentro do processo. As classes dos usuários envolvidos no processo são:

• Especialista do Domínio: possui amplo entendimento do domínio da

aplicação. Por exemplo, durante a análise de uma coleção de dados sobre

vendas de uma empresa, o especialista pode ser um diretor de marketing.

• Analista: executa o processo de KDT e, portanto deve possuir amplo

conhecimento das etapas que compõem esse processo. Por exemplo, os

analistas de sistemas, estatísticos e administradores de base de dados.

• Usuário Final: o qual pode não possuir amplo conhecimento do domínio. É

frequentemente aquele que utiliza o conhecimento extraído no processo de

KDT para auxiliá-lo em um processo de tomada de decisão.

Durante a realização do processo de KDT, a interação e comunicação entre o

analista, especialista do domínio e usuário final é muito importante, uma vez que o

sucesso da extração de conhecimento depende da comunicação entre eles. Entretanto, é

possível melhorar a troca de informações entre os envolvidos no processo utilizando-se

técnicas de visualização de dados adequadas para auxiliar na execução das etapas do

processo.

Para o processo de mineração de textos devemos considerar os tipos de

abordagens de dados que será utilizada.

2.1.1 Tipos de Abordagens de Dados

De acordo com EBECKEN (2003), existem dois tipos de abordagens para

análise de dados textuais na área de mineração de textos: a Análise Semântica, baseada

na funcionalidade dos termos encontrados nos textos, e a Análise Estatística, baseada na

freqüência dos termos encontrados nos textos. Estas abordagens podem ser utilizadas

separadamente ou em conjunto.

• Análise Semântica

Este tipo de análise emprega técnicas que avaliam a sequência dos termos no

contexto dos textos, no sentido de identificar qual a sua função. Ela é fundamentada em

técnicas de Processamento de Linguagem Natural (PLN). Sua utilização justifica-se

principalmente pela melhoria da qualidade dos resultados do processo de mineração de

textos, especialmente se for incrementado por Processamento Lingüístico (ROSA,

1998).

A análise semântica apóia o tratamento de textos conforme o ser humano faz,

através do significado das palavras, de conhecimentos morfológicos, sintáticos,

semânticos, pragmáticos, do discurso e do mundo.

1. Conhecimento Morfológico

É o conhecimento da estrutura, da forma e das inflexões das palavras.

2. Conhecimento Sintático

É o conhecimento estrutural das listas de palavras e como elas podem ser

combinadas para produzir sentenças.

3. Conhecimento Semântico

É o conhecimento do significado das palavras independente do contexto.

Também designa outros significados mais complexos, podem ser obtidos pela

combinação destas palavras.

4. Conhecimento pragmático

É o conhecimento do uso da língua em diferentes contextos e como estes

afetam seu significado e a interpretação.

5. Conhecimento do Discurso

É o conhecimento de como as sentenças imediatamente precedentes afetam a

interpretação da próxima sentença.

6. Conhecimento do Mundo

É o conhecimento geral do domínio ou o mundo que a comunicação da

linguagem natural se relaciona.

Segundo CORDEIRO (2005), técnicas de análise semântica de textos

procuram identificar a importância das palavras dentro da estrutura de suas orações.

Porém, quando se utiliza um único texto algumas funções podem ser identificadas com

um grau de importância. Entretanto, para algumas tarefas isso não é suficiente. Como

exemplos podem ser citadas as categorizações, onde é interessante analisar um

documento comparando-o com bases de conhecimento de diferentes assuntos para

descobrir a que categoria ele pertence.

• Análise Estatística

Os termos são valorados, basicamente, pela sua frequência de aparição na

massa de dados, não importando a contextualização deste, como em que parágrafo está

inserindo, que termos o antecedem ou que estão diretamente relacionados.

Neste tipo de análise, a importância de um termo é dada pelo número de vezes

que este aparece no texto. Basicamente, seu processo envolve aprendizado estatístico a

partir de dados, que normalmente inclui as etapas de codificação dos dados, estimativa

dos dados e modelos de representação de documentos.

1. Codificação dos Dados

Uma codificação inicial dos dados é escolhida com base em indicações de

especialistas. Também pode ser feita de acordo com critérios que representem

propriedades interessantes dos dados em relação aos objetivos da seleção dos

mesmos.

Se informações relevantes forem descartadas nesta etapa, não poderão ser

recuperadas depois. Entretanto, se a codificação inicial dos dados contém

muita informação irrelevante ou ruídos, a busca por uma seleção adequada

pode se tornar difícil ou consumir muito tempo. Além disso, propriedades

importantes destes dados podem ser perdidas em meio ao ruído.

2. Estimativa dos Dados

Esta etapa envolve a procura por um modelo adequado a partir de um conjunto

de modelos (espaço de modelos). Um modelo pode ser obtido a partir da

aplicação de um algoritmo de aprendizado ou de um método de estimativa.

3. Modelos de Representação de Documentos

Documentos podem ser vistos como “containers” de palavras. Esta

abordagem, também conhecida como bag of words, ignora a ordem que as

palavras aparecem nos textos, assim como qualquer informação de pontuação

ou de estrutura, mas retém o número de vezes que a palavra aparece.

Esta técnica é considerada uma simplificação de toda a abundância de

informações que um texto pode expressar, não fornecendo, portanto, uma

descrição fiel de seu conteúdo. O desenvolvimento de modelos mais ricos, que

sejam computacionalmente viáveis e possíveis de serem estimados, continua

sendo um problema desafiador para a computação.

Entretanto, apesar desta técnica não ser suficiente para interpretação completa

a respeito dos textos, ela provê uma quantidade considerável de informações

sobre associações entre palavras e documentos que tem se apresentado

suficiente para clustering a partir de grandes coleções de textos.

Ambas as abordagens podem ser utilizadas sozinhas ou em conjunto.

O processo de Mineração de Textos ou Descoberta de Conhecimentos em

Textos como um todo, se constitui como mostra o diagrama a seguir, conforme proposto

por ARANHA (2006), onde sugere o que seria um modelo completo para aquisição de

conhecimento a partir de textos, porém com aprofundamento na sub-etapa de Pré-

processamento.

Figura 2-1 - Metodologia de Mineração de Textos com o "encadeamento" de técnicas proposta por

ARANHA.

A coleta é a etapa inicial e tem como função recuperar os documentos que

possam ser relevantes para alcançar o objetivo almejado, isto é, determinar e selecionar

o universo de atuação das técnicas de mineração de texto.

Pré-processamento é a etapa executada imediatamente após a Coleta e tem

como objetivo prover alguma formatação e representação da massa textual. É bastante

onerosa, com a aplicação de diversos algoritmos que consomem boa parte do tempo do

processo de extração de conhecimento.

Indexação é o processo que organiza todos os termos adquiridos a partir de

fontes de dados, facilitando o seu acesso e recuperação. Uma boa estrutura de índices

garante rapidez e agilidade ao processo, tal como funciona o índice de um livro.

Após terem sido obtidas uma estrutura para os dados e uma forma de prover

rápido acesso, a etapa de Mineração propriamente dita é responsável pelo

desenvolvimento de cálculos, inferências e algoritmos e que tem como objetivo a

extração de conhecimento, descoberta de padrões e comportamentos que possam

surpreender de acordo com o objetivo e requisitos do usuário e/ou domínio da

aplicação.

Finalmente, a Análise é a última etapa é deve ser executada por pessoas

(usuário final, especialista do domínio e o analista de dados) que, normalmente, estão

interessadas no conhecimento extraído e que devem tornar algum tipo de decisão

apoiada no processo de Mineração de Texto.

Mediante algumas circunstâncias, como na obtenção de um resultado pouco

significativo ao usuário, pode ser necessário que o processo seja refeito, adequando-se

algumas de suas etapas, seja para contar com uma gama mais informativa de

documentos, ou mesmo com alguma estratégia que possa melhorar o desempenho do

processo.

A seguir, são mencionados detalhes específicos de cada uma das etapas

envolvidas no processo de mineração de texto, dando mais ênfase à etapa de pré-

processamento.

2.1.2 Coleta de Dados

Entende-se por Coleta o processo de busca e recuperação de dados com

descrições textuais que sejam relevantes ao domínio de aplicação do conhecimento a ser

extraído. E este tem como finalidade formar a base textual da qual se pretende extrair

algum tipo de conhecimento. Essa base pode ser estática, nos casos mais simples, ou

dinâmica, isto é, atualizadas a todo momento através de robôs coletando novas

informações. A atualização é feita pela simples adição de um novo conteúdo, remoção

de conteúdos antigos, ou, substituição da base por uma inteiramente nova.

Coletar dados é uma tarefa bastante custosa aonde existem diversos desafios, a

começar pelo formato dos dados, é que podem não estar disponíveis em um formato

apropriado para serem utilizados no processo de mineração de textos.

Para mineração de textos, um dos principais problemas em coletar os dados é

descobrir da localização das fontes de dados: pastas de arquivos encontradas no disco

rígido de usuários, tabelas de diversos bancos de dados e a Internet.

As pastas de arquivos são talvez a forma mais natural de se armazenar

documentos na forma digital. Coletar documentos no disco rígido de um computador é

algo que exige bastante cautela, pois é necessário fazer a distinção entre arquivos

textuais produzidos por pessoais e arquivos binários e de configuração, normalmente

interpretados apenas pela máquina. Algumas iniciativas podem ajudar no gerenciamento

de documentos eletrônicos, como é o caso dos sistemas de GED (Gerenciamento

Eletrônico de documentos) para grandes empresas e dos sistemas de busca local como o

Google Desktop, Yahoo! Desktop e Ask Jeeves Desktop.

A obtenção de massa textual a partir de tabelas de banco de dados se dá,

principalmente, através de conteúdo de colunas do tipo string, que nada mais são do que

campos de armazenamento de texto livre, sem nenhuma restrição a não ser a quantidade

máxima de caracteres suportada por registro. Como os dados podem estar espalhados

por diversas tabelas de diversos bancos de dados, a construção de um Data Warehouse ,

INMON (1994) e KIMBALL (2002), é vista como um ótimo ponto de partida para a

obtenção de dados, uma vez que a teoria de DW prega a integração de diversas fontes,

de forma a disponibilizar mais facilmente as informações. Embora os Data Warehouses

facilitem bastante a coleta de dados, o problema ainda está longe de ser bem resolvido,

principalmente quando se trata de textos. Além disso, neste tipo de sistema supõe-se que

seja realizada uma etapa de pré-processamento, aonde um dos objetivos é prover uma

“limpeza dos dados”, garantindo qualidade no que se está disponibilizando.

Outro ambiente de localização de fontes de dados é a Internet. Neste, a

heterogeneidade é o desafio predominante, aonde é encontrada uma infinidade de tipos

de páginas, como notícias de revistas, bloggers, anúncios, documentos, artigos técnicos

e planilhas.

Fazendo uso de alguma ferramenta de suporte à recuperação de documentos, a

primeira etapa do processo de Mineração de Textos pode ser então cumprida. Diante

disso, deve-se dar início a segunda etapa do processo, na qual os documentos

recuperados são pré-processados para gerar a possível representação a ser utilizada

pelos algoritmos de extração de conhecimento.

2.1.3 Pré-processamento

Como mencionado, a etapa de pré-processamento é responsável por um

conjunto de transformações realizadas sobre coleção de textos com o objetivo e fazer

com que esses passem a ser estruturados em uma representação atributo-valor, que

possa ser manipulada pelos métodos de extração de conhecimento. A obtenção de tal

representação pode ser feita através da realização de algumas tarefas como identificação

dos atributos, atribuição de pesos e redução da representação, como mostrado na figura

2-2.

Figura 2-2 - Algumas atividades realizadas no pré-processamento de textos

Pré-processar textos é, por muitas vezes, o processo mais oneroso da

metodologia de Mineração de Textos, uma vez que não existe uma única técnica que

possa ser aplicada para a obtenção de uma representação satisfatória em todos os

domínios. Assim sendo, para se chegar à representação adequada, pode ser necessária a

realização de muitos experimentos empíricos.

De modo geral, a etapa de pré-processamento tem por finalidade melhorar a

qualidade inicial dos dados já disponíveis e organizá-los, aonde diversas técnicas podem

ser aplicadas e até mesmo combinadas.

Existem diferentes abordagens para determinar os termos e os pesos que

estarão presentes na representação. Frequentemente as operações realizadas para a

escolha dos termos são:

• substituição de marcadores HTML por símbolos especiais, quando

aplicável;

• reconhecimento de palavras individuais ou compostas que estejam

presentes no texto;

• uso de uma lista de palavras a serem desconsideradas, como artigos,

preposições, etc. Essa lista é conhecida como stop list ou lista de

sotpwords;

• remoção do sufixo das palavras para mapeá-la na sua forma canônica;

• organização do valor semântico das palavras por meio do uso de

dicionários eletrônicos e mapas de sinônimos, como thesaurus.

As estratégias empregadas na identificação dos atributos, como mostrado na

figura 2-2 são, em geral, dependentes do idioma. Isso porque as palavras que compõem

a stop list e os métodos para remover os sufixos dos termos podem variar de acordo

com o idioma dos textos.

Para completar a representação dos textos, além das estratégias para

identificação dos atributos, devem-se escolher quais serão as abordagens utilizadas para

o cálculo do valor do peso de cada atributo, que geralmente pode ser booleano ou

numérico (WEISS, INDURKHYA, 1998). Os valores booleanos são empregados para

indicar a presença ou ausência do termo em cada documento, enquanto que os

numéricos são calculados por meio de medidas estatísticas baseadas na frequência dos

termos nos documentos.

Em alguns casos, a representação originalmente obtida possui muitos atributos

tornando sua dimensão relativamente grande a ponto de exceder a capacidade de

processamento dos algoritmos usados para extração do conhecimento. Desta forma, são

empregados métodos para redução da dimensão.

No entanto, a etapa de pré-processamento vai além das ações citadas, pois é

necessário transformar os textos em uma representação estruturada adequada para que, a

partir disso, os dados possam ser submetidos ao processo como um todo. Portanto,

durante a transformação dos textos em formato estruturado existe a possibilidade de que

informação intrínseca ao conteúdo dos textos seja perdida. Um desafio, nesse caso, é

obter uma boa representação minimizando a perda de informação.

Normalmente, o produto final do pré-processamento é uma estrutura do tipo

atributo-valor, conforme verificado na Tabela 2-1. As linhas fazem alusão a cada um

dos documentos da coleção, enquanto que as colunas fazem referência aos atributos,

presentes ou não, em cada um dos documentos. A interseção entre atributos e

documentos é marcada pelo peso dado a determinado atributo em determinado

documento (por exemplo, pode-se utilizar a frequência de aparição do atributo no

documento). Esta estrutura precisa ser significante, representativa e que reflita fielmente

a diversidade original dos dados. De posse desta estrutura, é possível a execução da

etapa de Mineração, precedida ou não da Indexação.

Tabela 2-1 - Representação atributo-valor obtida à partir da etapa de Pré-processamento

Atrib1 ... AtribN

Doc1 V11 ... V1N

... ... ... ...

DocX VX1 ... VXN

2.1.3.1 Identificação de Palavras no Texto

Erros ortográficos são comuns quando se trabalha com grandes massas de

dados, especialmente se geradas a partir de digitação manual por seres humanos. Em

SALTON (1983), a identificação das palavras nos documentos a serem indexados nada

mais é do que a identificação de palavras analisando-se as sequências de caracteres no

texto. SALTON (1983) aconselha fazer um Dictionary lookup, ou seja, comparar as

sequências de caracteres retiradas do texto com um dicionário a fim de validar se essas

palavras realmente existem. Esse processo de validação torna-se caracteres inválidos ou

palavras com erros gramaticais. As sequências de caracteres inválidas devem ser

eliminadas e as palavras com erros corrigidas. Pode-se aplicar um processo de filtragem

naqueles arquivos que possuem formatos de texto específicos, a fim de eliminar as

sequências de controle e/ou formatação de texto.

As operações que transformam uma sequência de caracteres em outra pode ser

de: inserção (inserção de um novo caractere no string “destino”), eliminação

(eliminação de um caractere no string “origem”) e substituição (substitui um caractere

do string “origem”, com o objetivo de transformar no string “destino”). O exemplo

abaixo exibe os passos necessários para transformar “casas” em “massa”, definindo a

distância de edição em 3 (três).

1. casas → masas (substituição de ‘c’ por ‘m’)

2. masas → mass (eliminação de ‘a’)

3. mass → massa (inserção de ‘a’)

O dicionário pode também auxiliar a identificação de termos específicos,

quando se deseja utilizar palavras pré-definidas no índice, evitando que palavras

desconhecidas sejam identificadas (ou seja, evita a utilização de um vocabulário

descontrolado). Um simples Analisador Léxico que identifique sequências de caracteres

e forme palavras pode ser utilizado.

A figura 2-3 apresenta o trecho de um documento com diversas sequências de

caracteres. As sequências riscadas são sequências inválidas, que não devem passar pela

fase de identificação de palavras. As demais sequências vão para a verificação em um

dicionário (léxico). As palavras sublinhadas são palavras inexistentes no dicionário, e

devem ser corrigidos ou aprendidos. Os caracteres de pontuação são desprezados.

Figura 2-3 - Identificação de palavras válidas

Outra possibilidade de pré-tratamento é a representação em n-gramas do texto:

constitui-se em uma representação alternativa, onde os termos são obtidos diretamente

como sub-cadeias de comprimento n das palavras que compõem o texto original. Por

exemplo, a partir da palavra “porta” e considerando n = 4, obtêm-se as seguintes 4-

grams: “_por”, “port”, “orta” e “orta_”, onde “_” é usado para indicar o início ou fim da

palavra. A idéia é que os erros ortográficos mais comuns só afetam poucos constituintes

de n-grama, então, podemos buscar pela palavra correta através daqueles que

compartilham a maior parte dos n-gramas com a palavra errada. O objetivo é manter

uma lista de n-gramas “apontando”para as palavras que o contém. Quando a palavra é

procurada, os n-gramas são processados e procurados no índice. A palavra que

apresentar o maior número de n-gramas associados será a de maior relevância,

indicando um possível candidato para correção (ARANHA, 2006).

De modo geral, a preocupação das técnicas clássicas presente na literatura é de

reduzir a dimensionalidade do problema, de modo a poder utilizar algoritmos de

mineração de dados.

... àpl- à , ‘~ ‘ p y Na maioria das vezes os documentos retornados pelas

ferramentas de ‘ > ‘ recuperação de informacões ‘ < ‘ envolvem um contexto

mais amplo, fazendo com que o usuario tenha que garimpar, ou seja,

especificar ou filtrar estes documentos ( o que demanda tempo e conhecimento

) a fim de obter a infromação que ele realmente necessita ‘~ ‘ ....

2.1.3.2 Tokenização

Um texto possui um fluxo ordenado de palavras que seguem as normas

linguísticas de um idioma para que ele faça sentido para o leitor. No entanto, para o

propósito de manipular o texto com computadores no sentido de extrair suas

características, o processo utilizado é de separação do texto em unidades mínimas de

texto chamadas tokens. Cada unidade é chamada de token e que, na grande maioria das

vezes, corresponde a uma palavra do texto, podendo também estar relacionado a mais

de uma palavra, símbolo ou caractere de pontuação.

Segundo MANNING e SCHULTZ (1999), esses tokens apresentam-se como

palavras, números ou sinais de pontuação extraídos do texto. Importante observar que

os sinais de pontuação podem trazer informação sobre a macro estrutura do texto e por

isso não devem ser negligenciados.

Geralmente, o que diferencia um token do outro são os espaços entre eles e

frequentemente os algoritmos que executam a divisão do texto em tokens utilizam o

espaço como delimitador. Aqui, também, se requer cuidado na execução da tarefa, pois

temos, em português, palavras compostas que quando separadas possuem significados

diferentes, por exemplo, “Casas Bahia” representa uma conhecida rede de lojas,

contudo, se lida isoladamente, a palavra “casas” ou “Bahia” não possuem relação

alguma com comércio.

Para obtenção de melhores resultados, deve-se adequar o programa que

executa o trabalho de separação dos termos em função do texto que será tratado, caso

contrário, muito trabalho deverá ser executado nos tokens adquiridos.

2.1.3.3 Retirada de palavras desnecessárias (stopwords)

Em um documento, existem muitos tokens que não possuem nenhum valor

semântico, sendo úteis apenas para o entendimento e compreensão geral do texto. Estes

tokens são palavras classificadas como stopwords e correspondem ao que é chamado de

stoplist de um sistema de Mineração de Textos.

Uma lista de stopwords é constituída pelas palavras de maior aparição em

massa textual e, normalmente, correspondem aos artigos, preposições, pontuação,

conjunções e pronomes de uma língua. A identificação e remoção desta classe de

palavras reduzem de forma considerável o tamanho final do léxico, tendo como

consequência benéfica o aumento de desempenho do sistema como um todo.

A stoplist pode ser definida manualmente, por um especialista no domínio do

assunto, ou de forma automática, através de frequência de aparição das palavras no

léxico. Um percentual K das palavras de maior aparição define a lista de remoções. A

tabela 2-2 ilustra uma pequena stoplist.

Tabela 2-2 - Identificação e Remoção de Stopwords (os tokens descartados estão tachados)

Stoplist Texto

pelas

com

das

que

seja

estes

ele

...Na maioria das vezes os documentos retornados pelas

ferramentas de recuperação de informações envolvem

um contexto mais amplo, fazendo com que o usuário

tenha que garimpar, ou seja, especificar ou filtrar estes

documentos o que demanda tempo e conhecimento a

fim de obter a informação que ele realmente necessita...

No entanto, stopwords são todas as palavras que influenciam negativamente

no processo de análise. Assim, a sua existência nos textos implicaria na perda de

desempenho e qualidade nas etapas seguintes da tarefa de mineração de textos, por isso

é necessária a execução deste processo antes das próximas etapas.

2.1.3.4 Normalização Morfológica (Stemming)

Segundo WIVES (2002), durante o processo de indexação, dependendo do

caso, torna-se interessante eliminar as variações morfológicas de uma palavra. As

variações morfológicas são eliminadas através da identificação do radical de uma

palavra. Os prefixos e os sufixos são retirados e os radicais resultantes são adicionados

ao índice. Essa técnica de identificação de radicais é denominada lematização ou

Stemming, que em inglês significa reduzir uma palavra ao seu radical (ou raiz).

Além da eliminação dos prefixos e sufixos, características de gênero, número e

grau das palavras são eliminadas. Isso significa que várias palavras acabam sendo

reduzidas para um único termo, o que pode reduzir o tamanho de um índice em até 50%.

Entretanto, as aplicações de técnicas de Stemming ocasionam uma diminuição

na precisão das buscas, já que não consegue mais procurar por uma palavra específica.

Na classificação de documentos, por exemplo, variações morfológicas são importantes,

pois aumentam o poder de discriminação entre documentos.

Além disso, ao realizar stemming deve-se ter cuidado com overstemming e

understemming. Overstemming ocorre quando a cadeia de caracteres extraída não é um

sufixo, mas sim parte do radical. Por exemplo, a palavra “gramática”, após o

processamento reduz para “grama”, o que não representa o seu radical, que é “gramat”.

Understemming ocorre quando o sufixo não é removido totalmente. Por exemplo, a

palavra “referência”, após o processamento reduz para “referênc”, ao invés de “refer”, o

que é o radical correto (BASTOS, 2006).

EBECKEN (2003) descreve três métodos de stemming: método do Stemmer S;

método de Porter; método de Lovins.

• método do stemmer S

Este é considerado o método mais simples. Consiste na eliminação de apenas

alguns finais de palavras, geralmente sufixos que formam o plural. Em

palavras da língua inglesa são removidos apenas os sufixos ies, es, s.

• Método de Porter

Consiste na identificação de diferentes inflexões referentes à mesma palavra e

sua substituição por um radical comum.

Seu algoritmo remove cerca de 60 sufixos diferentes para palavras da língua

inglesa e é baseado nas seguintes etapas (BASTOS, 2006): redução do plural;

troca de sufixos; retirada de sufixos; remoção de sufixo padrões; remoção da

vogal “e” ao final da palavra.

• Método de Lovins

Este método remove cerca de 250 sufixos diferentes para palavras da língua

inglesa. Seu algoritmo remove apenas um sufixo por palavra, retirando o

sufixo mais longo conectado a palavra.

Todos os métodos acima consideram palavras da língua inglesa. Um algoritmo

de stemming para língua portuguesa pode ser encontrado em ORENGO (2001). Cada

etapa do algoritmo, por sua vez, tem um conjunto de regras, que são examinadas em

sequência, e somente uma regra na etapa pode ser aplicada.

Figura 2-4 – Stemming para Português

As etapas são descritas a seguir (BASTOS, 2006) :

1. Remoção do plural

Consiste basicamente em remover o “s” do final das palavras. Há uma lista de

exceções como a palavra “lápis” por exemplo.

2. Remoção do feminino

Nesta etapa as formas femininas são transformadas na correspondente

masculina. Ex.: “chinesa” → “chinês”.

3. Remoção do advérbio

Esta é a etapa mais simples, uma vez que o único sufixo que denota um

advérbio é “mente”. Neste caso também há uma lista de exceções.

4. Remoção do aumentativo e diminutivo

Remove o sufixo dos substantivos e adjetivos que podem ter aumentativo e

diminutivo. Por exemplo, “gatinha” ou menininha”.

5. Remoção de sufixos em nomes

Esta etapa testa as palavras contra uma lista de 61 sufixos para substantivos e

adjetivos. Se o sufixo for removido, as etapas 6 e 7 não são executadas.

6. Remoção de sufixos em verbos

Os verbos da língua portuguesa possuem mais de 50 formas diferentes de

conjugação (na língua inglesa existem apenas 4). Cada uma delas possui seu

conjunto de sufixos específicos. Os verbos podem variar de acordo com o

tempo, a pessoa, o número e o modo. A estrutura das formas verbais pode ser

representada por: radical + vogal temática

+ tempo + pessoa, por exemplo:

“andaram” = “and + a + ra + m”. As formas verbais são reduzidas ao seu

radical correspondente.

7. Remoção de vogais

Esta etapa consiste em remover a última vogal (“a”, “e”ou “o”) das palavras

que não foram examinadas pelas etapas 5 e 6. Ex.: “menino” → “menin”.

8. Remoção de acentos

Esta atividade é necessária porque existem vários casos onde algumas

variantes são acentuadas e outras não, como em “psicólogo” e “psicologia”,

por exemplo.

_______________________

Existem três classes de verbos na língua portuguesa, de acordo com a terminação da forma infinitiva:

“ar”, “er” e “ir”. A vogal temática é a letra (“a”, “e” e “i”) que agrupa verbos e categorias.

A execução deste passo por último é importante, porque a presença de acentos

é significativa em algumas regras, por exemplo: “óis” para “ol” transformando “sóis”

em “sol”, por exemplo. Se a regra fosse “ois” para “ol”, poderia causar erros no caso de

“dois” para “dol”.

2.1.3.5 Dicionários de dados (Thesaurus)

Objetivando o tratamento adequado de alguns problemas intrínsecos da língua

são criados dicionários de apoio, tesauros, lista de termos não relevantes ou específicos

do jargão técnico para dar suporte ao trabalho de processamento do dado textual. Esse

passo é dependente do objetivo do projeto que pode fazer uso de todos os elementos de

apoio ou somente de alguns de acordo com a necessidade.

No momento em que se transforma o texto em termos individuais ou

compostos observa-se que alguns aparecem muitas vezes, outros medianamente e outros

raramente.

A utilização de alguns termos em detrimento de outros é uma escolha feita

pelos especialistas que conduzem o processo de descoberta e, para tanto, são criados

dicionários especializados e lista de termos que apóiam o trabalho de escolha dos

termos que serão utilizados pelos algoritmos de mineração de texto.

Uma preocupação natural seria unificar todas as palavras que possuem o

mesmo significado. Então, cria-se um dicionário de sinônimos ou um tesauros que

converte os termos sinônimos em um termo preferido. Esse tipo de tratamento é

importante para redução da quantidade de termos nos documentos, isto é, para n termos

sinônimos, a máquina os trata como termos não correlacionados e, para fins de

estatísticas, são computadas individualmente para cada termo, o que não é interessante

para a captura do conceito do documento. Convertido os n termos sinônimos para o

preferido, a análise será feita em apenas um termo que pode ampliar a sua relevância no

documento.

Outra utilização destes dicionários de apoio seria a correção de erros

ortográficos corriqueiros. O procedimento é análogo ao dicionário de sinônimos que,

neste caso, cadastram-se os prováveis erros ortográficos mais comuns. Ex. iorgute →

iogurte.

A datação do texto deve ser verificada para que não seja modificado o seu

conteúdo sem as devidas considerações. A escrita de determinada época não deveria

sofrer correções automáticas, pois seriam descaracterizadas. Ex. Pharmácia →

Farmácia.

De maneira similar, podem-se identificar abreviaturas que estão fora do padrão

para serem corrigidas. Além disso, as palavras compostas não devem ser separadas ou

convertidas para um sinônimo de um de seus termos, pois podem mudar de sentido. Por

exemplo, foi criado um dicionário de sinônimos que contém a relação dos termos Casa e

Morada, de forma que a ocorrência do termo Morada seria convertida para o termo

Casa. Não seria apropriado converter o primeiro termo da palavra composta “Casa

Civil”, pois descaracterizaria o sentido. Uma solução para reconhecer esses termos

automaticamente seria o cadastramento das formas compostas para sua correta

identificação.

Em determinados projetos pode ser útil a identificação de Entidades que

relacionam termos com categorias. O objetivo dessa tarefa é distinguir termos que

contém informações bastante relevantes para o processo de descoberta.

Imaginemos um corpus

contendo informações cadastrais de usuários de

determinado serviço ou clientes de uma empresa. Seria de grande valia identificar no

texto o nome, o endereço, o telefone, a empresa na qual trabalha e assim por diante.

Dessa forma, cria-se um dicionário de apoio contendo prováveis formatos em

que são apresentadas essas Entidades. Frequentemente, essa tarefa é realizada por

analistas de domínio que detém conhecimento a priori das categorias que deverão ser

identificadas.

2.1.3.6 Indexação

Os sistemas de Recuperação de Informação, cedo ou tarde, esbarram no

problema de representação de documentos e consultas de usuários. Um documento

precisa ser codificado de uma forma que facilite sua manipulação e que permita uma

correta mensuração de seus termos.

Segundo, EBECKEN (2003), o objetivo principal da indexação dos textos é

facilitar a identificação de similaridade de significado entre suas palavras, considerando

as variações morfológicas e problemas de sinonímia.

Nessa fase as características dos documentos são identificadas e adicionadas

ao sistema de recuperação de informações (SRI).

Este processo tem como resultado a geração de um índice. Esse índice é

construído através de um processo de indexação. Indexar, portanto, significa identificar

as características de um documento e colocá-las em uma estrutura denominada índice.

Um documento pode ser indexado por termos diferentes que são

________________________

Corpus é uma coleção de documentos.

correspondentes ao vocabulário utilizado em sua área. Nesse caso, geralmente, há um

conjunto de termos predefinidos e específicos para cada assunto da área em questão.

Essa técnica facilita muito a localização de informações, pois usuários de

determinadas áreas específicas estão acostumados a utilizar os termos comuns. Por

outro lado, se o SRI for utilizado em uma área diferente da área para a qual foi indexado

ele não será tão eficiente porque os problemas relacionados à diferença de vocabulário

serão mais frequentes.

Quando a indexação é realizada manualmente, a pessoa encarregada de fazê-la

deve analisar o conteúdo de cada documento e identificar palavras-chave que o

caracterizem. Essas palavras, quando adicionadas ao índice, passam a ser chamadas de

termos de índice. A geração automática de índices deve produzir o mesmo resultado,

isto é, produzir os termos de índice.

Em mineração de textos, a indexação é um processo automático (ver figura 2-

5). Pode-se ver que os documentos que são fornecidos à ferramenta de indexação

passam por uma sucessão de etapas de processamento e ao final é produzido um arquivo

de índices que consegue localizar os documentos apresentados.

Figura 2-5 - Sequência do processo de indexação automática

A primeira etapa responde por identificar as palavras, ou as fronteiras das

palavras usualmente feitas pelo caractere em branco. A segunda elimina, dentre essas

palavras, as não discriminantes (stop-words), em seguida, a terceira executa um

procedimento de normalização de sufixos, o stemming. A quarta é responsável pela

detecção de termos compostos, isto é, termos com mais de uma palavra. Finalmente,

esses termos, pós-processados, são armazenados na estrutura invertida associados aos

documentos de origem.

É importante salientar que esse tipo de indexação automática ainda é bastante

simples, não considera a semântica do documento nem a posição sintática das palavras

nas orações. Em virtude dessas necessidades surgiram outras formas de indexação mais

complexas que usam o mesmo motor de indexação, mas aplicado a uma estrutura de

texto enriquecida com metadados. Os metadados são tags que marcam informações

semânticas ou estruturais do texto. Para o indexador, as tags nada mais são do que novas

palavras adicionadas ao texto que serão também indexadas.

2.1.4 Mineração

A fase de Mineração envolve decidir quais algoritmos deverão ser aplicados

sobre a massa de dados desenvolvida até o momento. Para tanto, deve se optar por uma

ou mais Tarefas de Mineração, que nada mais é do que decidir o que se quer obter de

informação. Por exemplo, se a necessidade de informação do usuário é obter o

relacionamento entre documentos, verificando o grau de similaridade e a formação de

grupos naturais, então a tarefa a ser escolhida é a clusterização. Em contrapartida, se

estes grupos de documentos já existem, seja pela execução de algoritmos ou pelo

conhecimento prévio de especialistas, então a indicação de aonde um novo documento

deve ser encaixado é conseguida através de algoritmos de classificação. As técnicas

mais utilizadas são Classificação e Clusterização.

2.1.5 Análise

A etapa de Análise da Informação também pode ser chamada de Pós-

processamento de dados e diz respeito à verificação da eficiência da aplicação dos

algoritmos da etapa anterior. Em outras palavras, é o momento de avaliar se o objetivo

foi cumprido da melhor forma possível, que é descobrir conhecimento novo e inovador

a partir de pilhas de documentos não-estruturados.

Existem diversas maneiras de se avaliar a mineração como um todo, seja de

forma qualitativa ou quantitativa. A utilização de métricas, conforme já mencionado, é

considerada uma forma quantitativa, ao passo que a utilização do conhecimento de

especialistas no domínio é considerada uma forma qualitativa. Os especialistas devem

sempre ser consultados, em todas as etapas da Mineração, balizando a análise, ajudando

a resolver situações de conflito, indicando caminhos e complementando informações.

Entretanto, alguns conflitos podem ocorrer como a divergência de opiniões entre dois

ou mais especialistas, bem como, a própria mudança de opinião de um mesmo ao longo

do tempo.

Por último, a forma mais intuitiva de se analisar um resultado é fazendo uso de

elementos gráficos, através de ferramentas de visualização. A introdução e gráficos,

com noções de cores e distâncias, ajuda a entender o sentido de grandes e complexos

conjuntos de dados, que não são facilmente manuseados.

Na prática, estas métricas podem ser utilizadas como forma de avaliação do

mesmo, isto é, para saber se o mecanismo funcionou ou não como deveria. Nesse caso,

as métricas poderiam informar para o usuário quantos e quais documentos lhe são

relevantes, além de quanto cada um deles é relevante.

Porém, para que essas métricas funcionem corretamente, é necessário que a

coleção de documentos a ser analisada pelo sistema seja muito bem conhecida, ou seja,

para cada documento é necessário saber, para quais consultas (ou assuntos) eles são

relevantes.

Segundo HAN e KAMBER(2001), os especialistas têm considerável

dificuldade manual de analisar tantas regras para identificar algumas verdadeiramente

interessantes. Para resolver tal problema, tem sido desenvolvida uma aproximação para

ajudá-los a encontrar regras interessantes (em particular, regras inesperadas) de um

conjunto de regras descoberto. A Análise de Interessabilidade alavanca o conhecimento

do domínio existente para analisar descobertas e então classificar as regras descobertas

de acordo com os vários critérios de Interessabilidade, tal como conformidade e vários

tipos de inesperados.

O procedimento de Interessabilidade refere-se a encontrar regras que são

interessantes e úteis aos usuários, não somente qualquer regra possível. Pesquisas em

Mineração de Dados tem mostrado que podemos medir a Interessabilidade de uma regra

usando ambas as medidas: objetivas e subjetivas (LIU e CHEN, 2000).

Medidas objetivas envolvem analisar a estrutura das regras, a performance

preditiva, e a significância estatística. Entretanto, medidas objetivas são insuficientes

para determinar a Interessabilidade de uma regra descoberta, sendo necessárias medidas

subjetivas.

As duas principais medidas subjetivas de Interessabilidade são:

• Inesperabilidade: As regras são interessantes se elas são desconhecidas do

especialista ou contradizem ao existente conhecimento do especialista (ou esperado);

• Acionabilidade: As regras são interessantes se os especialistas podem acionar

alguma atividade que produza benefício. As regras interessantes podem ser classificadas

dentro de três categorias:

• Regras que são ambas inesperadas e acionáveis;

• Regras que são inesperadas, mas não são acionáveis, e

• Regras que são acionáveis, mas esperadas.

O foco deste trabalho é para o inesperado, ou seja, não é objetivo validar uma

hipótese do negócio e sim identificar conhecimentos inexistentes que agregem a

organização.

3. Estudo de Casos

3.1 Descrição do problema

A Petrobras como operadora de saúde, com seu plano AMS, Assistência

Multidisciplinar de Saúde, é um benefício empresarial, sem fins lucrativos e está

presente, desde 1975, quando foi criado, por decisão da Diretoria Executiva, para

atender às necessidades de saúde de cerca de 280 mil pessoas, entre eles empregados,

aposentados, pensionistas e seus dependentes. E conta com uma rede credenciada de

serviços de saúde de aproximadamente 22 mil prestadores, e opera praticamente em

todo o território nacional.

É um Programa gerenciado e operacionalizado pela própria Companhia

(autogestão

), de qualidade reconhecida, onde realiza o gerenciamento do pagamento

dos credenciados

, bem como o desconto das parcelas dos beneficiários

referentes às

despesas efetuadas e contribuições mensais.

Para um melhor atendimento aos seus usuários, sendo de beneficiários ou

credenciados, a AMS oferece o serviço de Fale Conosco no site da Petrobras onde são

registrados os elogios, reclamações, sugestões ou solicitações. As informações são

registradas em linguagem natural em uma base de dados textual, onde cada registro

corresponde a um texto contendo as transcrições de usuários da AMS. Esses textos

_____________________________

Autogestão – entidades que operam serviços de assistência à saúde destinados, exclusivamente, a

empregados ativos, aposentados, pensionistas ou ex-empregados, de uma ou mais empresas ou, ainda, a

participantes e dependentes de associações de pessoas físicas ou jurídicas, fundações, sindicatos,

entidades de classes profissionais ou assemelhados e seus dependentes.

Credenciado – pessoa física ou jurídica, autorizada por entidade de classe regulamentada a executar

ações e/ou serviços de saúde, coletiva ou individual, que prestam serviço às operadoras de plano privado

de assistência à saúde.

Beneficiário – usuário titular ou dependente – dos direitos definidos em contrato assinado entre uma

pessoa física ou pessoa jurídica com uma operadora para garantia da assistência. O termo beneficiário

refere-se ao vínculo a planos de saúde, podendo existir mais de um vínculo para um mesmo indivíduo.

são fontes de informação importante para gestão da empresa, porém, na forma textual,

há uma tarefa árdua de leitura por parte dos analistas de apreender o conteúdo de cada

um.

A figura 3-1 mostra a tela principal do Fale Conosco da AMS, onde o usuário

poderá selecionar se deseja registrar ou consultar uma manifestação. Nota-se que o

registro e consultas das manifestações são realizados na Internet ou Intranet da empresa.

E na figura 3-2 são exibidos os campos do formulário para o registro da manifestação

do Fale Conosco.

Figura 3-1 – Tela principal do Fale Conosco

Figura 3-2 – Tela para registro da manifestação do Fale Conosco

Uma característica interessante é que, dada a quantidade de registros e de

analistas diferentes, as relações entre os textos, isto é, as associações entre os temas

descritos nos registros não são observadas. Essas informações implícitas, que existem

apenas no contexto da análise de vários documentos concomitantemente, não são

visualizadas por falta de ferramental apropriado.

Dessa forma, o trabalho manual de leitura de classificação, de envio de

mensagens aos gestores e de respostas aos usuários demanda tanto recursos humanos

quanto tempo e, assim, impacta diretamente na velocidade e na qualidade de

atendimento esperado pelo usuário.

Como mencionado, o trabalho é feito manualmente e, dado o seu volume, o

acúmulo é inevitável. Eventualmente, são executados mutirões de leitura com objetivo

de dar vazão às mensagens represadas e de compreender problemas específicos

apontados nos seus conteúdos.

Outra característica advinda da manipulação das informações por pessoas é que a

classificação das mensagens e o encaminhamento para destinatários corretos estão

correlacionados à experiência do profissional, isto é, a chance de erros aumenta

proporcionalmente a sua inabilidade em reconhecer o assunto das mensagens e vinculá-

las às áreas gestoras. Dessa forma, há que se fazer uma verificação rotineira para

reclassificar essas mensagens.

Os agrupamentos criados para categorizar os textos devem passar por revisões,

em consequência da dinâmica do fluxo de trabalho, com objetivo de identificar novas

categorias ou eliminar antigas que não mais se aplicam.

Considera-se que a informação contida nos documentos do Fale Conosco é

importante para a estratégia de atendimento e, uma vez estruturada, pode nortear a

gestão estratégica na definição de políticas para serviços da organização com o objetivo

de melhor atender à demanda do usuário.

3.2 Obtenção do arquivo de dados

Para a construção do modelo de mineração de textos é importante que se tenha

um conjunto de documentos pré-classificados nas diversas categorias temáticas do

domínio de interesse, neste contexto a base de dados do Fale Conosco.

Os usuários do Fale Conosco, dos Serviços de atendimento aos usuários de

assistência à saúde da Petrobras, utilizam a internet ou Intranet da empresa para

digitação do texto a ser realizada a comunicação com áreas representantes do Plano de

saúde. Estas informações são armazenadas em base de dados Lótus Notes, mas devido à

política de acesso da Segurança das Informações da Empresa, a obtenção dos dados se

deu através de planilhas em formato Excel.

A própria aplicação do Fale Conosco contém uma funcionalidade que exporta as

informações para planilhas Excel. As informações das planilhas utilizadas encontram-se

na seguinte estrutura:

• Ano: Ano da criação do registro;

• Número do Mês: Número que corresponde ao mês de criação do registro;

• Mês: mês da criação do registro;

• Dia: dia de criação do registro;

• Serviço: Tipo de serviço selecionado pelo solicitante (AMS, gestão da

Rede Credenciada, Beneficiário...);

• Assunto: Assunto da solicitação;

• Código: Chave numérica, única para cada solicitação;

• Tipo: Tipo da solicitação (dúvida, elogio, sugestão...);

• Origem: Origem da solicitação (Internet, correio interno...);

• Situação: situação da solicitação (aberta, encerrada...);

• Dias Executados: quantidade de dias que foram utilizados para solucionar

a solicitação;

• Gerência: Gerência do solicitante;

• Descrição: Transcrição textual da solicitação do usuário;

• Responsável: Solicitante responsável pela abertura da solicitação;

• Chave Solicitante: Chave interna da empresa, caso solicitante tenha aberto

a solicitação pelo correio interno;

Após entendimento sobre o significado dos campos, foi percebida a importância

de identificação de quais informações seriam úteis e necessárias para o estudo de caso a

ser realizado, portanto as seguintes informações foram consideradas:

• Ano: Ano da criação do registro;

• Número do Mês: Número que corresponde o mês de criação do registro;

• Mês: mês da criação do registro;

• Assunto: Assunto da solicitação;

• Origem: Origem da solicitação (Internet, correio interno...);

• Tipo: Tipo da solicitação (dúvida, elogio, sugestão...);

• Gerência: Gerência do solicitante;

• Descrição: Transcrição textual da solicitação do usuário.

Serão avaliados em torno de 26.000 registros da Base de Dados do Fale

Conosco, de um período de 1(um) ano (de março de 2008 a fevereiro de 2009). Os

exemplos ilustrados na tabela 3-1 mostram registros extraídos da base estudada.

Tabela 3-1 –Exemplos da Base de Dados

Ano Mês Assunto Origem Tipo Gerência Descrição

2008 12 Deze

mbro

Orientações

Normativas

sobre o

Programa

de AMS

E-MAIL SUGESTÃ

RSUD Nome: XxXXXXx

Chave: XXXX

Ramal: XXXXXXXXXXx

Lotação: XXXXXXXXXX

Mensagem: Caros amigos,

Sinto-me extremamente desgostoso

com o planos AMS Petrobras...Pois

moro na localidade da Vila da Penha,

no município do Rio de Janeiro e as 2

clinicas que são de confiança e mais

próximas de minha residência não

aceitam este referido plano (Clínica

Br Balbino e grande Rio). Como se

não bastasse, Meu médico deixou de

trabalhar para este plano, devido ao

valor de pagamento e demora no

mesmo. E a maioria das clínicas que

quero realizar algum tipo de

tratamento não aceitam e o que me

deixa mais triste e atônito é saber que

o plano da BR Distribuidora, uma

subsidiária desta empresa que

trabalho, é prontamente aceito por

todos... Gostaria realmente de saber

como faço para deixar de utilizar este

plano.

Obrigado.

2008 12 Deze

mbro

Caracteriza

ção de

Dependente

INTRAN

DÚVIDA/

CONSULT

RSUD Fale com a AMSUm contato foi

efetuado por um visitante do Portal.

Verifique abaixo os dados

recebidos.Nome: Fernando

Henrique Fernandes mat: 07 38628

Chave: XXXRamal:

XXXXXXXLotação:

XXXXXXXXXXXXXMensagem:

Gostaria de realizar a exclusão de um

de meus dependentes,devido

falecimento do mesmo

2008 12 Deze

mbro

Desconto

parcelas de

Grande

Risco ou

Plano

28/33

INTRAN

RECLAM

AÇÃO

RSUD 'Contato: XXXXXXXXXXX

Mat.: XXXXXXXx

Valores lançados no contracheque da

A.M.S. Grande Risco]

Em função de ter dado umas

discrepâncias nos valores cobrados e

lançados nos

contracheques referentes à A.M.S.

Grande Risco ,resolvi fazer uma

conferência,

coisa que nem me preocupava fazer, e

gostaria que fosse analizada por

vocês. Se

não me enganei em nunhum dado,

entre setembro de 2007 e outubro de

2008 foi me cobrado a importância de

R$4638,00 quando deveria ser

R$4062,06, conforme planilha

anexa.Não entendo o porquê desta

alteração mensal de cobrança se o

valor do grande risco é constante

todos os meses. Esta metodologia

dificulta a conferência, coisa que eu

não fazia e passarei a fazer pois me

parece que o sistema não está

confiavel. email-XXXXXXXXXX

3.3 Pré-processamento dos dados

Após a coleta dos dados, um passo essencial e que consome a maior parte do

tempo é a preparação dos dados. Este processo envolve várias tarefas, conforme descrito

no item 2.3.1.3. Além disso, esta etapa exige planejamento e processamento, pois

durante a transformação dos textos em formato estruturado existe a possibilidade de que

a informação intrínseca ao conteúdo dos textos seja perdida. Deve-se buscar, portanto,

uma boa apresentação minimizando a perda de informação.

Com os dados disponíveis foi inicializada a etapa de validação, exploração e

limpeza dos mesmos. Nesta etapa, um estudo exploratório dos dados foi realizado para

se detectar impurezas, valores absurdos, ruídos e buscar uma maior compreensão dos

dados que iriam ser tratados.

Primeira observação feita foi à verificação da confiabilidade dos dados obtidos,

porém os dados estavam preenchidos para as informações necessárias ao estudo, pois os

documentos com valores nulos foram desconsiderados. E os dados confiáveis,

apresentavam alguns valores absurdos, ruídos, que necessitavam de uma limpeza,

conforme exibido na figura 3-3.

Figura 3-3 – Exemplo de ruído na base de dados

Os ruídos mais evidentes eram apresentados nos registros cadastrados por e-mail

externos. Portanto, precisavam ser removidos para não interferir em efeitos negativos

que pudessem influenciar o resultado final. Então, precisou incluir mais um passo no

processamento dos dados para eliminação dos ruídos.

O processo de preparação constitui-se da estruturação dos dados e se deu

basicamente nos seguintes passos:

O primeiro passo: Retirada de registros duplicados, onde foi verificado que 87

registros eram supostamente duplicados, entretanto, eliminá-los prontamente pode

retirar informação importante. Diante disto, verificou-se registro a registro e

constataram-se algumas duplicações que foram eliminadas. Os registros apresentados na

tabela 3-2 indicam uma duplicação, pois o único campo diferente é o código do registro,

mas a manifestação é igual.

Tabela 3-2 –Exemplos de duplicação de Registro

Código

Ano

Mês Tipo Origem

Gerên-

cia Descrição

11170

2008

Sete

mbro

RECLA

MAÇÃO

E-MAIL SAMS

faleams contato foi efetuado visitante

Portal Verifique abaixo dados recebidos

Nome e Ramal Lotação Mensagem

Senhores AMS,O acho mais

interessante é sequer descrição

reclamação foi registrada conforme

relato comer fiquei hospital sexta noite

domingo tarde não apenas dia foi

colocado hospital disse ficaria ali

momento não havia apartamento vago

nenhum momento fui informado

procedimentos executados estariam ...

11173

2008

Sete

mbro

RECLA

MAÇÃO

E-MAIL SAMS

faleams contato foi efetuado visitante

Portal Verifique abaixo dados recebidos

Nome e Ramal Lotação Mensagem

Senhores AMS,O acho mais

interessante é sequer descrição

reclamação foi registrada conforme

relato comer fiquei hospital sexta noite

domingo tarde não apenas dia foi

colocado hospital disse ficaria ali

momento não havia apartamento vago

nenhum momento fui informado

procedimentos executados estariam ...

O segundo passo: O campo Descrição, que contém a transcrição textual das

informações relevantes dos usuários do Fale Conosco, apresenta alguns caracteres

inválidos, não reconhecidos, que provocarão erros durante o processamento das

informações, conforme figura 3-4. Foi necessário, então, um amplo pré-processamento

nos textos utilizados, para o tratamento dos dados, em que foram retirados os caracteres

inválidos.

Figura 3-4 - Exemplos de texto original com caracteres inválidos

No terceiro passo: Retiraram-se os sinais de pontuação (“, “ “-“ ”.” “!” “/”), que

são indesejados dentro de uma análise. Como também, retiraram-se os caracteres

matemáticos, como “%”, “+”, “<”, o caractere monetário ($) e os caracteres de

formatação (caractere de tabulação, newlines, etc).

No quarto passo: A extração de termos é executada automaticamente e

normalmente o espaço em branco entre as palavras é o indicador para dividir o texto em

termos. Então, para a retirada dos números, primeiramente foi necessário analisar a base

de dados para verificar os números de grande valia, como por exemplo, 2via, 10mg,

20mg, etc. Onde foi realizada uma junção dos números com a palavra relevante. E

somente após esta verificação, foram excluídos os números sem nenhuma importância.

Para o quinto passo: Como se deve ter o cuidado de não separar palavras

compostas, como por exemplo, “mineração de textos” e por isso faz-se necessário a

execução de testes para verificar e validar a co-ocorrência entre termos. Na base de

dados estudada alguns termos precisaram ser considerados como Raio-X, infra-

estrutura, faleams, belo horizonte, ex-esposa, buço-maxilo-facial, pre-operatorio, recem-

nascido, entre outras. Conforme pode ser observado no exemplo “faleams”, alguns

termos foram juntados para que pudessem melhor ser considerados, e não confundidos

com outros termos semelhantes, como “ams".

No sexto passo: Foi definida a stoplist a ser utilizada, foi feita a opção de se criar

uma lista manualmente para que pudessem ser retirados os termos sem importância, isto

é, a lista foi criada a partir da freqüência de aparição das palavras, mas também foi

validada por um especialista no domínio do assunto.

Foi necessário acrescentar alguns termos em inglês na lista de stopwords, devido

aos ruídos encontrados em algumas solicitações com a origem mensagens externas. E

conforme validado pelo especialista no domínio do assunto, não recebem solicitações

em inglês, somente na Língua Portuguesa. Os termos em inglês incluídos na lista de

stopwords são: Live, Search, Maps, entre outros.

A lista com alguns termos utilizados e composta por preposições, conjunções e

artigos, é apresentada na tabela 3-3.

Tabela 3-3 – Stoplist utilizado no estudo de caso

agora

ainda

além

alguém

algum

alguma

algumas

alguns

ampla

amplas

amplo

amplos

ante

antes

aos

após

aquela

aquelas

aquele

aqueles

aquilo

ate

até

através

cada

daquele

day

coisa

coisas

com

como

contra

contudo

daqueles

das

dela

delas

dele

deles

depois

dessa

dessas

desse

desses

desta

destas

deste

destes

disso

disto

dito

dos

ela

elas

ele

eles

essas

enquanto

entre

entretanto

era

essa

esse

esses

esta

este

estes

estou

grande

grandes

há

information

isso

isto

já

lá

lhe

lhes

live

maps

mas

mesma

mesmas

mesmo

mesmos

meu

meus

mim

minha

minhas

monday

msn

muita

muitas

muito

muitos

não

nas

nem

nenhum

nessa

nessas

nesta

nestas

new

ninguém

nos

nós

nossa

nossas

nosso

nossos

num

numa

nunca

onde

outra

outras

outro

outros

para

pela

pelas

pelo

pelos

pequena

pequenas

pequeno

pequenos

per

perante

pois

por

porém

porque

posso

pouca

poucas

pouco

poucos

pra

primeiro

primeiros

própria

próprias

próprio

próprios

quais

qual

quando

quanto

quantos

que

quem

ramal

são

seja

sejam

sem

sempre

sendo

seu

seus

sido

só

sob

sobre

sua

suas

talvez

também

tampouco

tem

teu

teus

the

time

times

toda

todas

todavia

todo

todos

tua

tuas

tudo

última

últimas

último

últimos

uma

umas

uns

vendo

ver

vez

vindo

vir

vos

vós

with

york

Essa fase tem como objetivo remover stopwords. A remoção de stopwords foi

realizada de modo automático. Primeiramente, criou-se uma estrutura de dados do tipo

lista contendo todas as palavras que poderiam ser removidas. Posteriormente, aplicou-se

um algoritmo cujo objetivo foi realizar uma pesquisa no arquivo e remover as palavras

que fossem iguais a alguma presente na stoplist.

No sétimo passo: Para a remoção das abreviaturas existente na descrição da

manifestação, foi necessário analisar se alguma abreviatura presente era relevante ao

contexto, como as abreviaturas “rx” de raio x e “ato” de autorização prévia de

procedimentos odontológicos

. Logo, as abreviaturas rx e ato não puderam ser eliminadas,

sendo desconsideradas nos passos adiante, de lematização. Mas, as demais abreviaturas,

qd, re, vc, Sr., Sra, podem ser removidas do documento. Assim como, as abreviaturas da

lotação dos usuários, rsud, rbc, etc também foram desconsideradas.

No oitavo passo: Realização da remoção dos nomes próprios, feita com a

utilização de um dicionário de nomes próprios, pois não se objetiva identificar ninguém

e, portanto, esses termos somente aumentariam o tempo de processamento e não

agregariam valor ao trabalho. Similar ao processo de stoplist, foi criada uma lista com

os nomes próprios, como por exemplo, Erica, Jussara, Marcus, Flavia, Joel, Mendonca,

Jacy, Odete, etc. Após criada a lista de nomes próprios, foi aplicado um algoritmo para

realizar a pesquisa no arquivo e remover os nomes próprios iguais a algum presente na

lista.

No nono passo: Para o especialista do domínio do assunto os endereços de e-

mails eram palavras irrelevantes ao estudo, portanto foi feito um processo para a

retirada destes endereços existentes nas manifestações. Para a eliminação dos endereços

de e-mails foi criado um algoritmo onde o token que contivesse o caractere @, o token

inteiro era eliminado.

A lematização foi feita após o processamento dos dados na ferramenta de

mineração de textos, devido à ferramenta a ser utilizada possuir este recurso.

Após todos estes passos, o texto se apresenta com palavras mais ricas a serem

estudadas. A figura 3-5 mostra o exemplo do texto apresentado na figura 3-4 após o pré-

processamento dos dados.

Figura 3-5 - Exemplos de texto após etapa de pré-processamento

3.4 Mineração

3.4.1 O programa SAS

A ferramenta utilizada para a descoberta de regras na base de dados de utilização

do estudo de caso foi do Instituto SAS (Statistical Analsys System – SAS Institute inc.).

O Instituto SAS utiliza software analítico para ajudar aos clientes a transformarem

dados em conhecimento. (INSTITUTO SAS, 2009)

As ferramentas utilizadas para o processo foram o Enterprise Guide e o

Enterprise Miner, este último é necessário para a utilização do módulo Text Miner.

O Enterprise Guide é uma ferramenta OLAP para Windows, orientado por

projetos, e que possibilita acesso rápido a uma grande parte da potencialidade analítica

do instituto SAS para estatísticos, analistas de negócios e programadores SAS. O

programa suporta leitura de textos em vários formatos como por exemplo, Word,

HTML, pdf, txt, Excel, Access, entre outros. (INSTITUTO SAS, 2009)

O Enterprise Miner, software de Data Mining, inclui uma diversidade de

componentes, para seleção, exploração, modificação, modelação e avaliação de dados

permitindo uma forma fácil e rápida de obter conhecimento. Estes componentes são

integrados capacitando os utilizadores a tirarem proveito dos dados corporativos para

obter vantagem estratégica, tudo num único ambiente. As suas ferramentas de

visualização permitem uma análise rápida e fácil dos dados e resultados obtidos.

Gostaria receber esclarecimentos cobertura plano procedimentos implantes dispositivos intra-

uterinos grato

FaleAMS contato foi efetuado visitante Portal Verifique dados recebidos Nome XX Chave XX Ramal

Lotação Mensagem Boa tarde Gostaria saber AMS cobre cirurgia parto cesariana caso positivo

considerado grande pequeno risco percentagem participação empregado Aguardo retorno rápido

possível

O módulo Text Miner é o produto do instituto SAS para Text mining. Este

módulo disponibiliza ferramentas para descobrir e extrair informação de uma grande

variedade de documentos de texto numa coleção. O Text Miner descobre os temas e

conceitos que estão contidos na coleção. Estabelece conexões entre documentos e

termos de na coleção como um todo.

O Text miner permite descobrir e usar a informação que existe num conjunto de

documentos como um todo. Podem-se processar volumes de dados textuais como

mensagens de e-mail, artigos de notícias, páginas da Web e documentos de pesquisa, até

mesmo se eles são armazenados em diferentes idiomas ou formatos de dados. Ele

transforma os dados em texto em um formato utilizável que facilita a classificação dos

documentos, encontrando relações explícitas ou associações entre documentos, e

agrupamento de documentos em categorias. (INSTITUTO SAS, 2009)

O Text mining começa com a criação de um conjunto e dados de input para o

módulo de Text Miner. O módulo processa dados em três fases: parsing do texto,

transformação, e clustering de documentos. O parsing do texto processa dados textuais

numa matriz de frequência de termo-documento que é adequada para propósitos de data

mining. Uma coleção de documentos pode conter centenas de milhares de condições. A

matriz de frequência resultante pode ser muito grande. O clustering no módulo Text

Miner coloca documentos em grupos pequenos ou clusters. Objetos num determinado

agrupamento tendem a ser semelhantes entre si em algum aspecto, e objetos em

agrupamentos diferentes tendem a ser dessemelhantes. A figura 3-6 apresenta a tela

interativa do Text Miner. (INSTITUTO SAS, 2009)

Figura 3-6 – Tela interativa do Text Miner

3.4.2 Lematização

Após carregar o arquivo pelo Enterprise Guide e processar os dados no Text

Miner, foi feita a lematização, a diminuição da quantidade de termos que alimentam o

minerador de textos. Um dos recursos lingüísticos disponíveis na ferramenta é a redução

das palavras ao Lema.

Foram lematizados em torno 6.750 termos. Observou-se que 50% dos termos

lematizados possuem apenas 2 formas, exemplo, “o” e “os” foram substituídos por “o”.

Ainda que 90% dos casos, os termos possuem até 8 variantes. A tabela 3-4 mostra o

resumo da lematização.

Tabela 3-4 – Estatísticas dos Termos Lematizados

N 50% 90% Máximo

~2000

2 8 43

De acordo com os números apresentados, observa-se que a quantidade de lemas

é de aproximadamente 2.000, o que significa uma redução de 70%, 4.725 termos, o que

indica um vocabulário simples. O número máximo de termos encontrados foi 43, esse

número parece indicar um erro. Entretanto, verificando o arquivo mais detidamente,

conforme tabela 3-5, trata-se de um verbo comum neste tipo de texto.

Tabela 3-5 – Termo com maior quantidade de variantes

Termo Termo Termo Termo

1 informando-os 12

informou-se 23

informou-a 34 informava

2 Informa 13

informá-los 24

informa-lo 35 informados

3 informara 14

informa-o 25

informarão 36 informe

4 informas 15

informando-a 26

informo 37 informam

5 Informo-a 16

informando-o 27

informavam 38 informaram

6 Informo-o 17

informarei 28

informa-la 39 informar

7 informou-me 18

informassem 29

informadas 40 informando

8 informou-os 19

informei 30

informarem 41 informou

9 informou-se 20

informa-lhe 31

informasse 42 informada

Informá-los 21

informem 32

informá-lo 43 informado

Informa-os 22

informes

informá-la

Todas as variantes da tabela 3-4 foram computadas como “informar”, logo a

palavra passa a receber um peso maior segundo sua frequência. Observa-se que a

palavra “informes” pode tanto se referir a 2ª pessoa do singular do subjuntivo informes

quanto ao substantivo plural “informes”. Essa ocorrência foi observada mais constatou-

se que se tratava do substantivo. Outras variantes de termos são apresentadas na tabela

3-6.

Tabela 3-6 – Variantes de Termos

aguardar solicita Médico

aguardamos solicitação Médica

aguarda Solicitada

aguardando Solicitado

aguardo Solicitamos

aguardasse Solicitando

aguardei Solicita-nos

aguardam Solicitar

Solicitei

Solicito

solicitou

3.4.3 Exploração dos Termos

Termos que se repetem em todos os documentos são poucos informativos para o

objetivo de criar agrupamentos, pois não discriminam um documento de outro. Termos

com peso baixo também são candidatos à eliminação. Dessa forma pesos menores que

0,10 foram eliminados. Foi necessário proceder à eliminação de palavras que não foram

eliminadas automaticamente no pré-processamento, como por exemplo, nomes de

pessoas. Outro ponto foi unificar palavras escritas de forma errada, por exemplo,

“urgente” e “urgênte”. Alguns destes erros não foram identificados automaticamente e o

trabalho teve que ser manual.

Outra ferramenta que auxiliou para a desconsideração de alguns termos foi o

gráfico da figura 3-7 que apresenta o histograma dos atributos por frequência. Onde o

tipo de atributo Unknown considera os atributos com caracteres especiais, como por

exemplo, o termo infra-estrutura e rh/mas; o tipo Abbr são os termos abreviados, como

por exemplo hosp – abreviatura de hospital; tipo Num, são termos que possuem

caracteres numéricos como o termo 2ºvia; e o tipo punct são os termos com pontuação

como &. Como já era esperado, o tipo alpha seria o tipo de maior frequência, mas o

gráfico foi útil para indicar que mesmo após pré-processamento, a base ainda possuía

termos indesejados, como os tipos punct e abbr que foram desconsiderados.

Figura 3-7 – Histograma de atributos por frequência

Outro passo para exploração dos termos com pouca capacidade de discriminação

é a elaboração de agrupamentos e a verificação de suas palavras relevantes. A tarefa de

criação dos grupos de documentos está representada na figura 3-8 que indica os passos

seguidos.

Figura 3-8 Agrupamento de Documentos

O passo da preparação dos dados foi descrito na seção anterior e consiste na

adequação da informação textual para o formato requerido pelo algoritmo de

agrupamento. Essa etapa ocupa-se em rotular cada um dos documentos do corpus

baseado no exame de seus termos e, dessa maneira, reuni-los em grupos menores que

deverão conter documentos similares. A idéia é maximizar tanto a similaridade entre os

documentos dentro do grupo, quanto à diferença entre eles de grupo para grupo.

A criação de grupos é um processo matemático que calcula a distância entre os

documentos devidamente transformados em vetores numéricos. Portanto, os grupos

criados carecem de significado, isto é, devem-se analisar cada um dos grupos para

verificar o significado implícito dos documentos que contém e, assim, atribuir rótulos

aos grupos para organização e identificação do assunto de cada um deles. Essa fase

conta com o apoio do especialista de domínio do assunto para identificação do tema de

cada grupo. A figura 3-7 mostra exemplos de agrupamentos gerados pela ferramenta.

Tabela 3-7 – Exemplos de agrupamentos para depuração da base

Agrupamento 1 Agrupamento 2

demonstrativo pagamento

imposto + beneficiário

+ informar + receber

CNPJ procedimento

CPF guia

2via + enviar

renda total

Os termos da tabela 3-7 são os termos que descrevem os agrupamentos, isto

significa que esses termos são mais prováveis de ocorrer em um agrupamento e não

necessariamente que ocorram em todos os documentos dentro de um agrupamento.

É importante relacionar o tipo de melhoramento que o processo de automação

pode trazer, ou seja, uma das reclamações mencionadas pelos analistas foi a

ambiguidade de grupos que foram criados e nesta análise chegou-se à conclusão que

dois ou mais grupos podiam ser unificados diante da constatação da similaridade entre

seus documentos.

4. Resultados

Um dos principais objetivos da mineração são a quantificação e caracterização

de seu objeto de estudo. Com o levantamento dos números intrínsecos à base de dados

textuais pode-se compreender a sua abrangência e iniciar a construção de inferências

que antes estavam ocultas na forma de texto.

Nesta fase, o apoio de especialistas de domínio foi fundamental para que se

pudessem traduzir os resultados obtidos em informações que fossem de interesse do

gestor do sistema.

Segundo a opinião dos especialistas, esse tipo de informação deve estar tão

atualizada quanto possível, pois se tratam de problemas pontuais apontados pelos

clientes que encontram dificuldades ou insatisfação em relação a produtos ou serviços

da empresa naquela data específica. Esse apontamento pode variar com o passar do

tempo.

A análise dos resultados foi realizada à medida que o estudo foi evoluindo e está

dividida em duas etapas chamadas respectivamente de primeira e segunda análise, sendo

que a primeira é uma análise estatísticas básicas da base de dados, e a segunda uma

análise dos agrupamentos extraídos da base de conhecimento.

4.1 Estatísticas básicas da base de dados das manifestações

De posse de dados e ferramentas apropriadas para o desenvolvimento do projeto,

foram realizadas as tarefas descritas na metodologia. Então, inicia-se a descrição

observando a distribuição dos registros em relação ao tempo. A tabela 4-1 representa a

distribuição das ocorrências.

Tabela 4-1 – Distribuição Mensal das Ocorrências

Mês Frequência % Frequência

Acumulada

Março 4.240

16,27

4.240

16,27

Abril 2.136

8,20

6.376

24,47

Maio 1.732

6,65

8.108

31,12

Junho 2.021

7,76

10.129

38,87

Julho 2.039

7,83

12.168

46,70

Agosto 2.942

11,29

15.110

57,99

Setembro 2.336

8,96

17.446

66,95

Outubro 2.176

8,35

19.622

75,30

Novembro 1.685

6,47

21.307

81,77

Dezembro 1.443

5,54

22.750

87,31

Janeiro 1.803

6,92

24.553

94,23

Fevereiro 1.504

5,77

26.057

100,00

De acordo com a tabela 4-1, existem 26.057 registros no período de 12 meses,

com uma média de 2.171 registros mensais. Nota-se que o mês de março possui um

altíssimo índice de manifestações. Mas, o mês de agosto também possui uma evidência

em relação aos demais meses. Isso indica que quando ocorrem fatos que influenciam o

atendimento, os clientes (credenciados e beneficiários) utilizam o canal de atendimento

do fale conosco para manifestar sua opinião. A figura 4-1 mostra um gráfico que

destaca essa tendência da utilização do fale conosco de maneira mais clara:

500

1000

1500

2000

2500

3000

3500

4000

4500

rço

Abr

Mai

Jun

lho

gos

Set

Out

vembro

Dezem

nei

Fever

iro

Figura 4-1 – Histograma com a distribuição Mensal das Ocorrências

Continuando com a delimitação do escopo do projeto, descobrir o que incomoda

o cliente é uma meta pretendida por qualquer empresa que se preocupa com a satisfação

de seus clientes. Para tanto, parece óbvio que concentrar os esforços de estudo na

reclamação feita pelo cliente é algo natural. Mas, neste caso as solicitações de serviços

são de suma importância, conforme figura 4-2.

0,15%

19,87%

33,59%

39,95%

6,17%

0,26%

0,02%

AGRADECIMENTO

DÚVIDA/CONSULTA

ELOGIO

GRANDES DIVULGAÇÕES

RECLAMAÇÃO

SOLICITAÇÃO DE SERVIÇO

SUGESTÃO

Figura 4-2 – Percentual de manifestações por tipo

Um outro ponto interessante é identificar o canal que concentra a entrada de

dados. Entretanto, como este não possui uma padronização correta fica difícil realizar

este reconhecimento com precisão. Observa-se na figura 4-3, que com a padronização

existente a preferência do cliente ao utilizar o Fale Conosco é o correio interno, mas o

correio interno incorpora as manifestações por telefone efetuadas pelo Call Center e as

manifestações transcritas pelos próprios usuários no próprio site da Intranet da empresa.

Nota-se que é de grande valia uma categorização da origem das manifestações.

16%

84%

E-MAIL (Internet)

CORREIO INTERNO

Figura 4-3 – Percentual de manifestações por origem

Outra análise realizada foi a quantificação das manifestações por gerência, como

podemos observar na tabela 4-2, a gerência RSUD é a gerência que mais recebe

manifestações, devido a sua abrangência geográfica de atendimento, o que já era

esperado. E a figura 4-4 mostra graficamente o percentual de manifestações por

gerência.

Tabela 4-2 – Distribuição das Manifestações por Gerência

Gerência

Quantidade

manifestações

RBC 1.233

4,71%

RNNE 5.726

21,89%

RSPS 8.049

30,77

RSUD 11.149

42,62%

TOTAL 26.057

100%

42,6%

4,7%

21,9%

30,8%

RSUD

RBC

RNNE

RSPS

Figura 4-4 – Percentual de manifestações por gerência

4.2 Análise dos agrupamentos

Dado que o trabalho de depuração da base se encontrava em um nível

satisfatório, realizou-se o agrupamento da coleção com o objetivo de alocar os

documentos semelhantes em grupos. O objetivo é maximizar a diferença entre os grupos

e minimizar a diferença internamente.

0,00%0,00%0,00%0,00%0,01%0,01%0,03%0,05%0,06%0,06%0,06%0,09%0,10%0,11%0,15%0,15%0,19%0,20%0,24%0,25%0,27%0,28%

0,32%0,38%0,43%

0,45%

0,49%

0,53%

0,54%

0,54%0,54%

0,55%

0,56%

0,58%

0,59%

0,60%

0,62%

0,64%

0,69%

0,70%

0,75%

1,23%

1,28%

1,29%

1,71%

2,14%

2,91%

2,94%

3,19%

3,56%

3,93%

3,97%

4,38%

4,53%

6,48%

7,14%

8,06%

13,07%

13,69%

Figura 4-5 – Distribuição dos agrupamentos

A partir dessa base pré-limpa, foram gerados 63 agrupamentos que auxiliam a

visualização dos termos relevantes, conforme figura 4-5 que exibe a distribuição destes

grupos. Os agrupamentos encontrados foram analisados por um especialista do assunto

que utilizou as medidas de peso e frequência para seleção dos grupos, conforme pode

ser observado no gráfico da figura 4-6. Onde são atribuídos pesos maiores para

elementos menos freqüentes.

Figura 4-6 – Distribuição do Peso por frequência

E o gráfico 4-7 exibe a distribuição da quantidade de documentos por frequência,

onde nota-se que a maioria dos termos encontra-se restrito a poucos documentos, e

poucos termos disseminados em um número grande de documentos, conforme gráfico

da figura 4-7. Ou seja, os termos estão próximos a uma diagonal principal, o que

representa a não ocorrência de ruídos.

Se ocorressem termos com freqüências altas em poucos documentos ou

freqüências baixas em muitos documentos poderiam representar potenciais candidatos a

stoplist. Portanto, concluímos que não existem ruídos nos dados processados.

Cada ponto representa o termo, mostrando que existe uma grande concentração

de termos (eixo vertical) com frequências similares. Esta hipótese pode ser confirmada

no histograma de número de documentos por frequência exibido na figura 4-8.

Figura 4-7 – Distribuição da quantidade de documentos por frequência

Figura 4-8 – Histograma de Número de Documentos por frequência

Foram considerados válidos os grupos com frequência superior a 0,075,

indicando a maior ocorrência. Com essa configuração encontrou-se 19 grupos. O

especialista do assunto optou por analisar somente estes grupos, devido aos outros

grupos apresentarem uma menor ocorrência nas manifestações analisadas e por serem

assuntos menos relevantes a serem tratados. Como por exemplo, os assuntos tipos

exames cobertos pelo plano e empréstimos. Para os tipos de exames cobertos devem ser

analisados conforme a necessidade do beneficiário. E para o assunto empréstimos, são

abertas manifestações equivocadamente.

A seleção de termos foi baseada na filtragem baseada no Peso do Termo. Mas a

análise de resultados foi feita considerando as taxas de frequência e número de

documentos em que os termos aparecem.

O resumo da execução dos termos foi:

Tabela 4-3 – Resumo de execução

Índice Mínimo Máximo

Frequência 2 9350

Peso 0,107 0,978

Número de documentos 2 10875

A tabela 4-4 exibe exemplos dos termos com os índices: frequência, número de

documentos e peso. O que auxilia na análise dos termos encontrados em cada

agrupamento gerado.

Tabela 4-4 – Exemplos dos termos com os índices

Term Attribute

Freq numdocs

weight

Contato Alpha 9350

8590

0.9447

ams Alpha 9263

6627

0.9447

Solicitar Alpha 8522

7961

0.93183

Valor Alpha 5880

3448

0.89775

Dia Alpha 5256

3862

0.89775

Senha Alpha 4923

3585

0.89775

credenciado Alpha 4723

4162

0.89775

Informar Alpha 4461

3849

0.89775

Enviar Alpha 4206

3892

0.89775

Guia Alpha 4042

3318

0.89775

Nome Alpha 3958

3616

0.89775

pagamento Alpha 3885

2900

0.86366

Referente Alpha 3847

3441

0.86366

Manifestar Alpha 3736

1816

0.86366

Atender Alpha 3469

1962

0.86366

Dados Alpha 3463

3248

0.86366

Saber Alpha 3213

2976

0.86366

Mês Alpha 3120

2472

0.86366

procedimento Alpha 3107

2107

0.86366

Efetuar Alpha 3034

2986

0.86366

Gostaria Alpha 2954

2650

0.86366

Verificar Alpha 2929

2911

0.86366

Figura 4-9 – Links do Termo Credenciado

Figura 4-10 – Links do termo Descontar

Outra importante fonte de auxílio para a análise do especialista é a apresentação

dos links dos termos gerados automaticamente pela ferramenta. Exemplos de links dos

termos credenciados e descontar são exibidos respectivamente nas figuras 4-9 e 4-10.

Nesta visualização podem ser observadas as relevâncias dos termos vinculados.

Tabela 4-5 – Agrupamentos

grupo 1 grupo 2 grupo 3 grupo 4 Grupo 5

demonstrativo pagamento + credenciado + beneficiario + aposentado

Imposto + beneficiario + solicitar + informar + solicitar

+ informar + receber Guia medicamento demonstrativo

CNPJ procedimento Contato + incluir + despesa

CPF guia + imprimir contato ams

2via + enviar mes

Renda total

grupo 6 grupo 7 grupo 8 grupo 9 Grupo 10

contracheque + credenciado + fatura + descontar + credenciado

+ descontar + acessar + enviar + indevido + faturar

+ amortizar Internet + informar grande guia

+ contribuir + rendimento + entregar risco + pagar

+ indevido fisica pagamento internacao extrato

consignavel + faturar Meio contracheque contato

Útil + fatura + credenciado referente cnpj

Debito CPF + ocorrer

+ devedor CNPJ

+ entregar

grupo 11 grupo 12 grupo 13 grupo 14 Grupo 15

+ reclamar inativo pagamento guia pagamento

operacional + beneficiario + efetuar tiss + efetuar

+ aplicar codigo + verificar erro glosa

Glosa sistema matricula + enviar contato

pagamento cronograma contato + solicitar

grupo 16 grupo 17 grupo 18 grupo 19

documento preco Contato + servico

+ credenciar + credenciado Mas hospital

+ analisar + procedimento + insatisfeito contato

Contato + solicitar + morar + informar

resposta + servico + solicitar

A tabela 4-5 apresenta os agrupamentos estudados juntamente com o especialista

do assunto. Para cada agrupamento tenta-se identificar o assunto pelas palavras

descritoras e, caso necessário, verifica-se o conteúdo de mensagens alocadas para o

agrupamento em questão visando assegurar o entendimento do tema que os textos

abordam. Como também, foram propostas sugestões de solução para minimizar a

ocorrência das manifestações.

A seguir serão apresentados a análise dos agrupamentos obedecendo a sequência

crescente por percentual.

Grupo 1: Credenciado solicita 2ª via do informe do imposto de renda. Esta solicitação

de serviço teve grande incidência no mês de março. Conforme podemos observar na

figura 4-1, esta solicitação causou um grande aumento de manifestações. Exemplos das

manifestações referentes à solicitação em questão podem ser visualizados na tabela 4-6.

Oportunidade de melhoria do grupo 1: Disponibilizar o informe do imposto de renda no

site AMS.

Tabela 4-6 – Manifestações relacionadas ao grupo 1

Mês Manifestação

Março

CREDENCIADO CNPJ XXXXXXXXXXX HOSPITAL XXXXXXXXXX

SOLICITA DEMONSTRATIVO RECEBIMENTOS DECLARAÇÃO IMPOSTO

RENDA REFERENTE EXERCÍCIO XXXX.

Março

CREDENCIADO XXXXXXXXXXXXXX CPF XXXXXXXXXX SOLICITA

INFORME RENDIMENTOS REFERENTE ANO XXXX DECLARAÇÃO IMPOSTO

RENDA CONTATO APARECIDA

Grupo 2: Refere-se a manifestações de beneficiários solicitando esclarecimentos sobre o

valor total descontado do seu pagamento relacionado aos procedimentos realizados,

exemplos de manifestações relacionadas ao grupo 2 na tabela 4-7.

Oportunidade de melhoria do grupo 2: Disponibilização de demonstrativo de

beneficiários mais detalhado, com as informações de cada procedimento descontado,

não informando somente o total a ser descontado.

Tabela 4-7 – Manifestações relacionadas ao grupo 2

Descontos AMS

Solicito informação sobre os descontos no total de R$ 249,89, referentes à AMS efetuados no contracheque

do mês de outubro e relativos a setembro, já que no contracheque de setembro fora efetuado débito de R$

320,88 sob o mesmo título. Também não entendo o débito de R$ 306,60 no contracheque do mês de outubro,

lançado sob o título DIF DEB UTIL PL 28 S MED.

Grato, XXXX

mat.: XXXXX

Fale com a MAS

Um contato foi efetuado por um visitante do Portal. Verifique abaixo os dados

recebidos.

Nome: XXXXXXXXX

Ramal: ROTA - XXXXXXXXX

Lotação: XXXXXXXX

No meu extrato da AMS do mês de maio/08 consta o TOTAL de desconto de

R$ 230,98. Entretanto no meu conta-cheque do mesmo mês de maio/08 consta um

desconto de R$ 448,62 referente à ASSISTÊNCIA SUPL MÉDICA.

Solicito verificar a possibilidade de estorno de eventual diferença.

Grato,

XXXX - Matr.: XXXXXXXX

Grupo 3: Refere-se a manifestações de credenciado solicitando guia TISS impressa para

atendimento. Estas manifestações tiveram evidência nos meses de novembro e

dezembro/2008.

Oportunidade de melhoria do grupo 3: Disponibilização de modelo das guias TISS no

site da AMS.

Grupo 4: Refere-se a manifestações de beneficiários solicitando inclusão de

medicamentos no programa de benefício farmácia.

Oportunidade de melhoria do grupo 4: Revisão da lista de medicamentos do programa

de benefício farmácia.

Grupo 5: Refere-se a manifestações de beneficiários aposentados solicitando extrato de

demonstrativo de despesas AMS, uma vez que não recebeu o extrato pelos correios.

Oportunidade de melhoria do grupo 5: Disponibilização de demonstrativo detalhado no

site da AMS.

Grupo 6: Refere-se a reclamação de beneficiários a descontos indevidos no contra

cheque relacionados a procedimentos da AMS, o qual desejam esclarecimentos sobre os

valores de descontos dos procedimentos com a margem consignável.

Oportunidade de melhoria do grupo 6: Disponibilizar no site da AMS os valores de cada

procedimentos (tabela de pequeno e grande risco) relacionado com cada margem

consignável.

Grupo 7: Credenciado solicita senha ou alteração de senha para acessar o site da AMS.

Manifestações evidentes nos meses de outubro e novembro de 2008.

Oportunidade de melhoria do grupo 7: Disponibilizar no site que o próprio credenciado

realize a troca da senha.

Grupo 8: Credenciado informa que enviou eletronicamente as faturas AMS e entregou

as faturas físicas (papel) no protocolo da Petrobras, mas não obteve o pagamento.

Oportunidade de melhoria do grupo 8: Disponibilizar no site da AMS o status de

andamento das faturas entregues (fatura recebida, fatura em análise, fatura liberada e

fatura paga).

Grupo 9: Refere-se a reclamação de beneficiários a descontos indevidos no contra

cheque de exames de grande risco relacionados a procedimentos realizados pela AMS.

Oportunidade de melhoria do grupo 9: Disponibilizar no site um demonstrativo mais

detalhado com os descontos de cada procedimento realizada, assim como disponibilizar

no site a tabela dos procedimentos de grande e pequeno risco.

Grupo 10: Credenciado solicita informações das guias que ainda não foram pagas e não

constam no extrato de credenciados, e se existe previsão de pagamento e motivo da

demora.

Oportunidade de melhoria do grupo 10: Disponibilizar no site da AMS o status de

andamento das faturas entregues (fatura recebida, fatura em análise, fatura liberada e

fatura paga), o qual o próprio credenciado possa acompanhar o pagamento das suas

faturas.

Grupo 11: Reclamação de credenciado referente a glosas indevidas de procedimentos,

solicitando revisão do pagamento das guias glosadas.

Oportunidade de melhoria do grupo 11: Disponibilizar no site da AMS valores pagos

por cada procedimento ao credenciado.

Grupo 12: Beneficiário reclama que ainda não recebeu reembolso de guias, e foi

informado que consta no sistema como guia com código inativo, solicita previsão de

pagamento.

Oportunidade de melhoria do grupo 12: Disponibilizar no site da AMS consulta ao

status das guias que solicitou reembolso, e caso apresente problemas informar o motivo.

Grupo 13: Credenciado solicita envio de documento com o novo cronograma do envio

das faturas, para que as faturas possam ser enviadas nas datas corretas.

Oportunidade de melhoria do grupo 13: Disponibilizar no site da AMS o cronograma de

envio das faturas para os credenciados.

Grupo 14: Credenciado informa que tentou enviar eletronicamente as faturas das guias

TISS, mas apresentou erro no envio.

Oportunidade de melhoria do grupo 14: Informar aos credenciados com detalhes o erro

ocorrido no momento do envio das faturas.

Grupo 15: Credenciado solicita status da reapresentação dos pagamentos glosados.

Oportunidade de melhoria do grupo 15: Disponibilizar no site da AMS o status de

andamento dos pagamentos (fatura recebida, fatura em análise, fatura liberada e fatura

paga), o qual o próprio credenciado possa acompanhar o pagamento das suas faturas.

Grupo 16: Solicitação de avaliação do credenciamento.

Oportunidade de melhoria do grupo 16: Disponibilizar no site da AMS informações

sobre novos credenciamentos.

Grupo 17: Solicitação de tabela de preços.

Oportunidade de melhoria do grupo 17: Disponibilizar no site para cada credenciado a

tabela de precificação dos serviços.

Grupo 18: Reclamação dos beneficiários de não possuir credenciado próximo ao local

onde mora.

Oportunidade de melhoria do grupo 18: Melhor avaliação dos credenciados da AMS.

Grupo 19: Reclamação dos serviços prestados pelos hospitais credenciados.

Oportunidade de melhoria do grupo 19: Avaliar e auditar os serviços prestados pelos

credenciados.

5. Conclusão

Considerando que a tomada de decisão é um processo de investigação, reflexão e

análise, justifica-se a necessidade da alta administração obter informação qualitativa que

contenha elevado valor agregado.

O trabalho desenvolvido aborda o tema de tratamento automático da informação

textual que objetiva a menor intervenção humana possível. O objetivo deste projeto foi

o de explorar a área de Text Mining. Sendo descritos os seus objetivos e as motivações

do seu aparecimento. Foi evidenciada a importância que esta área tem para uma

organização, mostrando que benefícios poderão trazer o uso de ferramentas desta área.

Percebe-se que o desenvolvimento tecnológico auxilia na velocidade e no

volume de tratamento de dados. Porém, a informação textual ainda carece de

profissionais e ferramentas, utilizadas em larga escala, capazes de manuseá-las com a

mesma destreza das informações em formato de bancos de dados ou, comumente,

chamadas informações estruturadas.

Para atingir os objetivos propostos utilizou-se a metodologia da KDT que vai

desde a escolha da base de dados até a utilização efetiva da informação descoberta que

se transforma em conhecimento diante das interpretações humanas para aplicação de

forma prática.

A base de dados utilizada não estava pronta para mineração e apresentou vários

problemas, que foram contornados. Para a etapa essencial de pré-processamento, que

consumiu a maior parte do tempo, desenvolveu-se uma ferramenta, com o objetivo de

sistematizar todo o processo de preparação dos dados, a partir do momento em que o

arquivo foi obtido até a saída do arquivo pronto para ser executado pelos algoritmos de

mineração de textos.

Neste processo os textos referentes às manifestações foram tratados de forma

adequada, com a remoção de registros duplicados, sinais de pontuação, caracteres

matemáticos, monetários, numéricos e de formatação. Sendo que para a retirada dos

caracteres numéricos foi necessário verificar quais números eram de grande valia ao

estudo realizado. Também foi necessário identificar os termos compostos que

precisariam ser considerados. E as abreviaturas, nomes próprios e endereços de e-mails

também foram excluídos, pois não faziam parte do escopo. Após processamento da base

tratada na ferramenta, foi realizada a etapa de lematização, para que os resultados

fossem mais precisos.

Considera-se que o objetivo da pesquisa foi alcançado, pois a proposta era extrair

conhecimento da base de atendimento aos usuários do plano de assistência à saúde da

Petrobras.

Em relação aos padrões encontrados, penso que foram razoáveis, foram

encontrados 63 agrupamentos, mas o especialista considerou válidos os grupos com

peso superior a 7,5% e com as maiores freqüências, o que resultou na análise de 19

grupos. Os grupos estudados tratam de diversas solicitações, entre elas: descontos

indevidos no contra cheque dos beneficiários, que pode ser minimizado com a

disponibilização de demonstrativo de despesas mais detalhado; solicitações de 2ª via do

informe de imposto de renda dos credenciados, que poderá ficar disponível no site da

AMS para que o próprio credenciado tenha acesso.

Para todos os grupos estudados foram sugeridos sugestões de soluções para que

as ocorrências de manifestações fossem minimizadas.

Outro ponto importante observado na realização do estudo de caso foi à

dependência de um especialista do assunto orientando o processo. Sem o conhecimento

prévio do assunto e definição de objetivos para se encontrar o padrão é muito difícil

obter regras úteis.

Portanto, a análise obtida foi bastante útil e de grande importância para a gestão

do negócio para que se consiga reduzir a ocorrência das manifestações, o que

proporcionará satisfação aos beneficiários e prestadores de serviço.

Em virtude de ser necessária uma análise periódica dos dados, é necessária

agilizar o processo de extração de conhecimento em texto. Como o maior esforço é

gasto na extração e preparação dos dados e não exige participação do especialista do

domínio, é necessário que estas atividades do processo de descoberta de conhecimento

sejam otimizadas.

No trabalho foram aplicadas técnicas para identificação de agrupamento de

termos de documentos e análise de tais agrupamentos. Uma evolução deste trabalho é a

identificação de interesses de comunidades por termo, ou seja, identificar grupos de

beneficiários e credenciados relacionados por determinados termos.

As aplicações de técnicas de análises de links poderiam apontar comunidades

com interesses comuns por determinados termos. Este conhecimento poderá auxiliar na

personalização do atendimento assim como identificação de problemas existentes a

grupos de usuários específicos.

Outra evolução a ser realizada seria uma análise de padrão das respostas das

manifestações, onde atualmente manifestações diferentes que tratam de um mesmo

assunto podem possuir encaminhamentos distintos, portanto o sistema poderá sugerir

possíveis respostas associadas a determinados assuntos. Isto poderá melhorar a

qualidade do atendimento.

REFERÊNCIAS BIBLIOGRÁFICAS

ARANHA C., PASSOS E., A Tecnologia de Mineração de Textos. RESI – Revista

Eletrônica de Sistemas de Informação, N 2, 2006.

BASTOS, V. M. Ambiente de Descoberta de Conhecimento na Web para a Língua

Portuguesa. PhD thesis, Universidade Federal do Rio de Janeiro, COPPE, 2006.

BERRY, M. J. A., LINOFF, G. Data mining techniques – for marketing, sales and

customer support. John Wiley & Sons, New York, 1997.

BEPPLER, M; FERNANDES, A. Aplicação de text mining para a extração de

conhecimento jurisprudencial. In: Primeiro Congresso Sul Catarinense de

Educação, 2005.

CABENA, Peter; HADJINIAN, Pablo, STADLER, Rolf, VERHEES, Jaap, ZANASI,

Alessandro, Discovering data mining: from concept to implementation. Prentice

Hall PTR. New Jersey, 1998.

CORDEIRO, A. D. Gerador Inteligente de Sistemas com Autoaprendizagem para

Gestão de Informações e Conhecimento. PhD thesis, Universidade Federal de

Santa Catarina, Departamento de Engenharia da Produção, 2005.

DORRE, J. et al. Text Mining: Finding Nuggets in Mountains of Textual Data. In Fifth

International Conference on Knowledge Discovery and Data Mining, ACM, pp.

398-401, New York, USA.

EBECKEN, N; LOPES, M; COSTA, M. Mineração de Textos, p. 337–370. Manole,

2003.

FAYYAD, U., PIATETSKY-SHAPIRO G., SMYTH, P., UTHURUSAMY R.,

Advances in Knowledge Discovery & Data Mining. The AAAI Press/The MIT

Press, Cambridge, 1996.

FAYYAD, U., PIATETSKY-SHAPIRO, G., SMYTH P., “From Data Mining to

Knowledge Discovery in Databases”, AI Magazine, v. 17, n. 3, pp. 37-54, 1997.

FRAWLEY W. J., PIATETSKY-SHAPIRO G., Matheus C. J., Knowledge discovery in

databases: Overview. In G. Piatetsky-Shapiro and W. J. Frawley, editors, The

AAAI Press/The MIT Press, 1992.

HAN, J. e Kamber, M., Data Mining: Concepts and Techniques. Morgan Kaufmann, 1

ed. San Francisco, USA, 2001.

HAND D., MANNILA H., SMYTH P. Principles of Data Mining, The MIT Press,

2001.

IMAMURA, C. e REZENDE, S. O. Pré-processamento para extração de conhecimento

de texto. Departamento de Ciências de Computação e Estatística, Instituto de

Ciências Matemáticas de São Paulo, 2001.

INMON, W.H., HACKATHORN, R.D. Using the Data Warehouse, John Wiley &

Son's, 1994.

INSTITUTO SAS. www.sas.com.

KAO, A.; POTEET, S. Text Mining and natural Language Processing – Introduction

for the Special Issue. SIGKDD Explorations, v. 7, Issue 1, 2005.

KIMBALL, R., ROSS, M. The Data Warehouse Toolkit: The Complete Guide to

Dimensional Modeling. 2 ed. John Wiley & Sons, 2002.

LIU, B., HSU, W., CHEN, S., MA, Y. Analyzing the subjective interestingness of

Association Rules, IEEE Intelligent Systems, National University of Singapore,

2000.

MANNING, C. D., SCHUETZE, H. Foundations of Statistical Natural Language

Process. The MIT Press, 1999.

MORAIS, E. A. M., Contextualização deDocumentos em Domínios Representados por

Ontologias Utilizando Mineração de Textos.

ORENGO, V. M; HUYCK, C. A stemming algorithm for the Portuguese language. In:

Eighth International Symposium on String Processing and Information Retrieval

(SPIRE), p. 186–193, 2001.

PALAZZO, M. D. O; LOH, S; AMARAL, L. A; WIVES, L. K. Descoberta de

conhecimento em textos através da análise de seqüências temporais. In:

Workshop em Algoritmos e Aplicações de Mineração de Dados - WAAMD,

SBBD: Sociedade Brasileira de Computação, volume II, p. 49–56, Florianópolis,

2006.

PETROVSKIY, M. I., “Outlier Detection Algorithms in Data Mining Systems, In:

Programming and Computer Software”, Vol. 29, Nº 4, pp. 228-237, New York,

USA, Julho - Agosto 2003.

RAJMAN, M.; BESANÇON, R. Text Mining: Natural Language techniques and Text

Mining applications. Chapman & Hall, 1997.

ROSA, J. O significado da palavra para o processamento de linguagem natural. In:

Estudos Lingüísticos XXVII (Anais dos Seminários do Gel), p. 807–812. Trabalho

apresentado no XLV Seminário do GEL na UNICAMP, UNESP-IBILCE, 1998.

SALTON, G; MCGILL, M. J. Introduction to Modern Information Retrieval. McGraw-

Hill, New York, 1983.

SCHIESSL, J. M., Descoberta de conhecimento em texto aplicada a um sistema de

atendimento ao consumidor. Tese M. Sc. UNB, Brasília, DF, Brasil, 2007.

SOUZA, F. T. Predição de Escorregamentos das Encostas do Município do Rio de

Janeiro através de Técnicas de Mineração de Dados. Tese de D. Sc.,

COPPE/UFRJ, Rio de Janeiro, RJ, Brasil, 2004.

SILBERCHATZ, A; KORTH, H; SUDARSHAN, S. Sistema de Banco de Dados.

ELSEVIER, 5 ed., Makron Books, 2006

SULLIVAN, D. Document Warehousing and Text Mining: techniques for improving

business operations, marketing, and sales. John Wiley & Sons, New York, 2001.

TAN, A. H. Text Mining: The state of the art and the challenges. In Proceedings of the

Pacific Asia Conf on Knowledge Discovery and Data Mining PAKDD`99

Workshop on Knowledge Discovery from Advanced Databases, p. 65-70, 1999.

WEISS, S. M., Indurkhya, N. Predictive Data Mining: A Practical Guide. Morgan

Kaufmann Publishers, San Francisco, CA, 1998.

WITTEN, Ian H, FRANK, Eibe, Data Mining: Practical Machine Learning Tools and

Techniques. Morgan Kaufmann, 2 ed. San Francisco, USA, 2005.

WIVES, L. Tecnologias de descoberta de conhecimento em textos aplicadas à

inteligência competitiva. Exame de Qualificação EQ-069, PPGC-UFRGS, 2002.

ZANASI, A., GOMAR, D. A., EBECKEN, N. F. F., BREBBIA, C. A. Data Mining IX:

data mining, protection, detection and other security technologies. WIT Press,

Southampton, Boston, 2008.

Livros Grátis
( http://www.livrosgratis.com.br )
 
Milhares de Livros para Download:
 
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas

Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo