Download PDF
ads:
DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA
DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À
SAÚDE
Aline Regina de Oliveira Miranda
Dissertação de Mestrado apresentada ao Programa
de Pós-graduação em Engenharia Civil, COPPE,
da Universidade Federal do Rio de Janeiro, como
parte dos requisitos necessários à obtenção do
título de Mestre em Engenharia Civil.
Orientador: Nelson Francisco Favilla Ebecken
Rio de Janeiro
Setembro de 2009
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA
DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À
SAÚDE
Aline Regina de Oliveira Miranda
DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO
LUIZ COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA
(COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE
DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE
EM CIÊNCIAS EM ENGENHARIA CIVIL.
Aprovada por:
Prof. Nelson Francisco Favilla Ebecken, D. Sc.
Prof
a
. Valéria Menezes Bastos, D. Sc.
Prof
a
. Beatriz de Souza Leite Pires de Lima, D. Sc.
RIO DE JANEIRO, RJ – BRASIL
SETEMBRO DE 2009
ads:
iii
Miranda, Aline Regina de Oliveira
Descoberta de Conhecimento em Texto Aplicada a um
Sistema de Atendimento aos Usuários de um Plano de
Assistência à Saúde / Aline Regina de Oliveira Miranda. – Rio
de Janeiro: UFRJ/ COPPE, 2009.
XI, 82 p.: il; 29,7 cm.
Orientador: Nelson Francisco Favilla Ebecken
Dissertação (mestrado) UFRJ/ COPPE/ Programa de
Engenharia Civil, 2009.
Referências Bibliográficas: p. 79-82.
1. Mineração de Textos. 2. Descoberta de Conhecimento
em Textos. I. Ebecken, Nelson Francisco Favilla. II.
Universidade Federal do Rio de Janeiro, COPPE, Programa de
Engenharia Civil. III. Titulo.
iv
AGRADECIMENTOS
Gostaria de fazer um agradecimento a todos àqueles que de alguma forma
contribuíram para esta realização.
À Luis Carlos, meu marido, e ao meu filho Lucas que sempre estiveram comigo
me apoiando em todos os momentos, obrigada pelo incentivo e carinho.
Meus agradecimentos à gerência do plano de saúde da Petrobras que permitiu
que eu utilizasse suas bases de dados para tal objetivo.
A realização deste trabalho foi possível graças à colaboração direta e indireta
de várias pessoas, nossa gratidão a todas elas.
v
Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos
necessários para a obtenção do grau de Mestre em Ciências (M.Sc.)
DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA
DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À
SAÚDE
Aline Regina de Oliveira Miranda
Setembro / 2009
Orientador: Nelson Francisco Favilla Ebecken
Programa: Engenharia Civil
A dissertação tem como objetivo explorar a Mineração de Textos através de um
estudo amplo e completo com o intuito de se extrair padrões úteis e desconhecidos em
uma base de dados do Serviço de atendimento aos usuários de um plano de saúde de
uma grande empresa. Os conhecimentos obtidos foram analisados e validados junto aos
especialistas do domínio.
A interessabilidade e a acionabilidade dos conhecimentos obtidos permitiram
ações que são relevantes para o aperfeiçoamento da operação do sistema. Alguns
comentários são apresentados para ilustrar o interesse da pesquisa.
vi
Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the
requirements for the degree of Master of Science (M.Sc.)
DISCOVERY OF KNOWLEDGE IN TEXT SYSTEM APPLIED TO A USER
ATTENDING SYSTEM OF HEALTH ASSISTANCE PLAN
Aline Regina de Oliveira Miranda
September / 2009
Advisor: Nelson Francisco Favilla Ebecken
Department: Civil Engineering
The following essay is intended to explore the Text Mining through an extensive
and comprehensive study in order to extract useful and unknown patterns from a
database of the customer service users of the health care plan of large company. The
knowledge obtained was analyzed and validated with experts in the field.
The interestingness and actionability of the knowledge obtained allowed actions
that are relevant to the improvement of the business. Some comments are presented to
illustrate the interest of research.
vii
SUMÁRIO
LISTA DE FIGURAS.................................................................................................... ix
LISTA DE TABELAS.................................................................................................... x
LISTA DE SIGLAS E ABREVIATURAS .................................................................. xi
1. Introdução............................................................................................................... 1
1.1. Objetivo............................................................................................................ 2
1.2. Relevância ........................................................................................................ 3
1.3. Estado da Arte .................................................................................................. 3
1.3.1. Descoberta de conhecimento em Bases de Dados.................................... 4
1.3.2. Processamento de Linguagem Natural - PLN .......................................... 7
1.3.3. Descoberta de Conhecimento em Textos ................................................. 9
1.4. Organização da dissertação ............................................................................ 11
2. Metodologia........................................................................................................... 13
2.1 O processo de Mineração de Textos............................................................... 13
2.1.1 Tipos de Abordagens de Dados.......................................................... 14
2.1.2 Coleta de Dados.................................................................................. 19
2.1.3 Pré-processamento.............................................................................. 21
2.1.3.1 Identificação de Palavras no Texto..................................................... 24
2.1.3.2 Tokenização........................................................................................ 27
2.1.3.3 Retirada de palavras desnecessárias (stopwords)............................... 28
2.1.3.4 Normalização Morfológica (Stemming)............................................. 29
2.1.3.5 Dicionários de dados (Thesaurus) ...................................................... 33
2.1.3.6 Indexação............................................................................................ 35
2.1.4 Mineração........................................................................................... 37
2.1.5 Análise................................................................................................ 38
3. Estudo de Casos.................................................................................................... 41
3.1 Descrição do problema................................................................................... 41
3.2 Obtenção do arquivo de dados........................................................................ 44
3.3 Pré-processamento dos dados......................................................................... 48
3.4 Mineração....................................................................................................... 54
viii
3.4.1 O programa SAS..................................................................................... 54
3.4.2 Lematização............................................................................................ 56
3.4.3 Exploração dos Termos.......................................................................... 58
4. Resultados ............................................................................................................. 61
4.1 Estatísticas básicas da base de dados das manifestações................................ 61
4.2 Análise dos agrupamentos.............................................................................. 65
5. Conclusão .............................................................................................................. 76
REFERÊNCIAS BIBLIOGRÁFICAS ....................................................................... 79
ix
LISTA DE FIGURAS
Figura 2-1 - Metodologia de Mineração de Textos com o "encadeamento" de técnicas
proposta por ARANHA.................................................................................................. 18
Figura 2-2 - Algumas atividades realizadas no pré-processamento de textos................ 22
Figura 2-3 - Identificação de palavras válidas................................................................ 26
Figura 2-4 – Stemming para Português........................................................................... 31
Figura 2-5 - Sequência do processo de indexação automática....................................... 36
Figura 3-1 – Tela principal do Fale Conosco................................................................. 42
Figura 3-2 – Tela para registro da manifestação do Fale Conosco ................................ 43
Figura 3-3 – Exemplo de ruído na base de dados........................................................... 48
Figura 3-4 - Exemplos de texto original com caracteres inválidos ................................ 50
Figura 3-5 - Exemplos de texto após etapa de pré-processamento................................. 54
Figura 3-6 – Tela interativa do Text Miner.................................................................... 56
Figura 3-7 – Histograma de atributos por frequência..................................................... 58
Figura 3-8 - Agrupamento de Documentos.................................................................... 59
Figura 4-1 – Histograma com a distribuição Mensal das Ocorrências........................... 63
Figura 4-2 – Percentual de manifestações por tipo......................................................... 63
Figura 4-3 – Percentual de manifestações por origem ................................................... 64
Figura 4-4 – Percentual de manifestações por gerência................................................. 64
Figura 4-5 – Distribuição dos agrupamentos.................................................................. 65
Figura 4-6 – Distribuição do Peso por frequência.......................................................... 66
Figura 4-7 – Distribuição da quantidade de documentos por frequência....................... 67
Figura 4-8 – Histograma de Número de Documentos por frequência............................ 67
Figura 4-9 – Links do Termo Credenciado .................................................................... 69
Figura 4-10 – Links do termo Descontar........................................................................ 69
x
LISTA DE TABELAS
Tabela 2-1 - Representação atributo-valor obtida à partir da etapa de Pré-processamento
........................................................................................................................................ 24
Tabela 2-2 - Identificação e Remoção de Stopwords (os tokens descartados estão
tachados)......................................................................................................................... 28
Tabela 3-1 – Exemplos da Base de Dados ..................................................................... 47
Tabela 3-2 – Exemplos de duplicação de Registro......................................................... 49
Tabela 3-3 – Stoplist utilizado no estudo de caso........................................................... 52
Tabela 3-4 – Estatísticas dos Termos Lematizados........................................................ 56
Tabela 3-5 – Termo com maior quantidade de variantes ............................................... 57
Tabela 3-6 – Variantes de Termos.................................................................................. 57
Tabela 3-7 – Exemplos de agrupamentos para depuração da base................................. 60
Tabela 4-1 – Distribuição Mensal das Ocorrências........................................................ 62
Tabela 4-2 – Distribuição das Manifestações por Gerência........................................... 64
Tabela 4-3 – Resumo de execução................................................................................. 68
Tabela 4-4 – Exemplos dos termos com os índices........................................................ 68
Tabela 4-5 – Agrupamentos ........................................................................................... 70
Tabela 4-6 – Manifestações relacionadas ao grupo 1..................................................... 71
Tabela 4-7 – Manifestações relacionadas ao grupo 2..................................................... 72
xi
LISTA DE SIGLAS E ABREVIATURAS
AMS Assistência Multidisciplinar de Saúde;
DCD Descoberta de Conhecimento em Dados;
DCT Descoberta de Conhecimento em Textos;
DW Data Warehouse;
GED Gerenciamento Eletrônico de documentos;
KDD Knowledge Discovery in Databases (Descoberta de Conhecimentos em
Base de Dados);
KDT Knowledge Discovery in Text (Descoberta de Conhecimentos em
Textos);
HTML HyperText Markup Language (Linguagem de Marcação de Hipertexto);
OLAP On-line Analytical Processing;
PDF Portable Document Format;
PLN Processamento de Linguagem Natural;
SAS Statistical Analsys System;
SRI Sistema de Recuperação de Informações;
SVD Decomposição de Valor Singular;
TXT Arquivo de Texto.
1
1. Introdução
Com o desenvolvimento das tecnologias de informação, tem existido um
aumento das bases de dados em número, complexidade e rapidez de crescimento, o que
leva à necessidade de recurso a análises automáticas de grandes quantidades de
informação heterogênea estruturada (PETROVSKIY, 2003). Neste contexto surge a
utilização de Data Mining, ou seja, a extração de conhecimento de dados, que tem como
objetivo a descoberta de dependências escondidas nos dados (HAN e KAMBER, 2001).
A mineração de dados ou Data Mining é definida, ultimamente, como um
processo de descoberta de padrões em quantidades substanciais de dados, de forma
automática ou, na maioria das vezes, semi-automática, para a extração de informação
previamente desconhecida, válida que gera ações úteis, e onde que os padrões
descobertos são significativamente vantajosos para a tomada de decisões estratégicas
(CABENA et al., 1998). Essas características tem atraído uma boa parte das atenções da
indústria da informação, pois a mineração dos dados é apresentada como um resultado
da evolução natural da tecnologia da informação (HAN e KAMBER, 2001).
Atualmente, os recursos computacionais promovem o acesso à informação de
maneira rápida e eficiente, desde que esteja organizada em bancos de dados apropriados
à manipulação por computadores. Grande parte da informação eletrônica encontra-se
disponível em bases de dados frequentemente chamadas de não-estruturadas, ou seja,
bases de documentos textuais, cujo formato está adequado ao homem que, através da
leitura, é capaz de decodificar a informação contida no texto e apreendê-la.
Por outro lado, a quantidade desses documentos produzidos não é passível de ser
absorvida pelo homem por esse processo e, dessa maneira, a máquina desempenha um
papel fundamental na gestão da informação. Para tal, é necessário o processamento
2
prévio do texto com a finalidade de decodificá-lo e ajustá-lo às estruturas reconhecidas
pelos computadores.
Este trabalho aplica técnicas de mineração de texto em uma base de dados de
Serviço de Atendimento a usuários e prestadores de serviços do plano de assistência à
saúde da Petrobras. Ele visa demonstrar a utilidade da Descoberta de Conhecimento em
Textos que consistirá na criação de agrupamentos de textos a partir da coleção de
documentos existentes.
1.1. Objetivo
O objetivo principal deste trabalho é identificar e avaliar os agrupamentos
extraídos através de um estudo de caso real, o atendimento aos usuários do plano de
assistência à saúde da Petrobras, a partir da aplicação da metodologia de Descoberta de
Conhecimento em Textos, visando subsidiar políticas e estratégias de atendimento.
O estudo de caso extrairá conhecimento da base de dados de atendimento aos
usuários do plano de assistência à saúde da Petrobras com a aplicação de técnicas de
descoberta de conhecimento em textos, e identificará características das manifestações,
e estabelecerá correspondência entre variáveis e definirá sua natureza. Visa ainda
descrever o processo da organização, atendimento ao cliente, utilizando métodos que
caracterizam a abordagem quantitativa.
Tal estudo se faz necessário em função do potencial recurso de conhecimento
explícito, a ser explorado, através das manifestações por escrito dos clientes que podem
ser transformadas em fonte preciosa de informação estratégica.
3
1.2. Relevância
O uso da tecnologia de informação vem, alguns anos, sofrendo diversas
mudanças, principalmente, no que se refere ao acesso, manipulação da informação e
análise de dados. À medida que os recursos computacionais tornam-se mais confiáveis,
o crescimento contínuo do volume de dados e a velocidade com que os dados são
disseminados contribuem para que a sua administração não seja trivial, além disto,
sendo pouco percebidos por humanos. Isto é, a quantidade de documentos produzidos
não é passível de ser absorvida pelo homem, e dessa maneira, a máquina desempenhará
um papel na gestão da informação.
As implicações destas mudanças para o mundo dos negócios são enormes.
Entretanto, é necessário o processamento prévio do texto com a finalidade de
decodificá-lo e ajustá-lo às estruturas reconhecidas pelos computadores.
A Descoberta de Conhecimento em Texto propõe soluções para tratar a
informação eletrônica textual com o auxílio de máquinas, visando diminuir o impacto
da sobrecarga de informação. É de interesse das organizações aplicarem algumas
técnicas de extração de conhecimento na tentativa de se encontrar conhecimento nesta
nova realidade.
Portanto, a importância deste trabalho está baseada na análise eficiente e a
aplicação de técnicas de text mining na busca de conhecimento escondido sejam eles
relevantes e/ou inesperados.
1.3. Estado da Arte
A mineração de Textos, também conhecida como Descoberta de
Conhecimento em Textos, (Knowledge Discovery in Texts KDT) refere-se ao
processo de descoberta de conhecimento interessante, com a utilização de métodos e
4
técnicas que permitem analisar grandes conjuntos de dados para a extração de
informação previamente desconhecida, válida e que gera ações úteis, de grande ajuda
para a tomada de decisões estratégicas.
A mineração de textos surgiu a partir da necessidade de se descobrir, de forma
automática, padrões e anomalias em textos. As principais contribuições desta área estão
relacionadas à busca de informações específicas em documentos, para recuperar
informações, extrair dados, resumir documentos, descobrir padrões, associações e regras
e realizar a análise qualitativa e quantitativa de grandes volumes de textos, e a melhor
compreensão de textos disponíveis em documentos.
1.3.1. Descoberta de conhecimento em Bases de Dados
Com o advento da digitalização de documentos e o desenvolvimento das redes,
o volume de informação aumenta além da capacidade humana de apreensão e, dessa
forma, existe um lapso crescente entre a criação de dados e a compreensão deles
(FRAWLEY et al., 1992).
De acordo com WIVES (2002), descobrir conhecimento significa identificar,
receber informações relevantes, e poder processá-las e agregá-las ao conhecimento
prévio de seu usuário, mudando o estado de seu conhecimento atual, a fim de que
determinada situação ou problema possa ser resolvido. Neste sentido, observa-se que o
processo de descoberta de conhecimento está fortemente relacionado à forma pela qual
a informação é processada.
A área de Mineração de Dados, Data Mining, surgiu no final da década de
oitenta, e focaliza a extração de conhecimento a partir de grandes volumes de dados
usando o computador. Devido à sua natureza interdisciplinar, a pesquisa e
desenvolvimento da área de Mineração de Dados têm estreitas relações com as
5
contribuições oferecidas por diversas áreas como Banco de Dados, Aprendizado de
Máquina, Estatística, Recuperação de Informação, Computação Paralela e Distribuída.
Os princípios associados à Descoberta de Conhecimentos em Base de Dados
(KDD) conjugam fundamentos provenientes de diversas áreas, tais como a estatística, a
inteligência artificial, a aprendizagem automática, as bases de dados, os sistemas de
informação, entre outras. As aplicações disponíveis têm como objetivo a extração de
conhecimento partir de grandes bases de dados (FAYYAD et al., 1996).
O processo básico do KDD é traduzir a informação do seu nível mais
elementar, o dado, geralmente armazenado em grandes volumes, em formas mais
compactas, mais resumidas e mais úteis. Os métodos tradicionais de transformação de
dados em informação situam-se na análise manual e na interpretação, porém, em
contraste com a farta disponibilidade de base de dados, tornam-se lentos, caros e
altamente subjetivos. Assim, o KDD é uma tentativa de lidar com um problema que, na
era da informação digital, tornou-se real para todos nós: a sobrecarga de informação.
FRAWLEY et al. (1992) afirma que a Descoberta de Conhecimento é a
extração não-trivial da informação implícita, nos dados, previamente desconhecida e
potencialmente útil. FAYYAD et al. (1997) complementa que o KDD é o processo de
descoberta não-trivial de identificar, em dados, padrões válidos, novos, potencialmente
úteis e, principalmente, compreensíveis em meio às observações presentes em uma base
de dados. Dessas afirmações, entende-se que dado é um conjunto de fatos e padrão é a
estrutura implícita que será encontrada. O termo processo envolve a preparação dos
dados, a busca por padrões, a avaliação do conhecimento descoberto e os refinamentos
necessários em repetidas iterações. Pelo termo o-trivial depreende-se que a busca ou
inferência não seja uma operação direta de quantidades pré-definidas, como por
exemplo, o cálculo de uma média. Além disso, que os padrões descobertos sejam
6
válidos em novos dados com algum grau de confiabilidade. Deseja-se, ainda, que a
descoberta seja uma novidade que agregue alguma utilidade e benefício ao usuário e,
por último, que seja compreensível, mesmo que necessite de pós-processamento
(FAYYAD et al., 1997).
Segundo BERRY e LINOFF (1997), o KDD é a análise e exploração
automáticas ou semi-automáticas de grandes quantidades de dados com o objetivo de
descobrir regras e padrões significativos.
Para HAND et al. (2001), o KDD é a análise de bases de dados,
frequentemente grandes, com o objetivo de achar relações insuspeitas e resumir os
dados em novas maneiras que sejam compreensíveis e úteis ao usuário.
Portanto, o objetivo do KDD é encontrar padrões interessantes ocultos em
grandes quantidades de dados e fornecer informações como insumo para aquisição do
conhecimento. Além disso, oferece fundamentalmente novas capacidades, isto é, a
habilidade para otimizar a tomada de decisão utilizando métodos automáticos para
compreender com ações passadas (BERRY, LINOFF, 1997).
O KDD vem sendo utilizada mais de uma década e estabeleceu-se como
solução que auxilia as organizações e pesquisadores em geral na transformação de
dados em informação da qual se adquire o conhecimento. Os dados são armazenados em
estruturas de banco de dados bem definidas, ou seja, os dados encontram-se em
formatos apropriados para serem explorados por softwares especialistas.
Podemos concluir que o principal objetivo do KDD está relacionado à
descoberta de co-relacionamentos e dados implícitos em registros de bancos de dados,
através do estudo e desenvolvimento de processos de extração de conhecimento, isto é,
7
encontrar conhecimento a partir de um conjunto de dados para ser utilizado em algum
processo decisório.
Desta forma, é importante que o resultado do processo de KDD seja
compreensível a humanos, além de útil e interessante para usuários finais do processo,
que geralmente são tomadores de decisão. Os processos de KDD devem ser vistos como
práticas para melhorar os resultados das explorações feitas utilizando ferramentas
tradicionais de exploração de dados, como os Sistemas de Gerenciamento de Bancos de
Dados (SGBD) (SILBERCHATZ et al., 2006).
O desenvolvimento do KDD está intrinsecamente relacionado à evolução da
tecnologia. O KDD vem sendo consolidado como um poderoso ferramental para
auxiliar o homem na exploração da grande quantidade de informação disponível em
formato eletrônico, dadas as limitações humanas no manuseio e interpretação dessa
informação.
1.3.2. Processamento de Linguagem Natural - PLN
O processamento de linguagem natural (PLN) é uma técnica chave para
mineração de textos. Utilizando conhecimentos da área de lingüística, o PLN permite
aproveitar ao máximo o conteúdo do texto, extraindo entidades, seus relacionamentos,
detectando sinônimos, corrigindo palavras escritas de forma errada e ainda não ter
ambiguidade. Participam normalmente na parte do pré-processamento dos dados,
transformando-os em números.
De acordo com MANNING e SCHUTZE (1999), o estudo da Linguística vem
contribuir para resolver alguns problemas, pois busca caracterizar e explicar a
diversidade de observações lingüísticas que nos cerca, seja em diálogos, seja na escrita,
seja em qualquer outro meio. Uma parte preocupa-se com o lado cognitivo de como o
8
homem adquire, produz e entende a linguagem, outra parte, a compreensão da relação
entre discurso linguístico e o mundo e, a terceira, com a compreensão de estruturas
linguísticas pelas quais o homem se comunica.
Paralelamente, o desenvolvimento da informática tem possibilitado grandes
avanços no estudo das línguas naturais. A área que examina as relações entre a
Linguística e a Informática é a Linguística Computacional que objetiva a construção de
sistemas especialistas em reconhecer e produzir informação em linguagem natural.
Encontram-se neste contexto os estudos de PLN que tem por objetivo a interpretação e
geração de informação nos diferentes aspectos da língua: sons, palavras, sentenças e
discurso nos níveis estruturais, de significado e de uso.
O PLN existe décadas e, nesse ínterim, desenvolveram-se várias cnicas
tipicamente linguística, isto é, as sentenças do texto são separadas em partes gramaticais
(sujeito, verbo, etc) utilizando uma gramática formal ou um léxico, então a informação
resultante é interpretada semanticamente e usada para extrair informação sobre o que foi
escrito (KAO, POTEET, 2005).
Não se propõe aqui uma discussão detalhada do PLN, seus métodos e suas
técnicas e, sim a contextualização da relação entre o KDD e KDT. Atualmente,
encontram-se procedimentos disponíveis capazes de realizar o tratamento do dado
textual de maneira a possibilitar sua transformação e sua estruturação na forma
adequada ao uso pelo KDD. Alguns desses procedimentos são ferramentas essenciais
para viabilizar a Descoberta de Conhecimento em Textos – KDT.
O PLN tem papel fundamental na Mineração de Textos, sendo utilizado no
estágio inicial da etapa de Pré-processamento, aonde sua principal função é fornecer um
9
primeiro nível de estruturação da informação textual, como o reconhecimento de início
e fim de sentenças e classificação de palavras quanto a sua função sintática.
1.3.3. Descoberta de Conhecimento em Textos
De acordo com DORRE et al (1999), a informação textual não está
prontamente acessível para ser usada por computadores, ou seja, ela é apropriada para
que pessoas, através da leitura e dos processos cognitivos característicos dos humanos,
manipulem e apreendam as informações contidas nesse formato.
Análise de dados armazenados em formato não estruturado pode ser
considerada uma atividade mais complexa, se comparada à análise de dados
estruturados, justamente pelo fato dos dados possuírem a característica da não
estruturação. Logo, são necessárias técnicas e ferramentas específicas para tratamento
deste tipo de dados. Este conjunto de técnicas e ferramentas também fazem parte da
área de Recuperação de Informações, mais especificamente da área conhecida como
Descoberta de Conhecimento em Textos (KDT) (PALAZZO et al, 2006).
Segundo TAN (1999), a KDT pode ser vista como uma extensão do KDD,
pois se refere ao processo de extração de padrões não-triviais e de conhecimento útil
para determinado objetivo em documentos não-estruturados. Todavia, a tarefa da KDT
torna-se mais complexa em função da manipulação de dados textuais registrados em
linguagem natural.
Diversos autores afirmam que as bases textuais apresentam-se de forma não-
estruturada. Porém, possuem uma estrutura implícita que necessita de técnicas
especializadas para ser reconhecida por sistemas automatizados. O processamento de
linguagem natural (PLN) trata exatamente da descoberta destas estruturas implícitas,
como por exemplo, a estrutura sintática (RAJMAN, BESANÇON, 1997).
10
A integração de técnicas de PLN e KDD constitui a Descoberta de
Conhecimento em Texto que objetiva automatizar o processo de transformação de
dados textuais em informação para possibilitar a aquisição do conhecimento.
Mineração de textos (Text Mining) ou Descoberta de conhecimento de base de
dados textuais (KDT) é um Processo de Descoberta de Conhecimento, que utiliza
técnicas de análise e extração de dados a partir de textos, frases ou apenas palavras.
Envolve a aplicação de algoritmos computacionais que processam textos e identificam
informações úteis e implícitas, que normalmente não poderiam ser recuperadas
utilizando métodos tradicionais de consulta, pois a informação contida nestes textos não
pode ser obtida de forma direta, uma vez que, em geral, estão armazenadas em formato
não estruturado
1
, o qual apresenta um alto nível de complexidade envolvida neste tipo
de representação de informação.
Mineração de textos consiste em extrair regularidades, padrões ou tendências
de grandes volumes de textos em linguagem natural, normalmente, para objetivos
específicos. Inspirado pelo data mining ou mineração de dados, que procura descobrir
padrões emergentes de banco de dados estruturados, a mineração de textos pretende
extrair conhecimentos úteis de dados não estruturados o semi-estruturados (ARANHA,
2006).
De acordo com BASTOS (2006), KDT engloba técnicas e ferramentas
inteligentes e automáticas que auxiliam na análise de grandes volumes de dados com o
intuito de garimpar” conhecimento útil, beneficiando não somente usuários de
documentos eletrônicos da internet, mas qualquer domínio que utiliza textos não
estruturados.
____________________________
1
Formato não estruturado está relacionado ao fato de um texto ser livre de formato ou padrão de
armazenamento.
11
Logo, como a forma mais comum de armazenamento de informação é através
de texto, KDT, teoricamente, tem potencial maior de utilização do KDD, pois cerca de
80% de informações contidas nas organizações estão contidas em documentos textuais
(BEPPLER, 2005). Porém, mineração de texto é um processo muito mais complexo à
medida que envolve procedimentos com dados textuais que estão em linguagem natural,
não estruturados e confusos.
Os benefícios da mineração de textos pode se estender a qualquer domínio que
utilize textos, sendo que suas principais contribuições estão relacionadas à busca de
informações específicas em documentos, a análise qualitativa e quantitativa de grandes
volumes de textos, e a melhor compreensão do conteúdo disponível em documentos
textuais.
Ao utilizar os recursos de mineração de textos, um usuário não solicita
exatamente uma busca, mas sim uma análise de um documento. Entretanto, este não
recupera o conhecimento em si. É importante que o resultado da consulta seja analisado
e contextualizado para posterior descoberta de conhecimento.
1.4. Organização da dissertação
Neste capítulo foi apresentado o contexto geral do trabalho, a relevância para o
desenvolvimento da pesquisa de uma metodologia de descoberta de conhecimento em
dados disponíveis em texto, bem como os seus objetivos pretendidos.
O capítulo 2 trata da metodologia proposta e define as etapas necessárias para
desenvolver o processo de descoberta de conhecimento em textos, bem como a sua
importância, benefícios, dificuldades e uso.
12
No capítulo 3, é apresentado o estudo de caso, com a descrição do problema,
as etapas do processo de descoberta de conhecimento em textos utilizada para o caso
real e a ferramenta utilizada para a mineração dos textos.
No capítulo 4 um conjunto de dados foi processado, o que permitiu a análise
dos resultados obtidos.
E o capítulo 5, descreve as considerações finais.
13
2. Metodologia
2.1 O processo de Mineração de Textos
O processo de mineração de textos é iterativo, pois é formado por uma série de
etapas seqüenciais, onde se pode retornar às descobertas realizadas, ou a falta delas
pode levar a novas hipóteses de descobertas. E o processo torna-se interativo, pois neste
caso, o usuário pode decidir pela retomada de processos de mineração ou a uma nova
seleção de atributos, por exemplo, para validar hipóteses que surgiram durante o
processo.
As pessoas envolvidas na realização do processo de mineração de textos
devem possuir um canal de comunicação que viabilize uma boa troca de informações.
Estes usuários possuem diferentes especialidades e necessidades, e cada um possui o
seu papel dentro do processo. As classes dos usuários envolvidos no processo são:
Especialista do Domínio: possui amplo entendimento do domínio da
aplicação. Por exemplo, durante a análise de uma coleção de dados sobre
vendas de uma empresa, o especialista pode ser um diretor de marketing.
Analista: executa o processo de KDT e, portanto deve possuir amplo
conhecimento das etapas que compõem esse processo. Por exemplo, os
analistas de sistemas, estatísticos e administradores de base de dados.
Usuário Final: o qual pode não possuir amplo conhecimento do domínio. É
frequentemente aquele que utiliza o conhecimento extraído no processo de
KDT para auxiliá-lo em um processo de tomada de decisão.
14
Durante a realização do processo de KDT, a interação e comunicação entre o
analista, especialista do domínio e usuário final é muito importante, uma vez que o
sucesso da extração de conhecimento depende da comunicação entre eles. Entretanto, é
possível melhorar a troca de informações entre os envolvidos no processo utilizando-se
técnicas de visualização de dados adequadas para auxiliar na execução das etapas do
processo.
Para o processo de mineração de textos devemos considerar os tipos de
abordagens de dados que será utilizada.
2.1.1 Tipos de Abordagens de Dados
De acordo com EBECKEN (2003), existem dois tipos de abordagens para
análise de dados textuais na área de mineração de textos: a Análise Semântica, baseada
na funcionalidade dos termos encontrados nos textos, e a Análise Estatística, baseada na
freqüência dos termos encontrados nos textos. Estas abordagens podem ser utilizadas
separadamente ou em conjunto.
Análise Semântica
Este tipo de análise emprega técnicas que avaliam a sequência dos termos no
contexto dos textos, no sentido de identificar qual a sua função. Ela é fundamentada em
técnicas de Processamento de Linguagem Natural (PLN). Sua utilização justifica-se
principalmente pela melhoria da qualidade dos resultados do processo de mineração de
textos, especialmente se for incrementado por Processamento Lingüístico (ROSA,
1998).
15
A análise semântica apóia o tratamento de textos conforme o ser humano faz,
através do significado das palavras, de conhecimentos morfológicos, sintáticos,
semânticos, pragmáticos, do discurso e do mundo.
1. Conhecimento Morfológico
É o conhecimento da estrutura, da forma e das inflexões das palavras.
2. Conhecimento Sintático
É o conhecimento estrutural das listas de palavras e como elas podem ser
combinadas para produzir sentenças.
3. Conhecimento Semântico
É o conhecimento do significado das palavras independente do contexto.
Também designa outros significados mais complexos, podem ser obtidos pela
combinação destas palavras.
4. Conhecimento pragmático
É o conhecimento do uso da língua em diferentes contextos e como estes
afetam seu significado e a interpretação.
5. Conhecimento do Discurso
É o conhecimento de como as sentenças imediatamente precedentes afetam a
interpretação da próxima sentença.
6. Conhecimento do Mundo
É o conhecimento geral do domínio ou o mundo que a comunicação da
linguagem natural se relaciona.
16
Segundo CORDEIRO (2005), técnicas de análise semântica de textos
procuram identificar a importância das palavras dentro da estrutura de suas orações.
Porém, quando se utiliza um único texto algumas funções podem ser identificadas com
um grau de importância. Entretanto, para algumas tarefas isso não é suficiente. Como
exemplos podem ser citadas as categorizações, onde é interessante analisar um
documento comparando-o com bases de conhecimento de diferentes assuntos para
descobrir a que categoria ele pertence.
Análise Estatística
Os termos são valorados, basicamente, pela sua frequência de aparição na
massa de dados, não importando a contextualização deste, como em que parágrafo está
inserindo, que termos o antecedem ou que estão diretamente relacionados.
Neste tipo de análise, a importância de um termo é dada pelo número de vezes
que este aparece no texto. Basicamente, seu processo envolve aprendizado estatístico a
partir de dados, que normalmente inclui as etapas de codificação dos dados, estimativa
dos dados e modelos de representação de documentos.
1. Codificação dos Dados
Uma codificação inicial dos dados é escolhida com base em indicações de
especialistas. Também pode ser feita de acordo com critérios que representem
propriedades interessantes dos dados em relação aos objetivos da seleção dos
mesmos.
Se informações relevantes forem descartadas nesta etapa, não poderão ser
recuperadas depois. Entretanto, se a codificação inicial dos dados contém
muita informação irrelevante ou ruídos, a busca por uma seleção adequada
17
pode se tornar difícil ou consumir muito tempo. Além disso, propriedades
importantes destes dados podem ser perdidas em meio ao ruído.
2. Estimativa dos Dados
Esta etapa envolve a procura por um modelo adequado a partir de um conjunto
de modelos (espaço de modelos). Um modelo pode ser obtido a partir da
aplicação de um algoritmo de aprendizado ou de um método de estimativa.
3. Modelos de Representação de Documentos
Documentos podem ser vistos como containers de palavras. Esta
abordagem, também conhecida como bag of words, ignora a ordem que as
palavras aparecem nos textos, assim como qualquer informação de pontuação
ou de estrutura, mas retém o número de vezes que a palavra aparece.
Esta técnica é considerada uma simplificação de toda a abundância de
informações que um texto pode expressar, não fornecendo, portanto, uma
descrição fiel de seu conteúdo. O desenvolvimento de modelos mais ricos, que
sejam computacionalmente viáveis e possíveis de serem estimados, continua
sendo um problema desafiador para a computação.
Entretanto, apesar desta técnica não ser suficiente para interpretação completa
a respeito dos textos, ela provê uma quantidade considerável de informações
sobre associações entre palavras e documentos que tem se apresentado
suficiente para clustering a partir de grandes coleções de textos.
Ambas as abordagens podem ser utilizadas sozinhas ou em conjunto.
18
O processo de Mineração de Textos ou Descoberta de Conhecimentos em
Textos como um todo, se constitui como mostra o diagrama a seguir, conforme proposto
por ARANHA (2006), onde sugere o que seria um modelo completo para aquisição de
conhecimento a partir de textos, porém com aprofundamento na sub-etapa de Pré-
processamento.
Figura 2-1 - Metodologia de Mineração de Textos com o "encadeamento" de cnicas proposta por
ARANHA.
A coleta é a etapa inicial e tem como função recuperar os documentos que
possam ser relevantes para alcançar o objetivo almejado, isto é, determinar e selecionar
o universo de atuação das técnicas de mineração de texto.
Pré-processamento é a etapa executada imediatamente após a Coleta e tem
como objetivo prover alguma formatação e representação da massa textual. É bastante
onerosa, com a aplicação de diversos algoritmos que consomem boa parte do tempo do
processo de extração de conhecimento.
Indexação é o processo que organiza todos os termos adquiridos a partir de
fontes de dados, facilitando o seu acesso e recuperação. Uma boa estrutura de índices
garante rapidez e agilidade ao processo, tal como funciona o índice de um livro.
19
Após terem sido obtidas uma estrutura para os dados e uma forma de prover
rápido acesso, a etapa de Mineração propriamente dita é responsável pelo
desenvolvimento de cálculos, inferências e algoritmos e que tem como objetivo a
extração de conhecimento, descoberta de padrões e comportamentos que possam
surpreender de acordo com o objetivo e requisitos do usuário e/ou domínio da
aplicação.
Finalmente, a Análise é a última etapa é deve ser executada por pessoas
(usuário final, especialista do domínio e o analista de dados) que, normalmente, estão
interessadas no conhecimento extraído e que devem tornar algum tipo de decisão
apoiada no processo de Mineração de Texto.
Mediante algumas circunstâncias, como na obtenção de um resultado pouco
significativo ao usuário, pode ser necessário que o processo seja refeito, adequando-se
algumas de suas etapas, seja para contar com uma gama mais informativa de
documentos, ou mesmo com alguma estratégia que possa melhorar o desempenho do
processo.
A seguir, são mencionados detalhes específicos de cada uma das etapas
envolvidas no processo de mineração de texto, dando mais ênfase à etapa de pré-
processamento.
2.1.2 Coleta de Dados
Entende-se por Coleta o processo de busca e recuperação de dados com
descrições textuais que sejam relevantes ao domínio de aplicação do conhecimento a ser
extraído. E este tem como finalidade formar a base textual da qual se pretende extrair
algum tipo de conhecimento. Essa base pode ser estática, nos casos mais simples, ou
dinâmica, isto é, atualizadas a todo momento através de robôs coletando novas
20
informações. A atualização é feita pela simples adição de um novo conteúdo, remoção
de conteúdos antigos, ou, substituição da base por uma inteiramente nova.
Coletar dados é uma tarefa bastante custosa aonde existem diversos desafios, a
começar pelo formato dos dados, é que podem não estar disponíveis em um formato
apropriado para serem utilizados no processo de mineração de textos.
Para mineração de textos, um dos principais problemas em coletar os dados é
descobrir da localização das fontes de dados: pastas de arquivos encontradas no disco
rígido de usuários, tabelas de diversos bancos de dados e a Internet.
As pastas de arquivos são talvez a forma mais natural de se armazenar
documentos na forma digital. Coletar documentos no disco gido de um computador é
algo que exige bastante cautela, pois é necessário fazer a distinção entre arquivos
textuais produzidos por pessoais e arquivos binários e de configuração, normalmente
interpretados apenas pela máquina. Algumas iniciativas podem ajudar no gerenciamento
de documentos eletrônicos, como é o caso dos sistemas de GED (Gerenciamento
Eletrônico de documentos) para grandes empresas e dos sistemas de busca local como o
Google Desktop, Yahoo! Desktop e Ask Jeeves Desktop.
A obtenção de massa textual a partir de tabelas de banco de dados se dá,
principalmente, através de conteúdo de colunas do tipo string, que nada mais são do que
campos de armazenamento de texto livre, sem nenhuma restrição a não ser a quantidade
máxima de caracteres suportada por registro. Como os dados podem estar espalhados
por diversas tabelas de diversos bancos de dados, a construção de um Data Warehouse ,
INMON (1994) e KIMBALL (2002), é vista como um ótimo ponto de partida para a
obtenção de dados, uma vez que a teoria de DW prega a integração de diversas fontes,
de forma a disponibilizar mais facilmente as informações. Embora os Data Warehouses
21
facilitem bastante a coleta de dados, o problema ainda está longe de ser bem resolvido,
principalmente quando se trata de textos. Além disso, neste tipo de sistema supõe-se que
seja realizada uma etapa de pré-processamento, aonde um dos objetivos é prover uma
“limpeza dos dados”, garantindo qualidade no que se está disponibilizando.
Outro ambiente de localização de fontes de dados é a Internet. Neste, a
heterogeneidade é o desafio predominante, aonde é encontrada uma infinidade de tipos
de páginas, como notícias de revistas, bloggers, anúncios, documentos, artigos técnicos
e planilhas.
Fazendo uso de alguma ferramenta de suporte à recuperação de documentos, a
primeira etapa do processo de Mineração de Textos pode ser então cumprida. Diante
disso, deve-se dar início a segunda etapa do processo, na qual os documentos
recuperados são pré-processados para gerar a possível representação a ser utilizada
pelos algoritmos de extração de conhecimento.
2.1.3 Pré-processamento
Como mencionado, a etapa de pré-processamento é responsável por um
conjunto de transformações realizadas sobre coleção de textos com o objetivo e fazer
com que esses passem a ser estruturados em uma representação atributo-valor, que
possa ser manipulada pelos métodos de extração de conhecimento. A obtenção de tal
representação pode ser feita através da realização de algumas tarefas como identificação
dos atributos, atribuição de pesos e redução da representação, como mostrado na figura
2-2.
22
Figura 2-2 - Algumas atividades realizadas no pré-processamento de textos
Pré-processar textos é, por muitas vezes, o processo mais oneroso da
metodologia de Mineração de Textos, uma vez que não existe uma única técnica que
possa ser aplicada para a obtenção de uma representação satisfatória em todos os
domínios. Assim sendo, para se chegar à representação adequada, pode ser necessária a
realização de muitos experimentos empíricos.
De modo geral, a etapa de pré-processamento tem por finalidade melhorar a
qualidade inicial dos dados já disponíveis e organizá-los, aonde diversas técnicas podem
ser aplicadas e até mesmo combinadas.
Existem diferentes abordagens para determinar os termos e os pesos que
estarão presentes na representação. Frequentemente as operações realizadas para a
escolha dos termos são:
substituição de marcadores HTML por símbolos especiais, quando
aplicável;
reconhecimento de palavras individuais ou compostas que estejam
presentes no texto;
uso de uma lista de palavras a serem desconsideradas, como artigos,
preposições, etc. Essa lista é conhecida como stop list ou lista de
sotpwords;
23
remoção do sufixo das palavras para mapeá-la na sua forma canônica;
organização do valor semântico das palavras por meio do uso de
dicionários eletrônicos e mapas de sinônimos, como thesaurus.
As estratégias empregadas na identificação dos atributos, como mostrado na
figura 2-2 são, em geral, dependentes do idioma. Isso porque as palavras que compõem
a stop list e os métodos para remover os sufixos dos termos podem variar de acordo
com o idioma dos textos.
Para completar a representação dos textos, além das estratégias para
identificação dos atributos, devem-se escolher quais serão as abordagens utilizadas para
o cálculo do valor do peso de cada atributo, que geralmente pode ser booleano ou
numérico (WEISS, INDURKHYA, 1998). Os valores booleanos são empregados para
indicar a presença ou ausência do termo em cada documento, enquanto que os
numéricos são calculados por meio de medidas estatísticas baseadas na frequência dos
termos nos documentos.
Em alguns casos, a representação originalmente obtida possui muitos atributos
tornando sua dimensão relativamente grande a ponto de exceder a capacidade de
processamento dos algoritmos usados para extração do conhecimento. Desta forma, são
empregados métodos para redução da dimensão.
No entanto, a etapa de pré-processamento vai além das ações citadas, pois é
necessário transformar os textos em uma representação estruturada adequada para que, a
partir disso, os dados possam ser submetidos ao processo como um todo. Portanto,
durante a transformação dos textos em formato estruturado existe a possibilidade de que
informação intrínseca ao conteúdo dos textos seja perdida. Um desafio, nesse caso, é
obter uma boa representação minimizando a perda de informação.
24
Normalmente, o produto final do pré-processamento é uma estrutura do tipo
atributo-valor, conforme verificado na Tabela 2-1. As linhas fazem alusão a cada um
dos documentos da coleção, enquanto que as colunas fazem referência aos atributos,
presentes ou não, em cada um dos documentos. A interseção entre atributos e
documentos é marcada pelo peso dado a determinado atributo em determinado
documento (por exemplo, pode-se utilizar a frequência de aparição do atributo no
documento). Esta estrutura precisa ser significante, representativa e que reflita fielmente
a diversidade original dos dados. De posse desta estrutura, é possível a execução da
etapa de Mineração, precedida ou não da Indexação.
Tabela 2-1 - Representação atributo-valor obtida à partir da etapa de Pré-processamento
Atrib1 ... AtribN
Doc1 V11 ... V1N
... ... ... ...
DocX VX1 ... VXN
2.1.3.1 Identificação de Palavras no Texto
Erros ortográficos são comuns quando se trabalha com grandes massas de
dados, especialmente se geradas a partir de digitação manual por seres humanos. Em
SALTON (1983), a identificação das palavras nos documentos a serem indexados nada
mais é do que a identificação de palavras analisando-se as sequências de caracteres no
texto. SALTON (1983) aconselha fazer um Dictionary lookup, ou seja, comparar as
sequências de caracteres retiradas do texto com um dicionário a fim de validar se essas
palavras realmente existem. Esse processo de validação torna-se caracteres inválidos ou
palavras com erros gramaticais. As sequências de caracteres inválidas devem ser
eliminadas e as palavras com erros corrigidas. Pode-se aplicar um processo de filtragem
25
naqueles arquivos que possuem formatos de texto específicos, a fim de eliminar as
sequências de controle e/ou formatação de texto.
As operações que transformam uma sequência de caracteres em outra pode ser
de: inserção (inserção de um novo caractere no string “destino”), eliminação
(eliminação de um caractere no string “origem”) e substituição (substitui um caractere
do string “origem”, com o objetivo de transformar no string “destino”). O exemplo
abaixo exibe os passos necessários para transformar “casas” em “massa”, definindo a
distância de edição em 3 (três).
1. casas masas (substituição de ‘c’ por ‘m’)
2. masas mass (eliminação de ‘a’)
3. mass massa (inserção de ‘a’)
O dicionário pode também auxiliar a identificação de termos específicos,
quando se deseja utilizar palavras pré-definidas no índice, evitando que palavras
desconhecidas sejam identificadas (ou seja, evita a utilização de um vocabulário
descontrolado). Um simples Analisador Léxico que identifique sequências de caracteres
e forme palavras pode ser utilizado.
A figura 2-3 apresenta o trecho de um documento com diversas sequências de
caracteres. As sequências riscadas são sequências inválidas, que não devem passar pela
fase de identificação de palavras. As demais sequências vão para a verificação em um
dicionário (léxico). As palavras sublinhadas são palavras inexistentes no dicionário, e
devem ser corrigidos ou aprendidos. Os caracteres de pontuação são desprezados.
26
Figura 2-3 - Identificação de palavras válidas
Outra possibilidade de pré-tratamento é a representação em n-gramas do texto:
constitui-se em uma representação alternativa, onde os termos são obtidos diretamente
como sub-cadeias de comprimento n das palavras que compõem o texto original. Por
exemplo, a partir da palavra “porta” e considerando n = 4, obtêm-se as seguintes 4-
grams: “_por”, “port”, “orta” e “orta_”, onde “_” é usado para indicar o início ou fim da
palavra. A idéia é que os erros ortográficos mais comuns afetam poucos constituintes
de n-grama, então, podemos buscar pela palavra correta através daqueles que
compartilham a maior parte dos n-gramas com a palavra errada. O objetivo é manter
uma lista de n-gramas “apontando”para as palavras que o contém. Quando a palavra é
procurada, os n-gramas são processados e procurados no índice. A palavra que
apresentar o maior mero de n-gramas associados será a de maior relevância,
indicando um possível candidato para correção (ARANHA, 2006).
De modo geral, a preocupação das técnicas clássicas presente na literatura é de
reduzir a dimensionalidade do problema, de modo a poder utilizar algoritmos de
mineração de dados.
... àpl- à , ‘~ ‘ p y Na maioria das vezes os documentos retornados pelas
ferramentas de ‘ > ‘ recuperação de informacões ‘ < ‘ envolvem um contexto
mais amplo, fazendo com que o usuario tenha que garimpar, ou seja,
especificar ou filtrar estes documentos ( o que demanda tempo e conhecimento
) a fim de obter a infromação que ele realmente necessita ‘~ ‘ ....
27
2.1.3.2 Tokenização
Um texto possui um fluxo ordenado de palavras que seguem as normas
linguísticas de um idioma para que ele faça sentido para o leitor. No entanto, para o
propósito de manipular o texto com computadores no sentido de extrair suas
características, o processo utilizado é de separação do texto em unidades mínimas de
texto chamadas tokens. Cada unidade é chamada de token e que, na grande maioria das
vezes, corresponde a uma palavra do texto, podendo também estar relacionado a mais
de uma palavra, símbolo ou caractere de pontuação.
Segundo MANNING e SCHULTZ (1999), esses tokens apresentam-se como
palavras, números ou sinais de pontuação extraídos do texto. Importante observar que
os sinais de pontuação podem trazer informação sobre a macro estrutura do texto e por
isso não devem ser negligenciados.
Geralmente, o que diferencia um token do outro são os espaços entre eles e
frequentemente os algoritmos que executam a divisão do texto em tokens utilizam o
espaço como delimitador. Aqui, também, se requer cuidado na execução da tarefa, pois
temos, em português, palavras compostas que quando separadas possuem significados
diferentes, por exemplo, “Casas Bahia” representa uma conhecida rede de lojas,
contudo, se lida isoladamente, a palavra “casas” ou “Bahia” não possuem relação
alguma com comércio.
Para obtenção de melhores resultados, deve-se adequar o programa que
executa o trabalho de separação dos termos em função do texto que será tratado, caso
contrário, muito trabalho deverá ser executado nos tokens adquiridos.
28
2.1.3.3 Retirada de palavras desnecessárias (stopwords)
Em um documento, existem muitos tokens que não possuem nenhum valor
semântico, sendo úteis apenas para o entendimento e compreensão geral do texto. Estes
tokens são palavras classificadas como stopwords e correspondem ao que é chamado de
stoplist de um sistema de Mineração de Textos.
Uma lista de stopwords é constituída pelas palavras de maior aparição em
massa textual e, normalmente, correspondem aos artigos, preposições, pontuação,
conjunções e pronomes de uma língua. A identificação e remoção desta classe de
palavras reduzem de forma considerável o tamanho final do léxico, tendo como
consequência benéfica o aumento de desempenho do sistema como um todo.
A stoplist pode ser definida manualmente, por um especialista no domínio do
assunto, ou de forma automática, através de frequência de aparição das palavras no
léxico. Um percentual K das palavras de maior aparição define a lista de remoções. A
tabela 2-2 ilustra uma pequena stoplist.
Tabela 2-2 - Identificação e Remoção de Stopwords (os tokens descartados estão tachados)
Stoplist Texto
na
pelas
com
ou
e
das
de
que
seja
a
os
um
o
estes
ele
...Na maioria das vezes os documentos retornados pelas
ferramentas de recuperação de informações envolvem
um contexto mais amplo, fazendo com que o usuário
tenha que garimpar, ou seja, especificar ou filtrar estes
documentos o que demanda tempo e conhecimento a
fim de obter a informação que ele realmente necessita...
29
No entanto, stopwords são todas as palavras que influenciam negativamente
no processo de análise. Assim, a sua existência nos textos implicaria na perda de
desempenho e qualidade nas etapas seguintes da tarefa de mineração de textos, por isso
é necessária a execução deste processo antes das próximas etapas.
2.1.3.4 Normalização Morfológica (Stemming)
Segundo WIVES (2002), durante o processo de indexação, dependendo do
caso, torna-se interessante eliminar as variações morfológicas de uma palavra. As
variações morfológicas são eliminadas através da identificação do radical de uma
palavra. Os prefixos e os sufixos são retirados e os radicais resultantes são adicionados
ao índice. Essa técnica de identificação de radicais é denominada lematização ou
Stemming, que em inglês significa reduzir uma palavra ao seu radical (ou raiz).
Além da eliminação dos prefixos e sufixos, características de gênero, número e
grau das palavras são eliminadas. Isso significa que várias palavras acabam sendo
reduzidas para um único termo, o que pode reduzir o tamanho de um índice em até 50%.
Entretanto, as aplicações de técnicas de Stemming ocasionam uma diminuição
na precisão das buscas, que não consegue mais procurar por uma palavra específica.
Na classificação de documentos, por exemplo, variações morfológicas são importantes,
pois aumentam o poder de discriminação entre documentos.
Além disso, ao realizar stemming deve-se ter cuidado com overstemming e
understemming. Overstemming ocorre quando a cadeia de caracteres extraída não é um
sufixo, mas sim parte do radical. Por exemplo, a palavra “gramática”, após o
processamento reduz para “grama”, o que não representa o seu radical, que é “gramat”.
Understemming ocorre quando o sufixo não é removido totalmente. Por exemplo, a
30
palavra “referência”, após o processamento reduz para “referênc”, ao invés de “refer”, o
que é o radical correto (BASTOS, 2006).
EBECKEN (2003) descreve três métodos de stemming: método do Stemmer S;
método de Porter; método de Lovins.
método do stemmer S
Este é considerado o método mais simples. Consiste na eliminação de apenas
alguns finais de palavras, geralmente sufixos que formam o plural. Em
palavras da língua inglesa são removidos apenas os sufixos ies, es, s.
Método de Porter
Consiste na identificação de diferentes inflexões referentes à mesma palavra e
sua substituição por um radical comum.
Seu algoritmo remove cerca de 60 sufixos diferentes para palavras da língua
inglesa e é baseado nas seguintes etapas (BASTOS, 2006): redução do plural;
troca de sufixos; retirada de sufixos; remoção de sufixo padrões; remoção da
vogal “e” ao final da palavra.
Método de Lovins
Este método remove cerca de 250 sufixos diferentes para palavras da língua
inglesa. Seu algoritmo remove apenas um sufixo por palavra, retirando o
sufixo mais longo conectado a palavra.
Todos os métodos acima consideram palavras da língua inglesa. Um algoritmo
de stemming para língua portuguesa pode ser encontrado em ORENGO (2001). Cada
etapa do algoritmo, por sua vez, tem um conjunto de regras, que são examinadas em
sequência, e somente uma regra na etapa pode ser aplicada.
31
Figura 2-4 – Stemming para Português
As etapas são descritas a seguir (BASTOS, 2006) :
1. Remoção do plural
Consiste basicamente em remover o “s” do final das palavras. uma lista de
exceções como a palavra “lápis” por exemplo.
2. Remoção do feminino
Nesta etapa as formas femininas são transformadas na correspondente
masculina. Ex.: “chinesa” “chinês”.
3. Remoção do advérbio
Esta é a etapa mais simples, uma vez que o único sufixo que denota um
advérbio é “mente”. Neste caso também há uma lista de exceções.
32
4. Remoção do aumentativo e diminutivo
Remove o sufixo dos substantivos e adjetivos que podem ter aumentativo e
diminutivo. Por exemplo, “gatinha” ou menininha”.
5. Remoção de sufixos em nomes
Esta etapa testa as palavras contra uma lista de 61 sufixos para substantivos e
adjetivos. Se o sufixo for removido, as etapas 6 e 7 não são executadas.
6. Remoção de sufixos em verbos
Os verbos da língua portuguesa possuem mais de 50 formas diferentes de
conjugação (na língua inglesa existem apenas 4). Cada uma delas possui seu
conjunto de sufixos específicos. Os verbos podem variar de acordo com o
tempo, a pessoa, o número e o modo. A estrutura das formas verbais pode ser
representada por: radical + vogal temática
2
+ tempo + pessoa, por exemplo:
“andaram” = “and + a + ra + m”. As formas verbais são reduzidas ao seu
radical correspondente.
7. Remoção de vogais
Esta etapa consiste em remover a última vogal (“a”, “e”ou “o”) das palavras
que não foram examinadas pelas etapas 5 e 6. Ex.: “menino” “menin”.
8. Remoção de acentos
Esta atividade é necessária porque existem vários casos onde algumas
variantes são acentuadas e outras não, como em “psicólogo” e “psicologia”,
por exemplo.
_______________________
2
Existem três classes de verbos na língua portuguesa, de acordo com a terminação da forma infinitiva:
“ar”, “er” e “ir”. A vogal temática é a letra (“a”, “e” e “i”) que agrupa verbos e categorias.
33
A execução deste passo por último é importante, porque a presença de acentos
é significativa em algumas regras, por exemplo: “óis” para “ol” transformando “sóis”
em “sol”, por exemplo. Se a regra fosse “ois” para “ol”, poderia causar erros no caso de
“dois” para “dol”.
2.1.3.5 Dicionários de dados (Thesaurus)
Objetivando o tratamento adequado de alguns problemas intrínsecos da língua
são criados dicionários de apoio, tesauros, lista de termos não relevantes ou específicos
do jargão técnico para dar suporte ao trabalho de processamento do dado textual. Esse
passo é dependente do objetivo do projeto que pode fazer uso de todos os elementos de
apoio ou somente de alguns de acordo com a necessidade.
No momento em que se transforma o texto em termos individuais ou
compostos observa-se que alguns aparecem muitas vezes, outros medianamente e outros
raramente.
A utilização de alguns termos em detrimento de outros é uma escolha feita
pelos especialistas que conduzem o processo de descoberta e, para tanto, são criados
dicionários especializados e lista de termos que apóiam o trabalho de escolha dos
termos que serão utilizados pelos algoritmos de mineração de texto.
Uma preocupação natural seria unificar todas as palavras que possuem o
mesmo significado. Então, cria-se um dicionário de sinônimos ou um tesauros que
converte os termos sinônimos em um termo preferido. Esse tipo de tratamento é
importante para redução da quantidade de termos nos documentos, isto é, para n termos
sinônimos, a máquina os trata como termos não correlacionados e, para fins de
estatísticas, são computadas individualmente para cada termo, o que não é interessante
para a captura do conceito do documento. Convertido os n termos sinônimos para o
34
preferido, a análise será feita em apenas um termo que pode ampliar a sua relevância no
documento.
Outra utilização destes dicionários de apoio seria a correção de erros
ortográficos corriqueiros. O procedimento é análogo ao dicionário de sinônimos que,
neste caso, cadastram-se os prováveis erros ortográficos mais comuns. Ex. iorgute
iogurte.
A datação do texto deve ser verificada para que não seja modificado o seu
conteúdo sem as devidas considerações. A escrita de determinada época não deveria
sofrer correções automáticas, pois seriam descaracterizadas. Ex. Pharmácia
Farmácia.
De maneira similar, podem-se identificar abreviaturas que estão fora do padrão
para serem corrigidas. Além disso, as palavras compostas não devem ser separadas ou
convertidas para um sinônimo de um de seus termos, pois podem mudar de sentido. Por
exemplo, foi criado um dicionário de sinônimos que contém a relação dos termos Casa e
Morada, de forma que a ocorrência do termo Morada seria convertida para o termo
Casa. Não seria apropriado converter o primeiro termo da palavra composta “Casa
Civil”, pois descaracterizaria o sentido. Uma solução para reconhecer esses termos
automaticamente seria o cadastramento das formas compostas para sua correta
identificação.
Em determinados projetos pode ser útil a identificação de Entidades que
relacionam termos com categorias. O objetivo dessa tarefa é distinguir termos que
contém informações bastante relevantes para o processo de descoberta.
35
Imaginemos um corpus
3
contendo informações cadastrais de usuários de
determinado serviço ou clientes de uma empresa. Seria de grande valia identificar no
texto o nome, o endereço, o telefone, a empresa na qual trabalha e assim por diante.
Dessa forma, cria-se um dicionário de apoio contendo prováveis formatos em
que são apresentadas essas Entidades. Frequentemente, essa tarefa é realizada por
analistas de domínio que detém conhecimento a priori das categorias que deverão ser
identificadas.
2.1.3.6 Indexação
Os sistemas de Recuperação de Informação, cedo ou tarde, esbarram no
problema de representação de documentos e consultas de usuários. Um documento
precisa ser codificado de uma forma que facilite sua manipulação e que permita uma
correta mensuração de seus termos.
Segundo, EBECKEN (2003), o objetivo principal da indexação dos textos é
facilitar a identificação de similaridade de significado entre suas palavras, considerando
as variações morfológicas e problemas de sinonímia.
Nessa fase as características dos documentos são identificadas e adicionadas
ao sistema de recuperação de informações (SRI).
Este processo tem como resultado a geração de um índice. Esse índice é
construído através de um processo de indexação. Indexar, portanto, significa identificar
as características de um documento e colocá-las em uma estrutura denominada índice.
Um documento pode ser indexado por termos diferentes que são
________________________
3
Corpus é uma coleção de documentos.
36
correspondentes ao vocabulário utilizado em sua área. Nesse caso, geralmente, um
conjunto de termos predefinidos e específicos para cada assunto da área em questão.
Essa técnica facilita muito a localização de informações, pois usuários de
determinadas áreas específicas estão acostumados a utilizar os termos comuns. Por
outro lado, se o SRI for utilizado em uma área diferente da área para a qual foi indexado
ele não será tão eficiente porque os problemas relacionados à diferença de vocabulário
serão mais frequentes.
Quando a indexação é realizada manualmente, a pessoa encarregada de fazê-la
deve analisar o conteúdo de cada documento e identificar palavras-chave que o
caracterizem. Essas palavras, quando adicionadas ao índice, passam a ser chamadas de
termos de índice. A geração automática de índices deve produzir o mesmo resultado,
isto é, produzir os termos de índice.
Em mineração de textos, a indexação é um processo automático (ver figura 2-
5). Pode-se ver que os documentos que são fornecidos à ferramenta de indexação
passam por uma sucessão de etapas de processamento e ao final é produzido um arquivo
de índices que consegue localizar os documentos apresentados.
Figura 2-5 - Sequência do processo de indexação automática
37
A primeira etapa responde por identificar as palavras, ou as fronteiras das
palavras usualmente feitas pelo caractere em branco. A segunda elimina, dentre essas
palavras, as não discriminantes (stop-words), em seguida, a terceira executa um
procedimento de normalização de sufixos, o stemming. A quarta é responsável pela
detecção de termos compostos, isto é, termos com mais de uma palavra. Finalmente,
esses termos, pós-processados, são armazenados na estrutura invertida associados aos
documentos de origem.
É importante salientar que esse tipo de indexação automática ainda é bastante
simples, não considera a semântica do documento nem a posição sintática das palavras
nas orações. Em virtude dessas necessidades surgiram outras formas de indexação mais
complexas que usam o mesmo motor de indexação, mas aplicado a uma estrutura de
texto enriquecida com metadados. Os metadados são tags que marcam informações
semânticas ou estruturais do texto. Para o indexador, as tags nada mais são do que novas
palavras adicionadas ao texto que serão também indexadas.
2.1.4 Mineração
A fase de Mineração envolve decidir quais algoritmos deverão ser aplicados
sobre a massa de dados desenvolvida até o momento. Para tanto, deve se optar por uma
ou mais Tarefas de Mineração, que nada mais é do que decidir o que se quer obter de
informação. Por exemplo, se a necessidade de informação do usuário é obter o
relacionamento entre documentos, verificando o grau de similaridade e a formação de
grupos naturais, então a tarefa a ser escolhida é a clusterização. Em contrapartida, se
estes grupos de documentos já existem, seja pela execução de algoritmos ou pelo
conhecimento prévio de especialistas, então a indicação de aonde um novo documento
38
deve ser encaixado é conseguida através de algoritmos de classificação. As técnicas
mais utilizadas são Classificação e Clusterização.
2.1.5 Análise
A etapa de Análise da Informação também pode ser chamada de Pós-
processamento de dados e diz respeito à verificação da eficiência da aplicação dos
algoritmos da etapa anterior. Em outras palavras, é o momento de avaliar se o objetivo
foi cumprido da melhor forma possível, que é descobrir conhecimento novo e inovador
a partir de pilhas de documentos não-estruturados.
Existem diversas maneiras de se avaliar a mineração como um todo, seja de
forma qualitativa ou quantitativa. A utilização de métricas, conforme já mencionado, é
considerada uma forma quantitativa, ao passo que a utilização do conhecimento de
especialistas no domínio é considerada uma forma qualitativa. Os especialistas devem
sempre ser consultados, em todas as etapas da Mineração, balizando a análise, ajudando
a resolver situações de conflito, indicando caminhos e complementando informações.
Entretanto, alguns conflitos podem ocorrer como a divergência de opiniões entre dois
ou mais especialistas, bem como, a própria mudança de opinião de um mesmo ao longo
do tempo.
Por último, a forma mais intuitiva de se analisar um resultado é fazendo uso de
elementos gráficos, através de ferramentas de visualização. A introdução e gráficos,
com noções de cores e distâncias, ajuda a entender o sentido de grandes e complexos
conjuntos de dados, que não são facilmente manuseados.
Na prática, estas métricas podem ser utilizadas como forma de avaliação do
mesmo, isto é, para saber se o mecanismo funcionou ou não como deveria. Nesse caso,
39
as métricas poderiam informar para o usuário quantos e quais documentos lhe são
relevantes, além de quanto cada um deles é relevante.
Porém, para que essas métricas funcionem corretamente, é necessário que a
coleção de documentos a ser analisada pelo sistema seja muito bem conhecida, ou seja,
para cada documento é necessário saber, para quais consultas (ou assuntos) eles são
relevantes.
Segundo HAN e KAMBER(2001), os especialistas têm considerável
dificuldade manual de analisar tantas regras para identificar algumas verdadeiramente
interessantes. Para resolver tal problema, tem sido desenvolvida uma aproximação para
ajudá-los a encontrar regras interessantes (em particular, regras inesperadas) de um
conjunto de regras descoberto. A Análise de Interessabilidade alavanca o conhecimento
do domínio existente para analisar descobertas e então classificar as regras descobertas
de acordo com os vários critérios de Interessabilidade, tal como conformidade e vários
tipos de inesperados.
O procedimento de Interessabilidade refere-se a encontrar regras que são
interessantes e úteis aos usuários, não somente qualquer regra possível. Pesquisas em
Mineração de Dados tem mostrado que podemos medir a Interessabilidade de uma regra
usando ambas as medidas: objetivas e subjetivas (LIU e CHEN, 2000).
Medidas objetivas envolvem analisar a estrutura das regras, a performance
preditiva, e a significância estatística. Entretanto, medidas objetivas são insuficientes
para determinar a Interessabilidade de uma regra descoberta, sendo necessárias medidas
subjetivas.
40
As duas principais medidas subjetivas de Interessabilidade são:
Inesperabilidade: As regras são interessantes se elas são desconhecidas do
especialista ou contradizem ao existente conhecimento do especialista (ou esperado);
• Acionabilidade: As regras são interessantes se os especialistas podem acionar
alguma atividade que produza benefício. As regras interessantes podem ser classificadas
dentro de três categorias:
• Regras que são ambas inesperadas e acionáveis;
• Regras que são inesperadas, mas não são acionáveis, e
• Regras que são acionáveis, mas esperadas.
O foco deste trabalho é para o inesperado, ou seja, não é objetivo validar uma
hipótese do negócio e sim identificar conhecimentos inexistentes que agregem a
organização.
41
3. Estudo de Casos
3.1 Descrição do problema
A Petrobras como operadora de saúde, com seu plano AMS, Assistência
Multidisciplinar de Saúde, é um benefício empresarial, sem fins lucrativos e está
presente, desde 1975, quando foi criado, por decisão da Diretoria Executiva, para
atender às necessidades de saúde de cerca de 280 mil pessoas, entre eles empregados,
aposentados, pensionistas e seus dependentes. E conta com uma rede credenciada de
serviços de saúde de aproximadamente 22 mil prestadores, e opera praticamente em
todo o território nacional.
É um Programa gerenciado e operacionalizado pela própria Companhia
(autogestão
1
), de qualidade reconhecida, onde realiza o gerenciamento do pagamento
dos credenciados
2
, bem como o desconto das parcelas dos beneficiários
3
referentes às
despesas efetuadas e contribuições mensais.
Para um melhor atendimento aos seus usuários, sendo de beneficiários ou
credenciados, a AMS oferece o serviço de Fale Conosco no site da Petrobras onde são
registrados os elogios, reclamações, sugestões ou solicitações. As informações são
registradas em linguagem natural em uma base de dados textual, onde cada registro
corresponde a um texto contendo as transcrições de usuários da AMS. Esses textos
_____________________________
1
Autogestão – entidades que operam serviços de assistência à saúde destinados, exclusivamente, a
empregados ativos, aposentados, pensionistas ou ex-empregados, de uma ou mais empresas ou, ainda, a
participantes e dependentes de associações de pessoas físicas ou jurídicas, fundações, sindicatos,
entidades de classes profissionais ou assemelhados e seus dependentes.
2
Credenciado pessoa física ou jurídica, autorizada por entidade de classe regulamentada a executar
ações e/ou serviços de saúde, coletiva ou individual, que prestam serviço às operadoras de plano privado
de assistência à saúde.
3
Beneficiário – usuário titular ou dependente – dos direitos definidos em contrato assinado entre uma
pessoa física ou pessoa jurídica com uma operadora para garantia da assistência. O termo beneficiário
refere-se ao vínculo a planos de saúde, podendo existir mais de um vínculo para um mesmo indivíduo.
42
são fontes de informação importante para gestão da empresa, porém, na forma textual,
uma tarefa árdua de leitura por parte dos analistas de apreender o conteúdo de cada
um.
A figura 3-1 mostra a tela principal do Fale Conosco da AMS, onde o usuário
poderá selecionar se deseja registrar ou consultar uma manifestação. Nota-se que o
registro e consultas das manifestações são realizados na Internet ou Intranet da empresa.
E na figura 3-2 são exibidos os campos do formulário para o registro da manifestação
do Fale Conosco.
Figura 3-1 – Tela principal do Fale Conosco
43
Figura 3-2 – Tela para registro da manifestação do Fale Conosco
Uma característica interessante é que, dada a quantidade de registros e de
analistas diferentes, as relações entre os textos, isto é, as associações entre os temas
descritos nos registros não são observadas. Essas informações implícitas, que existem
apenas no contexto da análise de vários documentos concomitantemente, não são
visualizadas por falta de ferramental apropriado.
Dessa forma, o trabalho manual de leitura de classificação, de envio de
mensagens aos gestores e de respostas aos usuários demanda tanto recursos humanos
44
quanto tempo e, assim, impacta diretamente na velocidade e na qualidade de
atendimento esperado pelo usuário.
Como mencionado, o trabalho é feito manualmente e, dado o seu volume, o
acúmulo é inevitável. Eventualmente, são executados mutirões de leitura com objetivo
de dar vazão às mensagens represadas e de compreender problemas específicos
apontados nos seus conteúdos.
Outra característica advinda da manipulação das informações por pessoas é que a
classificação das mensagens e o encaminhamento para destinatários corretos estão
correlacionados à experiência do profissional, isto é, a chance de erros aumenta
proporcionalmente a sua inabilidade em reconhecer o assunto das mensagens e vinculá-
las às áreas gestoras. Dessa forma, há que se fazer uma verificação rotineira para
reclassificar essas mensagens.
Os agrupamentos criados para categorizar os textos devem passar por revisões,
em consequência da dinâmica do fluxo de trabalho, com objetivo de identificar novas
categorias ou eliminar antigas que não mais se aplicam.
Considera-se que a informação contida nos documentos do Fale Conosco é
importante para a estratégia de atendimento e, uma vez estruturada, pode nortear a
gestão estratégica na definição de políticas para serviços da organização com o objetivo
de melhor atender à demanda do usuário.
3.2 Obtenção do arquivo de dados
Para a construção do modelo de mineração de textos é importante que se tenha
um conjunto de documentos pré-classificados nas diversas categorias temáticas do
domínio de interesse, neste contexto a base de dados do Fale Conosco.
45
Os usuários do Fale Conosco, dos Serviços de atendimento aos usuários de
assistência à saúde da Petrobras, utilizam a internet ou Intranet da empresa para
digitação do texto a ser realizada a comunicação com áreas representantes do Plano de
saúde. Estas informações são armazenadas em base de dados Lótus Notes, mas devido à
política de acesso da Segurança das Informações da Empresa, a obtenção dos dados se
deu através de planilhas em formato Excel.
A própria aplicação do Fale Conosco contém uma funcionalidade que exporta as
informações para planilhas Excel. As informações das planilhas utilizadas encontram-se
na seguinte estrutura:
Ano: Ano da criação do registro;
Número do Mês: Número que corresponde ao mês de criação do registro;
Mês: mês da criação do registro;
Dia: dia de criação do registro;
Serviço: Tipo de serviço selecionado pelo solicitante (AMS, gestão da
Rede Credenciada, Beneficiário...);
Assunto: Assunto da solicitação;
Código: Chave numérica, única para cada solicitação;
Tipo: Tipo da solicitação (dúvida, elogio, sugestão...);
Origem: Origem da solicitação (Internet, correio interno...);
Situação: situação da solicitação (aberta, encerrada...);
Dias Executados: quantidade de dias que foram utilizados para solucionar
a solicitação;
46
Gerência: Gerência do solicitante;
Descrição: Transcrição textual da solicitação do usuário;
Responsável: Solicitante responsável pela abertura da solicitação;
Chave Solicitante: Chave interna da empresa, caso solicitante tenha aberto
a solicitação pelo correio interno;
Após entendimento sobre o significado dos campos, foi percebida a importância
de identificação de quais informações seriam úteis e necessárias para o estudo de caso a
ser realizado, portanto as seguintes informações foram consideradas:
Ano: Ano da criação do registro;
Número do Mês: Número que corresponde o mês de criação do registro;
Mês: mês da criação do registro;
Assunto: Assunto da solicitação;
Origem: Origem da solicitação (Internet, correio interno...);
Tipo: Tipo da solicitação (dúvida, elogio, sugestão...);
Gerência: Gerência do solicitante;
Descrição: Transcrição textual da solicitação do usuário.
Serão avaliados em torno de 26.000 registros da Base de Dados do Fale
Conosco, de um período de 1(um) ano (de março de 2008 a fevereiro de 2009). Os
exemplos ilustrados na tabela 3-1 mostram registros extraídos da base estudada.
47
Tabela 3-1 –Exemplos da Base de Dados
Ano Mês Assunto Origem Tipo Gerência Descrição
2008 12 Deze
mbro
Orientações
Normativas
sobre o
Programa
de AMS
E-MAIL SUGESTÃ
O
RSUD Nome: XxXXXXx
Chave: XXXX
Ramal: XXXXXXXXXXx
Lotação: XXXXXXXXXX
Mensagem: Caros amigos,
Sinto-me extremamente desgostoso
com o planos AMS Petrobras...Pois
moro na localidade da Vila da Penha,
no município do Rio de Janeiro e as 2
clinicas que são de confiança e mais
próximas de minha residência não
aceitam este referido plano (Clínica
Br Balbino e grande Rio). Como se
não bastasse, Meu médico deixou de
trabalhar para este plano, devido ao
valor de pagamento e demora no
mesmo. E a maioria das clínicas que
quero realizar algum tipo de
tratamento não aceitam e o que me
deixa mais triste e atônito é saber que
o plano da BR Distribuidora, uma
subsidiária desta empresa que
trabalho, é prontamente aceito por
todos... Gostaria realmente de saber
como faço para deixar de utilizar este
plano.
Obrigado.
2008 12 Deze
mbro
Caracteriza
ção de
Dependente
s
INTRAN
ET
DÚVIDA/
CONSULT
A
RSUD Fale com a AMSUm contato foi
efetuado por um visitante do Portal.
Verifique abaixo os dados
recebidos.Nome: Fernando
Henrique Fernandes mat: 07 38628
Chave: XXXRamal:
XXXXXXXLotação:
XXXXXXXXXXXXXMensagem:
Gostaria de realizar a exclusão de um
de meus dependentes,devido
falecimento do mesmo
2008 12 Deze
mbro
Desconto
parcelas de
Grande
Risco ou
Plano
28/33
INTRAN
ET
RECLAM
AÇÃO
RSUD 'Contato: XXXXXXXXXXX
Mat.: XXXXXXXx
Valores lançados no contracheque da
A.M.S. Grande Risco]
Em função de ter dado umas
discrepâncias nos valores cobrados e
lançados nos
contracheques referentes à A.M.S.
Grande Risco ,resolvi fazer uma
conferência,
coisa que nem me preocupava fazer, e
gostaria que fosse analizada por
vocês. Se
não me enganei em nunhum dado,
entre setembro de 2007 e outubro de
2008 foi me cobrado a importância de
R$4638,00 quando deveria ser
R$4062,06, conforme planilha
anexa.Não entendo o porquê desta
alteração mensal de cobrança se o
valor do grande risco é constante
todos os meses. Esta metodologia
dificulta a conferência, coisa que eu
não fazia e passarei a fazer pois me
parece que o sistema não está
confiavel. email-XXXXXXXXXX
48
3.3 Pré-processamento dos dados
Após a coleta dos dados, um passo essencial e que consome a maior parte do
tempo é a preparação dos dados. Este processo envolve várias tarefas, conforme descrito
no item 2.3.1.3. Além disso, esta etapa exige planejamento e processamento, pois
durante a transformação dos textos em formato estruturado existe a possibilidade de que
a informação intrínseca ao conteúdo dos textos seja perdida. Deve-se buscar, portanto,
uma boa apresentação minimizando a perda de informação.
Com os dados disponíveis foi inicializada a etapa de validação, exploração e
limpeza dos mesmos. Nesta etapa, um estudo exploratório dos dados foi realizado para
se detectar impurezas, valores absurdos, ruídos e buscar uma maior compreensão dos
dados que iriam ser tratados.
Primeira observação feita foi à verificação da confiabilidade dos dados obtidos,
porém os dados estavam preenchidos para as informações necessárias ao estudo, pois os
documentos com valores nulos foram desconsiderados. E os dados confiáveis,
apresentavam alguns valores absurdos, ruídos, que necessitavam de uma limpeza,
conforme exibido na figura 3-3.
Figura 3-3 – Exemplo de ruído na base de dados
49
Os ruídos mais evidentes eram apresentados nos registros cadastrados por e-mail
externos. Portanto, precisavam ser removidos para não interferir em efeitos negativos
que pudessem influenciar o resultado final. Então, precisou incluir mais um passo no
processamento dos dados para eliminação dos ruídos.
O processo de preparação constitui-se da estruturação dos dados e se deu
basicamente nos seguintes passos:
O primeiro passo: Retirada de registros duplicados, onde foi verificado que 87
registros eram supostamente duplicados, entretanto, eliminá-los prontamente pode
retirar informação importante. Diante disto, verificou-se registro a registro e
constataram-se algumas duplicações que foram eliminadas. Os registros apresentados na
tabela 3-2 indicam uma duplicação, pois o único campo diferente é o código do registro,
mas a manifestação é igual.
Tabela 3-2 –Exemplos de duplicação de Registro
Código
Ano
Mês Tipo Origem
Gerên-
cia Descrição
11170
2008
Sete
mbro
RECLA
MAÇÃO
E-MAIL SAMS
faleams contato foi efetuado visitante
Portal Verifique abaixo dados recebidos
Nome e Ramal Lotação Mensagem
Senhores AMS,O acho mais
interessante é sequer descrição
reclamação foi registrada conforme
relato comer fiquei hospital sexta noite
domingo tarde não apenas dia foi
colocado hospital disse ficaria ali
momento não havia apartamento vago
nenhum momento fui informado
procedimentos executados estariam ...
11173
2008
Sete
mbro
RECLA
MAÇÃO
E-MAIL SAMS
faleams contato foi efetuado visitante
Portal Verifique abaixo dados recebidos
Nome e Ramal Lotação Mensagem
Senhores AMS,O acho mais
interessante é sequer descrição
reclamação foi registrada conforme
relato comer fiquei hospital sexta noite
domingo tarde não apenas dia foi
colocado hospital disse ficaria ali
momento não havia apartamento vago
nenhum momento fui informado
procedimentos executados estariam ...
50
O segundo passo: O campo Descrição, que contém a transcrição textual das
informações relevantes dos usuários do Fale Conosco, apresenta alguns caracteres
inválidos, não reconhecidos, que provocarão erros durante o processamento das
informações, conforme figura 3-4. Foi necessário, então, um amplo pré-processamento
nos textos utilizados, para o tratamento dos dados, em que foram retirados os caracteres
inválidos.
Figura 3-4 - Exemplos de texto original com caracteres inválidos
No terceiro passo: Retiraram-se os sinais de pontuação (“, “-“ ”.” “!” “/”), que
são indesejados dentro de uma análise. Como também, retiraram-se os caracteres
matemáticos, como “%”, “+”, “<”, o caractere monetário ($) e os caracteres de
formatação (caractere de tabulação, newlines, etc).
No quarto passo: A extração de termos é executada automaticamente e
normalmente o espaço em branco entre as palavras é o indicador para dividir o texto em
51
termos. Então, para a retirada dos números, primeiramente foi necessário analisar a base
de dados para verificar os números de grande valia, como por exemplo, 2via, 10mg,
20mg, etc. Onde foi realizada uma junção dos números com a palavra relevante. E
somente após esta verificação, foram excluídos os números sem nenhuma importância.
Para o quinto passo: Como se deve ter o cuidado de não separar palavras
compostas, como por exemplo, “mineração de textos” e por isso faz-se necessário a
execução de testes para verificar e validar a co-ocorrência entre termos. Na base de
dados estudada alguns termos precisaram ser considerados como Raio-X, infra-
estrutura, faleams, belo horizonte, ex-esposa, buço-maxilo-facial, pre-operatorio, recem-
nascido, entre outras. Conforme pode ser observado no exemplo “faleams”, alguns
termos foram juntados para que pudessem melhor ser considerados, e não confundidos
com outros termos semelhantes, como “ams".
No sexto passo: Foi definida a stoplist a ser utilizada, foi feita a opção de se criar
uma lista manualmente para que pudessem ser retirados os termos sem importância, isto
é, a lista foi criada a partir da freqüência de aparição das palavras, mas também foi
validada por um especialista no domínio do assunto.
Foi necessário acrescentar alguns termos em inglês na lista de stopwords, devido
aos ruídos encontrados em algumas solicitações com a origem mensagens externas. E
conforme validado pelo especialista no domínio do assunto, não recebem solicitações
em inglês, somente na Língua Portuguesa. Os termos em inglês incluídos na lista de
stopwords são: Live, Search, Maps, entre outros.
A lista com alguns termos utilizados e composta por preposições, conjunções e
artigos, é apresentada na tabela 3-3.
52
Tabela 3-3 – Stoplist utilizado no estudo de caso
a
à
agora
ainda
além
alguém
algum
alguma
algumas
alguns
ampla
amplas
amplo
amplos
ante
antes
ao
aos
após
aquela
aquelas
aquele
aqueles
aquilo
as
ate
até
através
cada
da
daquele
day
coisa
coisas
com
como
contra
contudo
daqueles
das
de
dela
delas
dele
deles
depois
dessa
dessas
desse
desses
desta
destas
deste
deste
destes
disso
disto
dito
do
dos
e
é
e'
ela
elas
ele
eles
em
essas
enquanto
entre
entretanto
era
essa
esse
esses
esta
este
estes
estou
eu
grande
grandes
information
isso
isto
la
la
lhe
lhes
live
lo
maps
mas
me
na
mesma
mesmas
mesmo
mesmos
meu
meus
mim
minha
minhas
monday
msn
muita
muitas
muito
muitos
não
nas
nem
nenhum
nessa
nessas
nesta
nestas
new
ninguém
no
nos
nós
nossa
nossas
nosso
nossos
num
numa
nunca
o
onde
os
ou
outra
outras
outro
outros
p
para
pela
pelas
pelo
pelos
pequena
pequenas
pequeno
pequenos
per
perante
pois
por
porém
porque
posso
pouca
poucas
pouco
poucos
pra
primeiro
primeiros
própria
próprias
próprio
próprios
quais
qual
quando
quanto
quantos
que
quem
ramal
são
se
search
seja
sejam
sem
sempre
sendo
seu
seus
si
sido
sob
sobre
sua
suas
talvez
também
tampouco
te
tem
teu
teus
the
ti
time
times
toda
todas
todavia
todo
todos
tu
tua
tuas
tudo
última
últimas
último
últimos
um
uma
umas
uns
vendo
ver
vez
vindo
vir
vos
vós
with
york
Essa fase tem como objetivo remover stopwords. A remoção de stopwords foi
realizada de modo automático. Primeiramente, criou-se uma estrutura de dados do tipo
lista contendo todas as palavras que poderiam ser removidas. Posteriormente, aplicou-se
um algoritmo cujo objetivo foi realizar uma pesquisa no arquivo e remover as palavras
que fossem iguais a alguma presente na stoplist.
No sétimo passo: Para a remoção das abreviaturas existente na descrição da
manifestação, foi necessário analisar se alguma abreviatura presente era relevante ao
contexto, como as abreviaturas “rx” de raio x e “ato” de autorização prévia de
procedimentos odontológicos
. Logo, as abreviaturas rx e ato não puderam ser eliminadas,
53
sendo desconsideradas nos passos adiante, de lematização. Mas, as demais abreviaturas,
qd, re, vc, Sr., Sra, podem ser removidas do documento. Assim como, as abreviaturas da
lotação dos usuários, rsud, rbc, etc também foram desconsideradas.
No oitavo passo: Realização da remoção dos nomes próprios, feita com a
utilização de um dicionário de nomes próprios, pois não se objetiva identificar ninguém
e, portanto, esses termos somente aumentariam o tempo de processamento e não
agregariam valor ao trabalho. Similar ao processo de stoplist, foi criada uma lista com
os nomes próprios, como por exemplo, Erica, Jussara, Marcus, Flavia, Joel, Mendonca,
Jacy, Odete, etc. Após criada a lista de nomes próprios, foi aplicado um algoritmo para
realizar a pesquisa no arquivo e remover os nomes próprios iguais a algum presente na
lista.
No nono passo: Para o especialista do domínio do assunto os endereços de e-
mails eram palavras irrelevantes ao estudo, portanto foi feito um processo para a
retirada destes endereços existentes nas manifestações. Para a eliminação dos endereços
de e-mails foi criado um algoritmo onde o token que contivesse o caractere @, o token
inteiro era eliminado.
A lematização foi feita após o processamento dos dados na ferramenta de
mineração de textos, devido à ferramenta a ser utilizada possuir este recurso.
Após todos estes passos, o texto se apresenta com palavras mais ricas a serem
estudadas. A figura 3-5 mostra o exemplo do texto apresentado na figura 3-4 após o pré-
processamento dos dados.
54
Figura 3-5 - Exemplos de texto após etapa de pré-processamento
3.4 Mineração
3.4.1 O programa SAS
A ferramenta utilizada para a descoberta de regras na base de dados de utilização
do estudo de caso foi do Instituto SAS (Statistical Analsys System SAS Institute inc.).
O Instituto SAS utiliza software analítico para ajudar aos clientes a transformarem
dados em conhecimento. (INSTITUTO SAS, 2009)
As ferramentas utilizadas para o processo foram o Enterprise Guide e o
Enterprise Miner, este último é necessário para a utilização do módulo Text Miner.
O Enterprise Guide é uma ferramenta OLAP para Windows, orientado por
projetos, e que possibilita acesso rápido a uma grande parte da potencialidade analítica
do instituto SAS para estatísticos, analistas de negócios e programadores SAS. O
programa suporta leitura de textos em vários formatos como por exemplo, Word,
HTML, pdf, txt, Excel, Access, entre outros. (INSTITUTO SAS, 2009)
O Enterprise Miner, software de Data Mining, inclui uma diversidade de
componentes, para seleção, exploração, modificação, modelação e avaliação de dados
permitindo uma forma fácil e rápida de obter conhecimento. Estes componentes são
integrados capacitando os utilizadores a tirarem proveito dos dados corporativos para
obter vantagem estratégica, tudo num único ambiente. As suas ferramentas de
visualização permitem uma análise rápida e fácil dos dados e resultados obtidos.
Gostaria receber esclarecimentos cobertura plano procedimentos implantes dispositivos intra-
uterinos grato
FaleAMS contato foi efetuado visitante Portal Verifique dados recebidos Nome XX Chave XX Ramal
Lotação Mensagem Boa tarde Gostaria saber AMS cobre cirurgia parto cesariana caso positivo
considerado grande pequeno risco percentagem participação empregado Aguardo retorno rápido
possível
55
O módulo Text Miner é o produto do instituto SAS para Text mining. Este
módulo disponibiliza ferramentas para descobrir e extrair informação de uma grande
variedade de documentos de texto numa coleção. O Text Miner descobre os temas e
conceitos que estão contidos na coleção. Estabelece conexões entre documentos e
termos de na coleção como um todo.
O Text miner permite descobrir e usar a informação que existe num conjunto de
documentos como um todo. Podem-se processar volumes de dados textuais como
mensagens de e-mail, artigos de notícias, páginas da Web e documentos de pesquisa, até
mesmo se eles são armazenados em diferentes idiomas ou formatos de dados. Ele
transforma os dados em texto em um formato utilizável que facilita a classificação dos
documentos, encontrando relações explícitas ou associações entre documentos, e
agrupamento de documentos em categorias. (INSTITUTO SAS, 2009)
O Text mining começa com a criação de um conjunto e dados de input para o
módulo de Text Miner. O módulo processa dados em três fases: parsing do texto,
transformação, e clustering de documentos. O parsing do texto processa dados textuais
numa matriz de frequência de termo-documento que é adequada para propósitos de data
mining. Uma coleção de documentos pode conter centenas de milhares de condições. A
matriz de frequência resultante pode ser muito grande. O clustering no módulo Text
Miner coloca documentos em grupos pequenos ou clusters. Objetos num determinado
agrupamento tendem a ser semelhantes entre si em algum aspecto, e objetos em
agrupamentos diferentes tendem a ser dessemelhantes. A figura 3-6 apresenta a tela
interativa do Text Miner. (INSTITUTO SAS, 2009)
56
Figura 3-6 – Tela interativa do Text Miner
3.4.2 Lematização
Após carregar o arquivo pelo Enterprise Guide e processar os dados no Text
Miner, foi feita a lematização, a diminuição da quantidade de termos que alimentam o
minerador de textos. Um dos recursos lingüísticos disponíveis na ferramenta é a redução
das palavras ao Lema.
Foram lematizados em torno 6.750 termos. Observou-se que 50% dos termos
lematizados possuem apenas 2 formas, exemplo, “o” e “os” foram substituídos por “o”.
Ainda que 90% dos casos, os termos possuem até 8 variantes. A tabela 3-4 mostra o
resumo da lematização.
Tabela 3-4 – Estatísticas dos Termos Lematizados
N 50% 90% Máximo
~2000
2 8 43
De acordo com os números apresentados, observa-se que a quantidade de lemas
é de aproximadamente 2.000, o que significa uma redução de 70%, 4.725 termos, o que
indica um vocabulário simples. O número máximo de termos encontrados foi 43, esse
57
número parece indicar um erro. Entretanto, verificando o arquivo mais detidamente,
conforme tabela 3-5, trata-se de um verbo comum neste tipo de texto.
Tabela 3-5 – Termo com maior quantidade de variantes
Termo Termo Termo Termo
1 informando-os 12
informou-se 23
informou-a 34 informava
2 Informa 13
informá-los 24
informa-lo 35 informados
3 informara 14
informa-o 25
informarão 36 informe
4 informas 15
informando-a 26
informo 37 informam
5 Informo-a 16
informando-o 27
informavam 38 informaram
6 Informo-o 17
informarei 28
informa-la 39 informar
7 informou-me 18
informassem 29
informadas 40 informando
8 informou-os 19
informei 30
informarem 41 informou
9 informou-se 20
informa-lhe 31
informasse 42 informada
10
Informá-los 21
informem 32
informá-lo 43 informado
11
Informa-os 22
informes
33
informá-la
Todas as variantes da tabela 3-4 foram computadas como “informar”, logo a
palavra passa a receber um peso maior segundo sua frequência. Observa-se que a
palavra “informes” pode tanto se referir a pessoa do singular do subjuntivo informes
quanto ao substantivo plural “informes”. Essa ocorrência foi observada mais constatou-
se que se tratava do substantivo. Outras variantes de termos são apresentadas na tabela
3-6.
Tabela 3-6 – Variantes de Termos
aguardar solicita Médico
aguardamos solicitação Médica
aguarda Solicitada
aguardando Solicitado
aguardo Solicitamos
aguardasse Solicitando
aguardei Solicita-nos
aguardam Solicitar
Solicitei
Solicito
solicitou
58
3.4.3 Exploração dos Termos
Termos que se repetem em todos os documentos são poucos informativos para o
objetivo de criar agrupamentos, pois não discriminam um documento de outro. Termos
com peso baixo também são candidatos à eliminação. Dessa forma pesos menores que
0,10 foram eliminados. Foi necessário proceder à eliminação de palavras que não foram
eliminadas automaticamente no pré-processamento, como por exemplo, nomes de
pessoas. Outro ponto foi unificar palavras escritas de forma errada, por exemplo,
“urgente” e “urgênte”. Alguns destes erros não foram identificados automaticamente e o
trabalho teve que ser manual.
Outra ferramenta que auxiliou para a desconsideração de alguns termos foi o
gráfico da figura 3-7 que apresenta o histograma dos atributos por frequência. Onde o
tipo de atributo Unknown considera os atributos com caracteres especiais, como por
exemplo, o termo infra-estrutura e rh/mas; o tipo Abbr são os termos abreviados, como
por exemplo hosp abreviatura de hospital; tipo Num, são termos que possuem
caracteres numéricos como o termo 2ºvia; e o tipo punct são os termos com pontuação
como &. Como era esperado, o tipo alpha seria o tipo de maior frequência, mas o
gráfico foi útil para indicar que mesmo após pré-processamento, a base ainda possuía
termos indesejados, como os tipos punct e abbr que foram desconsiderados.
Figura 3-7 – Histograma de atributos por frequência
59
Outro passo para exploração dos termos com pouca capacidade de discriminação
é a elaboração de agrupamentos e a verificação de suas palavras relevantes. A tarefa de
criação dos grupos de documentos está representada na figura 3-8 que indica os passos
seguidos.
Figura 3-8 Agrupamento de Documentos
O passo da preparação dos dados foi descrito na seção anterior e consiste na
adequação da informação textual para o formato requerido pelo algoritmo de
agrupamento. Essa etapa ocupa-se em rotular cada um dos documentos do corpus
baseado no exame de seus termos e, dessa maneira, reuni-los em grupos menores que
deverão conter documentos similares. A idéia é maximizar tanto a similaridade entre os
documentos dentro do grupo, quanto à diferença entre eles de grupo para grupo.
A criação de grupos é um processo matemático que calcula a distância entre os
documentos devidamente transformados em vetores numéricos. Portanto, os grupos
criados carecem de significado, isto é, devem-se analisar cada um dos grupos para
verificar o significado implícito dos documentos que contém e, assim, atribuir rótulos
aos grupos para organização e identificação do assunto de cada um deles. Essa fase
conta com o apoio do especialista de domínio do assunto para identificação do tema de
cada grupo. A figura 3-7 mostra exemplos de agrupamentos gerados pela ferramenta.
60
Tabela 3-7 – Exemplos de agrupamentos para depuração da base
Agrupamento 1 Agrupamento 2
demonstrativo pagamento
imposto + beneficiário
+ informar + receber
CNPJ procedimento
CPF guia
2via + enviar
renda total
Os termos da tabela 3-7 são os termos que descrevem os agrupamentos, isto
significa que esses termos são mais prováveis de ocorrer em um agrupamento e não
necessariamente que ocorram em todos os documentos dentro de um agrupamento.
É importante relacionar o tipo de melhoramento que o processo de automação
pode trazer, ou seja, uma das reclamações mencionadas pelos analistas foi a
ambiguidade de grupos que foram criados e nesta análise chegou-se à conclusão que
dois ou mais grupos podiam ser unificados diante da constatação da similaridade entre
seus documentos.
61
4. Resultados
Um dos principais objetivos da mineração são a quantificação e caracterização
de seu objeto de estudo. Com o levantamento dos números intrínsecos à base de dados
textuais pode-se compreender a sua abrangência e iniciar a construção de inferências
que antes estavam ocultas na forma de texto.
Nesta fase, o apoio de especialistas de domínio foi fundamental para que se
pudessem traduzir os resultados obtidos em informações que fossem de interesse do
gestor do sistema.
Segundo a opinião dos especialistas, esse tipo de informação deve estar tão
atualizada quanto possível, pois se tratam de problemas pontuais apontados pelos
clientes que encontram dificuldades ou insatisfação em relação a produtos ou serviços
da empresa naquela data específica. Esse apontamento pode variar com o passar do
tempo.
A análise dos resultados foi realizada à medida que o estudo foi evoluindo e está
dividida em duas etapas chamadas respectivamente de primeira e segunda análise, sendo
que a primeira é uma análise estatísticas básicas da base de dados, e a segunda uma
análise dos agrupamentos extraídos da base de conhecimento.
4.1 Estatísticas básicas da base de dados das manifestações
De posse de dados e ferramentas apropriadas para o desenvolvimento do projeto,
foram realizadas as tarefas descritas na metodologia. Então, inicia-se a descrição
observando a distribuição dos registros em relação ao tempo. A tabela 4-1 representa a
distribuição das ocorrências.
62
Tabela 4-1 – Distribuição Mensal das Ocorrências
Mês Frequência % Frequência
Acumulada
%
Março 4.240
16,27
4.240
16,27
Abril 2.136
8,20
6.376
24,47
Maio 1.732
6,65
8.108
31,12
Junho 2.021
7,76
10.129
38,87
Julho 2.039
7,83
12.168
46,70
Agosto 2.942
11,29
15.110
57,99
Setembro 2.336
8,96
17.446
66,95
Outubro 2.176
8,35
19.622
75,30
Novembro 1.685
6,47
21.307
81,77
Dezembro 1.443
5,54
22.750
87,31
Janeiro 1.803
6,92
24.553
94,23
Fevereiro 1.504
5,77
26.057
100,00
De acordo com a tabela 4-1, existem 26.057 registros no período de 12 meses,
com uma média de 2.171 registros mensais. Nota-se que o mês de março possui um
altíssimo índice de manifestações. Mas, o mês de agosto também possui uma evidência
em relação aos demais meses. Isso indica que quando ocorrem fatos que influenciam o
atendimento, os clientes (credenciados e beneficiários) utilizam o canal de atendimento
do fale conosco para manifestar sua opinião. A figura 4-1 mostra um gráfico que
destaca essa tendência da utilização do fale conosco de maneira mais clara:
0
500
1000
1500
2000
2500
3000
3500
4000
4500
M
a
rço
Abr
il
Mai
o
Jun
h
o
J
u
lho
A
gos
t
o
Set
em
br
o
Out
ub
r
o
N
o
vembro
Dezem
b
r
o
Ja
nei
ro
Fever
e
iro
63
Figura 4-1 – Histograma com a distribuição Mensal das Ocorrências
Continuando com a delimitação do escopo do projeto, descobrir o que incomoda
o cliente é uma meta pretendida por qualquer empresa que se preocupa com a satisfação
de seus clientes. Para tanto, parece óbvio que concentrar os esforços de estudo na
reclamação feita pelo cliente é algo natural. Mas, neste caso as solicitações de serviços
são de suma importância, conforme figura 4-2.
0,15%
19,87%
33,59%
39,95%
6,17%
0,26%
0,02%
AGRADECIMENTO
VIDA/CONSULTA
ELOGIO
GRANDES DIVULGAÇÕES
RECLAMAÇÃO
SOLICITAÇÃO DE SERVIÇO
SUGESTÃO
Figura 4-2 – Percentual de manifestações por tipo
Um outro ponto interessante é identificar o canal que concentra a entrada de
dados. Entretanto, como este não possui uma padronização correta fica difícil realizar
este reconhecimento com precisão. Observa-se na figura 4-3, que com a padronização
existente a preferência do cliente ao utilizar o Fale Conosco é o correio interno, mas o
correio interno incorpora as manifestações por telefone efetuadas pelo Call Center e as
manifestações transcritas pelos próprios usuários no próprio site da Intranet da empresa.
Nota-se que é de grande valia uma categorização da origem das manifestações.
64
16%
84%
E-MAIL (Internet)
CORREIO INTERNO
Figura 4-3 – Percentual de manifestações por origem
Outra análise realizada foi a quantificação das manifestações por gerência, como
podemos observar na tabela 4-2, a gerência RSUD é a gerência que mais recebe
manifestações, devido a sua abrangência geográfica de atendimento, o que já era
esperado. E a figura 4-4 mostra graficamente o percentual de manifestações por
gerência.
Tabela 4-2 – Distribuição das Manifestações por Gerência
Gerência
Quantidade
manifestações
%
RBC 1.233
4,71%
RNNE 5.726
21,89%
RSPS 8.049
30,77
RSUD 11.149
42,62%
TOTAL 26.057
100%
42,6%
4,7%
21,9%
30,8%
RSUD
RBC
RNNE
RSPS
Figura 4-4 – Percentual de manifestações por gerência
65
4.2 Análise dos agrupamentos
Dado que o trabalho de depuração da base se encontrava em um nível
satisfatório, realizou-se o agrupamento da coleção com o objetivo de alocar os
documentos semelhantes em grupos. O objetivo é maximizar a diferença entre os grupos
e minimizar a diferença internamente.
0,00%0,00%0,00%0,00%0,01%0,01%0,03%0,05%0,06%0,06%0,06%0,09%0,10%0,11%0,15%0,15%0,19%0,20%0,24%0,25%0,27%0,28%
0,32%0,38%0,43%
0,45%
0,49%
0,53%
0,53%
0,54%
0,54%0,54%
0,55%
0,55%
0,56%
0,56%
0,58%
0,59%
0,60%
0,62%
0,64%
0,69%
0,70%
0,75%
1,23%
1,28%
1,29%
1,71%
2,14%
2,91%
2,94%
3,19%
3,56%
3,93%
3,97%
4,38%
4,53%
6,48%
7,14%
8,06%
13,07%
13,69%
Figura 4-5 – Distribuição dos agrupamentos
A partir dessa base pré-limpa, foram gerados 63 agrupamentos que auxiliam a
visualização dos termos relevantes, conforme figura 4-5 que exibe a distribuição destes
grupos. Os agrupamentos encontrados foram analisados por um especialista do assunto
que utilizou as medidas de peso e frequência para seleção dos grupos, conforme pode
ser observado no gráfico da figura 4-6. Onde são atribuídos pesos maiores para
elementos menos freqüentes.
66
Figura 4-6 – Distribuição do Peso por frequência
E o gráfico 4-7 exibe a distribuição da quantidade de documentos por frequência,
onde nota-se que a maioria dos termos encontra-se restrito a poucos documentos, e
poucos termos disseminados em um número grande de documentos, conforme gráfico
da figura 4-7. Ou seja, os termos estão próximos a uma diagonal principal, o que
representa a não ocorrência de ruídos.
Se ocorressem termos com freqüências altas em poucos documentos ou
freqüências baixas em muitos documentos poderiam representar potenciais candidatos a
stoplist. Portanto, concluímos que não existem ruídos nos dados processados.
Cada ponto representa o termo, mostrando que existe uma grande concentração
de termos (eixo vertical) com frequências similares. Esta hipótese pode ser confirmada
no histograma de número de documentos por frequência exibido na figura 4-8.
67
Figura 4-7 – Distribuição da quantidade de documentos por frequência
Figura 4-8 – Histograma de Número de Documentos por frequência
Foram considerados válidos os grupos com frequência superior a 0,075,
indicando a maior ocorrência. Com essa configuração encontrou-se 19 grupos. O
especialista do assunto optou por analisar somente estes grupos, devido aos outros
grupos apresentarem uma menor ocorrência nas manifestações analisadas e por serem
assuntos menos relevantes a serem tratados. Como por exemplo, os assuntos tipos
exames cobertos pelo plano e empréstimos. Para os tipos de exames cobertos devem ser
analisados conforme a necessidade do beneficiário. E para o assunto empréstimos, são
abertas manifestações equivocadamente.
A seleção de termos foi baseada na filtragem baseada no Peso do Termo. Mas a
análise de resultados foi feita considerando as taxas de frequência e número de
68
documentos em que os termos aparecem.
O resumo da execução dos termos foi:
Tabela 4-3 – Resumo de execução
Índice Mínimo Máximo
Frequência 2 9350
Peso 0,107 0,978
Número de documentos 2 10875
A tabela 4-4 exibe exemplos dos termos com os índices: frequência, número de
documentos e peso. O que auxilia na análise dos termos encontrados em cada
agrupamento gerado.
Tabela 4-4 – Exemplos dos termos com os índices
Term Attribute
Freq numdocs
weight
Contato Alpha 9350
8590
0.9447
ams Alpha 9263
6627
0.9447
Solicitar Alpha 8522
7961
0.93183
Valor Alpha 5880
3448
0.89775
Dia Alpha 5256
3862
0.89775
Senha Alpha 4923
3585
0.89775
credenciado Alpha 4723
4162
0.89775
Informar Alpha 4461
3849
0.89775
Enviar Alpha 4206
3892
0.89775
Guia Alpha 4042
3318
0.89775
Nome Alpha 3958
3616
0.89775
pagamento Alpha 3885
2900
0.86366
Referente Alpha 3847
3441
0.86366
Manifestar Alpha 3736
1816
0.86366
Atender Alpha 3469
1962
0.86366
Dados Alpha 3463
3248
0.86366
Saber Alpha 3213
2976
0.86366
Mês Alpha 3120
2472
0.86366
procedimento Alpha 3107
2107
0.86366
Efetuar Alpha 3034
2986
0.86366
Gostaria Alpha 2954
2650
0.86366
Verificar Alpha 2929
2911
0.86366
69
Figura 4-9 – Links do Termo Credenciado
Figura 4-10 – Links do termo Descontar
Outra importante fonte de auxílio para a análise do especialista é a apresentação
dos links dos termos gerados automaticamente pela ferramenta. Exemplos de links dos
termos credenciados e descontar são exibidos respectivamente nas figuras 4-9 e 4-10.
Nesta visualização podem ser observadas as relevâncias dos termos vinculados.
70
Tabela 4-5 – Agrupamentos
grupo 1 grupo 2 grupo 3 grupo 4 Grupo 5
demonstrativo pagamento + credenciado + beneficiario + aposentado
Imposto + beneficiario + solicitar + informar + solicitar
+ informar + receber Guia medicamento demonstrativo
CNPJ procedimento Contato + incluir + despesa
CPF guia + imprimir contato ams
2via + enviar mes
Renda total
grupo 6 grupo 7 grupo 8 grupo 9 Grupo 10
contracheque + credenciado + fatura + descontar + credenciado
+ descontar + acessar + enviar + indevido + faturar
+ amortizar Internet + informar grande guia
+ contribuir + rendimento + entregar risco + pagar
+ indevido fisica pagamento internacao extrato
consignavel + faturar Meio contracheque contato
Útil + fatura + credenciado referente cnpj
Debito CPF + ocorrer
+ devedor CNPJ
login
+ entregar
grupo 11 grupo 12 grupo 13 grupo 14 Grupo 15
+ reclamar inativo pagamento guia pagamento
operacional + beneficiario + efetuar tiss + efetuar
+ aplicar codigo + verificar erro glosa
Glosa sistema matricula + enviar contato
pagamento cronograma contato + solicitar
grupo 16 grupo 17 grupo 18 grupo 19
documento preco Contato + servico
+ credenciar + credenciado Mas hospital
+ analisar + procedimento + insatisfeito contato
Contato + solicitar + morar + informar
resposta + servico + solicitar
A tabela 4-5 apresenta os agrupamentos estudados juntamente com o especialista
do assunto. Para cada agrupamento tenta-se identificar o assunto pelas palavras
descritoras e, caso necessário, verifica-se o conteúdo de mensagens alocadas para o
agrupamento em questão visando assegurar o entendimento do tema que os textos
abordam. Como também, foram propostas sugestões de solução para minimizar a
71
ocorrência das manifestações.
A seguir serão apresentados a análise dos agrupamentos obedecendo a sequência
crescente por percentual.
Grupo 1: Credenciado solicita via do informe do imposto de renda. Esta solicitação
de serviço teve grande incidência no mês de março. Conforme podemos observar na
figura 4-1, esta solicitação causou um grande aumento de manifestações. Exemplos das
manifestações referentes à solicitação em questão podem ser visualizados na tabela 4-6.
Oportunidade de melhoria do grupo 1: Disponibilizar o informe do imposto de renda no
site AMS.
Tabela 4-6 – Manifestações relacionadas ao grupo 1
Mês Manifestação
Março
CREDENCIADO CNPJ XXXXXXXXXXX HOSPITAL XXXXXXXXXX
SOLICITA DEMONSTRATIVO RECEBIMENTOS DECLARAÇÃO IMPOSTO
RENDA REFERENTE EXERCÍCIO XXXX.
Março
CREDENCIADO XXXXXXXXXXXXXX CPF XXXXXXXXXX SOLICITA
INFORME RENDIMENTOS REFERENTE ANO XXXX DECLARAÇÃO IMPOSTO
RENDA CONTATO APARECIDA
Grupo 2: Refere-se a manifestações de beneficiários solicitando esclarecimentos sobre o
valor total descontado do seu pagamento relacionado aos procedimentos realizados,
exemplos de manifestações relacionadas ao grupo 2 na tabela 4-7.
Oportunidade de melhoria do grupo 2: Disponibilização de demonstrativo de
beneficiários mais detalhado, com as informações de cada procedimento descontado,
não informando somente o total a ser descontado.
72
Tabela 4-7 – Manifestações relacionadas ao grupo 2
Descontos AMS
Solicito informação sobre os descontos no total de R$ 249,89, referentes à AMS efetuados no contracheque
do mês de outubro e relativos a setembro, já que no contracheque de setembro fora efetuado débito de R$
320,88 sob o mesmo título. Também não entendo o débito de R$ 306,60 no contracheque do mês de outubro,
lançado sob o título DIF DEB UTIL PL 28 S MED.
Grato, XXXX
mat.: XXXXX
Fale com a MAS
Um contato foi efetuado por um visitante do Portal. Verifique abaixo os dados
recebidos.
Nome: XXXXXXXXX
Ramal: ROTA - XXXXXXXXX
Lotação: XXXXXXXX
No meu extrato da AMS do mês de maio/08 consta o TOTAL de desconto de
R$ 230,98. Entretanto no meu conta-cheque do mesmo mês de maio/08 consta um
desconto de R$ 448,62 referente à ASSISTÊNCIA SUPL MÉDICA.
Solicito verificar a possibilidade de estorno de eventual diferença.
Grato,
XXXX - Matr.: XXXXXXXX
Grupo 3: Refere-se a manifestações de credenciado solicitando guia TISS impressa para
atendimento. Estas manifestações tiveram evidência nos meses de novembro e
dezembro/2008.
Oportunidade de melhoria do grupo 3: Disponibilização de modelo das guias TISS no
site da AMS.
Grupo 4: Refere-se a manifestações de beneficiários solicitando inclusão de
medicamentos no programa de benefício farmácia.
Oportunidade de melhoria do grupo 4: Revisão da lista de medicamentos do programa
de benefício farmácia.
Grupo 5: Refere-se a manifestações de beneficiários aposentados solicitando extrato de
demonstrativo de despesas AMS, uma vez que não recebeu o extrato pelos correios.
Oportunidade de melhoria do grupo 5: Disponibilização de demonstrativo detalhado no
site da AMS.
73
Grupo 6: Refere-se a reclamação de beneficiários a descontos indevidos no contra
cheque relacionados a procedimentos da AMS, o qual desejam esclarecimentos sobre os
valores de descontos dos procedimentos com a margem consignável.
Oportunidade de melhoria do grupo 6: Disponibilizar no site da AMS os valores de cada
procedimentos (tabela de pequeno e grande risco) relacionado com cada margem
consignável.
Grupo 7: Credenciado solicita senha ou alteração de senha para acessar o site da AMS.
Manifestações evidentes nos meses de outubro e novembro de 2008.
Oportunidade de melhoria do grupo 7: Disponibilizar no site que o próprio credenciado
realize a troca da senha.
Grupo 8: Credenciado informa que enviou eletronicamente as faturas AMS e entregou
as faturas físicas (papel) no protocolo da Petrobras, mas não obteve o pagamento.
Oportunidade de melhoria do grupo 8: Disponibilizar no site da AMS o status de
andamento das faturas entregues (fatura recebida, fatura em análise, fatura liberada e
fatura paga).
Grupo 9: Refere-se a reclamação de beneficiários a descontos indevidos no contra
cheque de exames de grande risco relacionados a procedimentos realizados pela AMS.
Oportunidade de melhoria do grupo 9: Disponibilizar no site um demonstrativo mais
detalhado com os descontos de cada procedimento realizada, assim como disponibilizar
no site a tabela dos procedimentos de grande e pequeno risco.
Grupo 10: Credenciado solicita informações das guias que ainda não foram pagas e não
constam no extrato de credenciados, e se existe previsão de pagamento e motivo da
74
demora.
Oportunidade de melhoria do grupo 10: Disponibilizar no site da AMS o status de
andamento das faturas entregues (fatura recebida, fatura em análise, fatura liberada e
fatura paga), o qual o próprio credenciado possa acompanhar o pagamento das suas
faturas.
Grupo 11: Reclamação de credenciado referente a glosas indevidas de procedimentos,
solicitando revisão do pagamento das guias glosadas.
Oportunidade de melhoria do grupo 11: Disponibilizar no site da AMS valores pagos
por cada procedimento ao credenciado.
Grupo 12: Beneficiário reclama que ainda não recebeu reembolso de guias, e foi
informado que consta no sistema como guia com código inativo, solicita previsão de
pagamento.
Oportunidade de melhoria do grupo 12: Disponibilizar no site da AMS consulta ao
status das guias que solicitou reembolso, e caso apresente problemas informar o motivo.
Grupo 13: Credenciado solicita envio de documento com o novo cronograma do envio
das faturas, para que as faturas possam ser enviadas nas datas corretas.
Oportunidade de melhoria do grupo 13: Disponibilizar no site da AMS o cronograma de
envio das faturas para os credenciados.
Grupo 14: Credenciado informa que tentou enviar eletronicamente as faturas das guias
TISS, mas apresentou erro no envio.
Oportunidade de melhoria do grupo 14: Informar aos credenciados com detalhes o erro
75
ocorrido no momento do envio das faturas.
Grupo 15: Credenciado solicita status da reapresentação dos pagamentos glosados.
Oportunidade de melhoria do grupo 15: Disponibilizar no site da AMS o status de
andamento dos pagamentos (fatura recebida, fatura em análise, fatura liberada e fatura
paga), o qual o próprio credenciado possa acompanhar o pagamento das suas faturas.
Grupo 16: Solicitação de avaliação do credenciamento.
Oportunidade de melhoria do grupo 16: Disponibilizar no site da AMS informações
sobre novos credenciamentos.
Grupo 17: Solicitação de tabela de preços.
Oportunidade de melhoria do grupo 17: Disponibilizar no site para cada credenciado a
tabela de precificação dos serviços.
Grupo 18: Reclamação dos beneficiários de não possuir credenciado próximo ao local
onde mora.
Oportunidade de melhoria do grupo 18: Melhor avaliação dos credenciados da AMS.
Grupo 19: Reclamação dos serviços prestados pelos hospitais credenciados.
Oportunidade de melhoria do grupo 19: Avaliar e auditar os serviços prestados pelos
credenciados.
76
5. Conclusão
Considerando que a tomada de decisão é um processo de investigação, reflexão e
análise, justifica-se a necessidade da alta administração obter informação qualitativa que
contenha elevado valor agregado.
O trabalho desenvolvido aborda o tema de tratamento automático da informação
textual que objetiva a menor intervenção humana possível. O objetivo deste projeto foi
o de explorar a área de Text Mining. Sendo descritos os seus objetivos e as motivações
do seu aparecimento. Foi evidenciada a importância que esta área tem para uma
organização, mostrando que benefícios poderão trazer o uso de ferramentas desta área.
Percebe-se que o desenvolvimento tecnológico auxilia na velocidade e no
volume de tratamento de dados. Porém, a informação textual ainda carece de
profissionais e ferramentas, utilizadas em larga escala, capazes de manuseá-las com a
mesma destreza das informações em formato de bancos de dados ou, comumente,
chamadas informações estruturadas.
Para atingir os objetivos propostos utilizou-se a metodologia da KDT que vai
desde a escolha da base de dados até a utilização efetiva da informação descoberta que
se transforma em conhecimento diante das interpretações humanas para aplicação de
forma prática.
A base de dados utilizada não estava pronta para mineração e apresentou vários
problemas, que foram contornados. Para a etapa essencial de pré-processamento, que
consumiu a maior parte do tempo, desenvolveu-se uma ferramenta, com o objetivo de
sistematizar todo o processo de preparação dos dados, a partir do momento em que o
arquivo foi obtido até a saída do arquivo pronto para ser executado pelos algoritmos de
mineração de textos.
77
Neste processo os textos referentes às manifestações foram tratados de forma
adequada, com a remoção de registros duplicados, sinais de pontuação, caracteres
matemáticos, monetários, numéricos e de formatação. Sendo que para a retirada dos
caracteres numéricos foi necessário verificar quais meros eram de grande valia ao
estudo realizado. Também foi necessário identificar os termos compostos que
precisariam ser considerados. E as abreviaturas, nomes próprios e endereços de e-mails
também foram excluídos, pois não faziam parte do escopo. Após processamento da base
tratada na ferramenta, foi realizada a etapa de lematização, para que os resultados
fossem mais precisos.
Considera-se que o objetivo da pesquisa foi alcançado, pois a proposta era extrair
conhecimento da base de atendimento aos usuários do plano de assistência à saúde da
Petrobras.
Em relação aos padrões encontrados, penso que foram razoáveis, foram
encontrados 63 agrupamentos, mas o especialista considerou válidos os grupos com
peso superior a 7,5% e com as maiores freqüências, o que resultou na análise de 19
grupos. Os grupos estudados tratam de diversas solicitações, entre elas: descontos
indevidos no contra cheque dos beneficiários, que pode ser minimizado com a
disponibilização de demonstrativo de despesas mais detalhado; solicitações de via do
informe de imposto de renda dos credenciados, que poderá ficar disponível no site da
AMS para que o próprio credenciado tenha acesso.
Para todos os grupos estudados foram sugeridos sugestões de soluções para que
as ocorrências de manifestações fossem minimizadas.
Outro ponto importante observado na realização do estudo de caso foi à
dependência de um especialista do assunto orientando o processo. Sem o conhecimento
78
prévio do assunto e definição de objetivos para se encontrar o padrão é muito difícil
obter regras úteis.
Portanto, a análise obtida foi bastante útil e de grande importância para a gestão
do negócio para que se consiga reduzir a ocorrência das manifestações, o que
proporcionará satisfação aos beneficiários e prestadores de serviço.
Em virtude de ser necessária uma análise periódica dos dados, é necessária
agilizar o processo de extração de conhecimento em texto. Como o maior esforço é
gasto na extração e preparação dos dados e não exige participação do especialista do
domínio, é necessário que estas atividades do processo de descoberta de conhecimento
sejam otimizadas.
No trabalho foram aplicadas técnicas para identificação de agrupamento de
termos de documentos e análise de tais agrupamentos. Uma evolução deste trabalho é a
identificação de interesses de comunidades por termo, ou seja, identificar grupos de
beneficiários e credenciados relacionados por determinados termos.
As aplicações de cnicas de análises de links poderiam apontar comunidades
com interesses comuns por determinados termos. Este conhecimento poderá auxiliar na
personalização do atendimento assim como identificação de problemas existentes a
grupos de usuários específicos.
Outra evolução a ser realizada seria uma análise de padrão das respostas das
manifestações, onde atualmente manifestações diferentes que tratam de um mesmo
assunto podem possuir encaminhamentos distintos, portanto o sistema poderá sugerir
possíveis respostas associadas a determinados assuntos. Isto poderá melhorar a
qualidade do atendimento.
79
REFERÊNCIAS BIBLIOGRÁFICAS
ARANHA C., PASSOS E., A Tecnologia de Mineração de Textos. RESI Revista
Eletrônica de Sistemas de Informação, N 2, 2006.
BASTOS, V. M. Ambiente de Descoberta de Conhecimento na Web para a Língua
Portuguesa. PhD thesis, Universidade Federal do Rio de Janeiro, COPPE, 2006.
BERRY, M. J. A., LINOFF, G. Data mining techniques for marketing, sales and
customer support. John Wiley & Sons, New York, 1997.
BEPPLER, M; FERNANDES, A. Aplicação de text mining para a extração de
conhecimento jurisprudencial. In: Primeiro Congresso Sul Catarinense de
Educação, 2005.
CABENA, Peter; HADJINIAN, Pablo, STADLER, Rolf, VERHEES, Jaap, ZANASI,
Alessandro, Discovering data mining: from concept to implementation. Prentice
Hall PTR. New Jersey, 1998.
CORDEIRO, A. D. Gerador Inteligente de Sistemas com Autoaprendizagem para
Gestão de Informações e Conhecimento. PhD thesis, Universidade Federal de
Santa Catarina, Departamento de Engenharia da Produção, 2005.
DORRE, J. et al. Text Mining: Finding Nuggets in Mountains of Textual Data. In Fifth
International Conference on Knowledge Discovery and Data Mining, ACM, pp.
398-401, New York, USA.
EBECKEN, N; LOPES, M; COSTA, M. Mineração de Textos, p. 337–370. Manole,
2003.
FAYYAD, U., PIATETSKY-SHAPIRO G., SMYTH, P., UTHURUSAMY R.,
Advances in Knowledge Discovery & Data Mining. The AAAI Press/The MIT
Press, Cambridge, 1996.
80
FAYYAD, U., PIATETSKY-SHAPIRO, G., SMYTH P., From Data Mining to
Knowledge Discovery in Databases”, AI Magazine, v. 17, n. 3, pp. 37-54, 1997.
FRAWLEY W. J., PIATETSKY-SHAPIRO G., Matheus C. J., Knowledge discovery in
databases: Overview. In G. Piatetsky-Shapiro and W. J. Frawley, editors, The
AAAI Press/The MIT Press, 1992.
HAN, J. e Kamber, M., Data Mining: Concepts and Techniques. Morgan Kaufmann, 1
ed. San Francisco, USA, 2001.
HAND D., MANNILA H., SMYTH P. Principles of Data Mining, The MIT Press,
2001.
IMAMURA, C. e REZENDE, S. O. Pré-processamento para extração de conhecimento
de texto. Departamento de Ciências de Computação e Estatística, Instituto de
Ciências Matemáticas de São Paulo, 2001.
INMON, W.H., HACKATHORN, R.D. Using the Data Warehouse, John Wiley &
Son's, 1994.
INSTITUTO SAS. www.sas.com.
KAO, A.; POTEET, S. Text Mining and natural Language Processing Introduction
for the Special Issue. SIGKDD Explorations, v. 7, Issue 1, 2005.
KIMBALL, R., ROSS, M. The Data Warehouse Toolkit: The Complete Guide to
Dimensional Modeling. 2 ed. John Wiley & Sons, 2002.
LIU, B., HSU, W., CHEN, S., MA, Y. Analyzing the subjective interestingness of
Association Rules, IEEE Intelligent Systems, National University of Singapore,
2000.
81
MANNING, C. D., SCHUETZE, H. Foundations of Statistical Natural Language
Process. The MIT Press, 1999.
MORAIS, E. A. M., Contextualização deDocumentos em Domínios Representados por
Ontologias Utilizando Mineração de Textos.
ORENGO, V. M; HUYCK, C. A stemming algorithm for the Portuguese language. In:
Eighth International Symposium on String Processing and Information Retrieval
(SPIRE), p. 186–193, 2001.
PALAZZO, M. D. O; LOH, S; AMARAL, L. A; WIVES, L. K. Descoberta de
conhecimento em textos através da análise de seqüências temporais. In:
Workshop em Algoritmos e Aplicações de Mineração de Dados - WAAMD,
SBBD: Sociedade Brasileira de Computação, volume II, p. 49–56, Florianópolis,
2006.
PETROVSKIY, M. I., “Outlier Detection Algorithms in Data Mining Systems, In:
Programming and Computer Software”, Vol. 29, 4, pp. 228-237, New York,
USA, Julho - Agosto 2003.
RAJMAN, M.; BESANÇON, R. Text Mining: Natural Language techniques and Text
Mining applications. Chapman & Hall, 1997.
ROSA, J. O significado da palavra para o processamento de linguagem natural. In:
Estudos Lingüísticos XXVII (Anais dos Seminários do Gel), p. 807–812. Trabalho
apresentado no XLV Seminário do GEL na UNICAMP, UNESP-IBILCE, 1998.
SALTON, G; MCGILL, M. J. Introduction to Modern Information Retrieval. McGraw-
Hill, New York, 1983.
SCHIESSL, J. M., Descoberta de conhecimento em texto aplicada a um sistema de
atendimento ao consumidor. Tese M. Sc. UNB, Brasília, DF, Brasil, 2007.
82
SOUZA, F. T. Predição de Escorregamentos das Encostas do Município do Rio de
Janeiro através de Técnicas de Mineração de Dados. Tese de D. Sc.,
COPPE/UFRJ, Rio de Janeiro, RJ, Brasil, 2004.
SILBERCHATZ, A; KORTH, H; SUDARSHAN, S. Sistema de Banco de Dados.
ELSEVIER, 5 ed., Makron Books, 2006
SULLIVAN, D. Document Warehousing and Text Mining: techniques for improving
business operations, marketing, and sales. John Wiley & Sons, New York, 2001.
TAN, A. H. Text Mining: The state of the art and the challenges. In Proceedings of the
Pacific Asia Conf on Knowledge Discovery and Data Mining PAKDD`99
Workshop on Knowledge Discovery from Advanced Databases, p. 65-70, 1999.
WEISS, S. M., Indurkhya, N. Predictive Data Mining: A Practical Guide. Morgan
Kaufmann Publishers, San Francisco, CA, 1998.
WITTEN, Ian H, FRANK, Eibe, Data Mining: Practical Machine Learning Tools and
Techniques. Morgan Kaufmann, 2 ed. San Francisco, USA, 2005.
WIVES, L. Tecnologias de descoberta de conhecimento em textos aplicadas à
inteligência competitiva. Exame de Qualificação EQ-069, PPGC-UFRGS, 2002.
ZANASI, A., GOMAR, D. A., EBECKEN, N. F. F., BREBBIA, C. A. Data Mining IX:
data mining, protection, detection and other security technologies. WIT Press,
Southampton, Boston, 2008.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo