Assinatura Emocional de Autores em Obras Literárias

A partir da análise de 641 obras literárias de 56 autores conseguimos identificar seus traços emocionais únicos

Resumo do Trabalho

A internet mudou profundamente as formas de publicação de conteúdo. Grande parte do conteúdo é disponibilizado digitalmente, como Jornais, revistas e e-books. Com todos estes textos e metadados de livros, pode-se compor mecanismos mais elaborados para a recomendação de novos livros ou autores. A grande maioria dos trabalhos nesta área utilizam atributos derivados da sintaxe do texto, como verbos, adjetivos e stop words entre outros. A nossa proposta procura traçar uma assinatura emocional dos autores extraindo de seus textos somente atributos relacionados a fatores psicológicos como positividade, negatividade, medo, entre vários. Este trabalho propõe uma série de atributos psicométricos que foram selecionados de 2 léxicos de sentimentos e analisados em 641 obras de 56 autores da lingua inglêsa.

Identificação de Épocas Literárias

Ao longo deste trabalho levantamos a hipótese de que não apenas é possível realizar a identificação de autoria através da assinatura emocional dos autores, mas também é possível traçar uma assinatura emocional das épocas literárias em que estes autores se encontram. Partimos do princípio que determinados estágios na história da literatura como Romantismo, Renascença, Iluminismo e compartilham aspectos e perspectivas psicológicas similares dentro de sua obras. A visualização de dados, como os que lidamos, é dificil para mais de 3 dimensões. Assim, usamos a técnica de "Principal Component Analysis"(PCA) para a redução de dimensionalidade para a visualização dos autores num "Scatter Plot", dado na figura ao lado. O PCA consiste numa tranformação orthogonal que seleciona os componentes ou features de maior variância, ou os maiores responsáveis pela variância dos dados. Selecionando os dois componentes principais como x e y, pode-se gerar o "Scatter Plot". Apenas 2 componentes podem não mostrar bem a variância, mas pode-se ver na figura ao lado que há um agrupamento de autores da renascença de centro aproximado em y=20, x=120. Mais componentes poderiam permitir separar completamente as épocas, mas assim, voltaria a não ser viável a visualzação destes dados.

Análise da Polaridade de Sentimentos Autoral

Para a identificação da assinatura emocional de cada autor, foram extraı́das diversas caracterı́sticas das obras literárias em questão. Essa extração é realizada através da contagem do percentual de palavras relacionadas a cada caracterı́sticas. Por exemplo, caso hajam 100 palavras relacionadas ao sentimento de tristeza (sadness) em um texto que possui no total 1.000 palavras, o percentual de ocorrência da tristeza é 0.1. Devido à grande quantidade de palavras que não correspondem a nenhuma feature, os percentuais ficam muito próximos de 0.1. A fim de tornar mais fácil a identificação da assinatura emocional para cada autor foi realizada uma normalização Min-Max. Desta forma é valorizada a diferença entre cada autor. O autor que possui o maior valor para a feature Tristeza é atribuı́do 100 e o autor com menor ocorrência de palavras ligadas a tristeza é atribuı́do 0.

Assinatura Emocional dos Autores

Existem diversas features que permitem fazer uma análise da assinatura emocional de um autor. No campo da análise de sentimentos destacam-se analises das emoções positivas e negativas (positive and negative emotions), assim como sentimentos associados como tristeza (sadness) e alegria (joy). Ao confrontar essas features para diversos não só conseguimos entender características das conjunto das obras desse autor, mas também como elas servem para diferencia-los. Dessa forma, com o auxílio do dicionário do LIWC foi possível extrair as quatro features analisadas (Sadness, Negative, Positive and Joy). Além de permitir a distinção entre os autores, esse tipo de análise permite fazer recomendações aos usuários a cerca de emoções mais frequentes nas obras escolhidas.

Compare até 4 Assinaturas

Coloque o mouse sobre a barra para saber qual feature ela representa

Authors

Atributos Utilizados Neste Trabalho

A tabela ao lado apresenta todos os atributos extraidos dos texto com o propósito para identificar autoria neste trabalho. O primeiro conjunto de de atributos é fornecido pelo Emolex também conhecido como NRC Emotion Lexicon, ele contém mais de 14 mil palavras associadas a 8 emoções básicas mostradas na tabela. O segundo conjunto de atributos é fornecido pelo LIWC (Linguistic Inquiry and Word Count), uma ferramenta paga criada para realizar uma série de análises lingüı́sticas em textos. Apesar de possuir diversos outros atributos, utilizamos apenas 52 relacionados a psicometria.
Atributos do Emolex
Atributo Exemplos Qnt (14182 palavras)
Positive abundance,shine, love 2312
Negative abadon,death,nausea,hate 3324
Anger doomsday,rage,savage 1247
Anticipation inquiry,prognostic,prophecy 839
Disgust prostitute,cholera,crap 1058
Fear wilderness,threat,terrorism 1476
Joy elegant,bless,amused 689
Sadness punish,prison,fat 1191
Surprise rarity,playful,mystery 534
Trust radiance,proven,philosopher 1231
Atributos do LIWC 2015
Atributo Exemplos Qnt (6548 palavras)
Affective processes affect happy, cried 1393
Positive emotion posemo love, nice, sweet 620
Negative emotion negemo hurt, ugly, nasty 744
Anxiety anx worried, fearful 116
Anger anger hate, kill, annoyed 230
Sadness sad crying, grief, sad 136
Social processes social mate, talk, they 756
Family family daughter, dad, aunt 118
Friends friend buddy, neighbor 95
Female references female girl, her, mom 124
Male references male boy, his, dad 116
Cognitive processes cogproc cause, know, ought 797
Insight insight think, know 259
Causation cause because, effect 135
Discrepancy discrep should, would 83
Tentative tentat maybe, perhaps 178
Certainty certain always, never 113
Differentiation differ hasn’t, but, else 81
Perceptual processes percept look, heard, feeling 436
See see view, saw, seen 126
Hear hear listen, hearing 93
Feel feel feels, touch 128
Biological processes bio eat, blood, pain 748
Body body cheek, hands, spit 215
Health health clinic, flu, pill 294
Sexual sexual horny, love, incest 131
Ingestion ingest dish, eat, pizza 184
Drives drives 1103
Affiliation affiliation ally, friend, social 248
Achievement achieve win, success, better 213
Power power superior, bully 518
Reward reward take, prize, benefit 120
Risk risk danger, doubt 103
Past focus focuspast ago, did, talked 341
Present focus focuspresent today, is, now 424
Future focus focusfuture may, will, soon 97
Relativity relativ area, bend, exit 974
Motion motion arrive, car, go 325
Space space down, in, thin 360
Time time end, until, season 310
Work work job, majors, xerox 444
Leisure leisure cook, chat, movie 296
Home home kitchen, landlord 100
Money money audit, cash, owe 226
Religion relig altar, church 174
Death death bury, coffin, kill 74
Informal language informal 380
Swear words swear fuck, damn, shit 131
Netspeak netspeak btw, lol, thx 209
Assent assent agree, OK, yes 36
Nonfluencies nonflu er, hm, umm 19
Fillers filler Imean, youknow 14

Resultados Alcançados

Algumas técnica de aprendizado de máquina foram aplicadas. Usando-se um algoritmo SVM, com validação cruzada dividindo-se os dados em 10 e usando-se cada autor sendo uma classe, obteve-se o resultado de uma F measure de 0,7. Outros métodos obtiveram pior resultado, usando-se o "leave one out", ou seja, treinando-se todos os dados menos um, e variando-se este em todos os dados, obteve-se um Fmeasure de 0,64. Testes variando-se o número de autores mostram que o aumento de autores torna a identificação mais dificil, e que o desempenho do algoritmo também tende a cair.

Agradecimentos

Agradecemos a Professora Raquel Minar, pela inspiração neste trabalho e o suporte às ideias aqui desenvolvidas. Agradecemos ao moniotr Diego pelo apoio às duvidas que apareceram ao longo desse semestre.