Assinatura Emocional de Autores em Obras Literárias

A partir da análise de 641 obras literárias de 56 autores conseguimos identificar seus traços emocionais únicos

Resumo do Trabalho

A internet mudou profundamente as formas de publicação de conteúdo. Grande parte do conteúdo é disponibilizado digitalmente, como Jornais, revistas e e-books. Com todos estes textos e metadados de livros, pode-se compor mecanismos mais elaborados para a recomendação de novos livros ou autores. A grande maioria dos trabalhos nesta área utilizam atributos derivados da sintaxe do texto, como verbos, adjetivos e stop words entre outros. A nossa proposta procura traçar uma assinatura emocional dos autores extraindo de seus textos somente atributos relacionados a fatores psicológicos como positividade, negatividade, medo, entre vários. Este trabalho propõe uma série de atributos psicométricos que foram selecionados de 2 léxicos de sentimentos e analisados em 641 obras de 56 autores da lingua inglêsa.

Identificação de Épocas Literárias

Ao longo deste trabalho levantamos a hipótese de que não apenas é possível realizar a identificação de autoria através da assinatura emocional dos autores, mas também é possível traçar uma assinatura emocional das épocas literárias em que estes autores se encontram. Partimos do princípio que determinados estágios na história da literatura como Romantismo, Renascença, Iluminismo e compartilham aspectos e perspectivas psicológicas similares dentro de sua obras. A visualização de dados, como os que lidamos, é dificil para mais de 3 dimensões. Assim, usamos a técnica de "Principal Component Analysis"(PCA) para a redução de dimensionalidade para a visualização dos autores num "Scatter Plot", dado na figura ao lado. O PCA consiste numa tranformação orthogonal que seleciona os componentes ou features de maior variância, ou os maiores responsáveis pela variância dos dados. Selecionando os dois componentes principais como x e y, pode-se gerar o "Scatter Plot". Apenas 2 componentes podem não mostrar bem a variância, mas pode-se ver na figura ao lado que há um agrupamento de autores da renascença de centro aproximado em y=20, x=120. Mais componentes poderiam permitir separar completamente as épocas, mas assim, voltaria a não ser viável a visualzação destes dados.

Análise da Polaridade de Sentimentos Autoral

Para a identificação da assinatura emocional de cada autor, foram extraı́das diversas caracterı́sticas das obras literárias em questão. Essa extração é realizada através da contagem do percentual de palavras relacionadas a cada caracterı́sticas. Por exemplo, caso hajam 100 palavras relacionadas ao sentimento de tristeza (sadness) em um texto que possui no total 1.000 palavras, o percentual de ocorrência da tristeza é 0.1. Devido à grande quantidade de palavras que não correspondem a nenhuma feature, os percentuais ficam muito próximos de 0.1. A fim de tornar mais fácil a identificação da assinatura emocional para cada autor foi realizada uma normalização Min-Max. Desta forma é valorizada a diferença entre cada autor. O autor que possui o maior valor para a feature Tristeza é atribuı́do 100 e o autor com menor ocorrência de palavras ligadas a tristeza é atribuı́do 0.

Assinatura Emocional dos Autores

Existem diversas features que permitem fazer uma análise da assinatura emocional de um autor. No campo da análise de sentimentos destacam-se analises das emoções positivas e negativas (positive and negative emotions), assim como sentimentos associados como tristeza (sadness) e alegria (joy). Ao confrontar essas features para diversos não só conseguimos entender características das conjunto das obras desse autor, mas também como elas servem para diferencia-los. Dessa forma, com o auxílio do dicionário do LIWC foi possível extrair as quatro features analisadas (Sadness, Negative, Positive and Joy). Além de permitir a distinção entre os autores, esse tipo de análise permite fazer recomendações aos usuários a cerca de emoções mais frequentes nas obras escolhidas.

Compare até 4 Assinaturas

Coloque o mouse sobre a barra para saber qual feature ela representa

Authors

Atributos Utilizados Neste Trabalho

A tabela ao lado apresenta todos os atributos extraidos dos texto com o propósito para identificar autoria neste trabalho. O primeiro conjunto de de atributos é fornecido pelo Emolex também conhecido como NRC Emotion Lexicon, ele contém mais de 14 mil palavras associadas a 8 emoções básicas mostradas na tabela. O segundo conjunto de atributos é fornecido pelo LIWC (Linguistic Inquiry and Word Count), uma ferramenta paga criada para realizar uma série de análises lingüı́sticas em textos. Apesar de possuir diversos outros atributos, utilizamos apenas 52 relacionados a psicometria.

Atributos do Emolex
Atributo	Exemplos	Qnt (14182 palavras)
Positive	abundance,shine, love	2312
Negative	abadon,death,nausea,hate	3324
Anger	doomsday,rage,savage	1247
Anticipation	inquiry,prognostic,prophecy	839
Disgust	prostitute,cholera,crap	1058
Fear	wilderness,threat,terrorism	1476
Joy	elegant,bless,amused	689
Sadness	punish,prison,fat	1191
Surprise	rarity,playful,mystery	534
Trust	radiance,proven,philosopher	1231
Atributos do LIWC 2015
Atributo	Exemplos	Qnt (6548 palavras)
Affective	processes affect happy, cried	1393
Positive	emotion posemo love, nice, sweet	620
Negative	emotion negemo hurt, ugly, nasty	744
Anxiety	anx worried, fearful	116
Anger	anger hate, kill, annoyed	230
Sadness	sad crying, grief, sad	136
Social	processes social mate, talk, they	756
Family	family daughter, dad, aunt	118
Friends	friend buddy, neighbor	95
Female	references female girl, her, mom	124
Male	references male boy, his, dad	116
Cognitive	processes cogproc cause, know, ought	797
Insight	insight think, know	259
Causation	cause because, effect	135
Discrepancy	discrep should, would	83
Tentative	tentat maybe, perhaps	178
Certainty	certain always, never	113
Differentiation	differ hasn’t, but, else	81
Perceptual	processes percept look, heard, feeling	436
See	see view, saw, seen	126
Hear	hear listen, hearing	93
Feel	feel feels, touch	128
Biological	processes bio eat, blood, pain	748
Body	body cheek, hands, spit	215
Health	health clinic, flu, pill	294
Sexual	sexual horny, love, incest	131
Ingestion	ingest dish, eat, pizza	184
Drives	drives	1103
Affiliation	affiliation ally, friend, social	248
Achievement	achieve win, success, better	213
Power	power superior, bully	518
Reward	reward take, prize, benefit	120
Risk	risk danger, doubt	103
Past	focus focuspast ago, did, talked	341
Present	focus focuspresent today, is, now	424
Future	focus focusfuture may, will, soon	97
Relativity	relativ area, bend, exit	974
Motion	motion arrive, car, go	325
Space	space down, in, thin	360
Time	time end, until, season	310
Work	work job, majors, xerox	444
Leisure	leisure cook, chat, movie	296
Home	home kitchen, landlord	100
Money	money audit, cash, owe	226
Religion	relig altar, church	174
Death	death bury, coffin, kill	74
Informal	language informal	380
Swear	words swear fuck, damn, shit	131
Netspeak	netspeak btw, lol, thx	209
Assent	assent agree, OK, yes	36
Nonfluencies	nonflu er, hm, umm	19
Fillers	filler Imean, youknow	14

Resultados Alcançados

Algumas técnica de aprendizado de máquina foram aplicadas. Usando-se um algoritmo SVM, com validação cruzada dividindo-se os dados em 10 e usando-se cada autor sendo uma classe, obteve-se o resultado de uma F measure de 0,7. Outros métodos obtiveram pior resultado, usando-se o "leave one out", ou seja, treinando-se todos os dados menos um, e variando-se este em todos os dados, obteve-se um Fmeasure de 0,64. Testes variando-se o número de autores mostram que o aumento de autores torna a identificação mais dificil, e que o desempenho do algoritmo também tende a cair.

Agradecimentos

Agradecemos a Professora Raquel Minar, pela inspiração neste trabalho e o suporte às ideias aqui desenvolvidas. Agradecemos ao moniotr Diego pelo apoio às duvidas que apareceram ao longo desse semestre.