O documento discute o uso de métodos estatísticos para analisar a literatura poética entre 1820-1919. Ele aplicou modelagem de tópicos e regressão linear para prever quais textos foram revisados com base em "sacos de palavras", sugerindo que fronteiras sociais influenciaram o prestígio literário. O autor argumenta que estratégias supervisionadas de aprendizado de máquina podem mapear o campo literário de forma útil, desde que os pesquisadores compreendam os limites dos dados.
1. Os usos literários do espaço
de alta dimensão
The literary uses of high-dimensional
space – Ted Underwood
Apresentação Síntese de Artigo: Grupo de Estudos em Métodos Digitais
Integrante: Luis Felipe
Data: 07/10/2016
2. Conceitos - Chave
• Topic Modeling – É um processo assistido por um software que usa
estatística para apresentar temas, ou grupos de palavras que
representem conjuntos textuais.
• Regressão Linear – Uma esquação estatística que tenta demonstrar a
relação existente entre uma variável (dependente), e outras variáveis
(independentes).
• High Dimension Space – É uma das referências existentes ao big data
que é caracterizada pela grande quantidade de variáveis, e dimensões
em que dados podem ser processados.
3. Contexto do Artigo
• O objeto de estudo do artigo é a história da literatura poética.
Foram reunidas amostras de textos entre 1820 e 1919, de 14
revistas e 53,200 volumes aleatórios.
• As amostras de texto foram analisadas utilizando o conceito de
espaço de alta dimensão, de forma supervisionada, em busca
de prever quais textos foram revisados e quais não.
4. Desconfiança nos Dados
• “Para a maioria dos humanistas, “Big Data” não implica em um
conjunto particular de novos métodos, mas somente faz
referência a uma nublada e gigante versão de tudo que nos
desconfiamos sobre os números” (Marche, 2012).
• “Por que não tínhamos modelos estatísticos em nossas
disciplinas anteriormente e agora temos, o que mudou que fez
com que eles funcionem agora?” (Underwood, 2015)
5. Desconfiança nos Dados
• Com poucas variáveis era possível tornar os dados
estruturados com métodos de modelagem.
• Ao analisar a história (história literária no caso), fica difícil
comparar os diferentes períodos existentes (devido aos
diferentes grupos de variáveis) e mesurá-los, então os
métodos quantitativos tem provido grande apoio nesta área.
6. Por que os Dados Importam Agora?
• Existe uma nova abordagem que permite identificar as
variáveis dos diferentes gêneros de um texto sem que
sejam pré-definias pelo pesquisador. (Modelagem
Estatística)
• E como resultado temos “sacos de palavras”.
• “Como escritores e leitores, experienciamos a escrita
sequencial, e não como uma distribuição sob o lexical.
7. Por que os Dados Importam Agora?
• “Mas, na verdade, palavras são pequenas coisas
importantes, e um espaço de alta dimensão definido por
milhares delas nos dá espaço para rastrear complexas
fronteiras literárias que não apareceriam com um único
termo.”
• Os conjuntos de palavras podem representar gêneros,
tópicos, tom, e até mesmo o contexto social da escrita.
• Mas, para fazermos inferências com base nessa estrutura de
dados, é necessário compreender a ordem das palavras, de
forma que os pesquisadores precisem ter conceitos iniciais
sobre seu problema de pesquisa.
8. Estratégias Supervisionadas e Não Supervisionadas
• Estratégias Não Supervisionadas: São estratégias que não recebem
nenhuma interferência humana em seu processo, normalmente
softwares processam dados e retornam um resultado.
• Estratégias Supervisionadas: São estratégias que permitem ao
pesquisador inferir alguns entendimentos prévios e aplicar eles sobre
o processamento dos dados. (O autor cita Machine Learning).
9. Estratégias Supervisionadas e Não Supervisionadas
• Inferir dados sobre estratégias não supervisionadas (Topic Modeling)
pode deixar pesquisador inseguro, e talvez limitar uma conclusão
mais concreta.
• Utilizar a estratégia supervisionada por vezes não aparece como uma
área estudada na história literária, mas isso pode ser pelo falo da
grande utilização do Topic Modeling e Estratégias não
supervisionadas.
• “Modelos Preditivos Supervisionados nos permitem mapear o campo
literário a partir de amostras de trabalhos de diferentes localizações
sociais, e modelar as fronteiras entre eles.”
10. Um Modelo de Distinção Poética – 1820 a 1919
Hipótese: “O prestígio literário pode também ter sido governado por
fronteiras sociais duráveis.”
A diferença das fontes utilizadas apresentam o conceito de
fronteiras entre os textos revisados ou ignorados, que pode indicar
fronteiras sociais.
“Mesmo se pudéssemos de alguma forma treinar um modelo para
predizer “se um volume foi revisado” baseado somente no texto, o
que poderia ser apontado?”
12. Distinção e Mudança Histórica
Este resultado não permite tirar muitas conclusões sobre a distinção
entre volumes revisados e ignorados, mas o modelo utilizado em si
já é algo significante a ser observado.
A utilização da linha preta que correlaciona a revisão dos modelos
com o aumento de produção de acordo com o tempo, resultou em
uma precisão maior, porém não pode ser indicado como uma
relação causal.
13. Conclusão
O termo Big Data não vem sendo entendido apropriadamente pelos
humanistas, por medo ou aversão, porém deve-se levar em
consideração a quantidade de mudanças metodológicas existentes
e abertura de fronteiras.
Ao utilizar métodos supervisionados nesta área, é possível
pressupor alguns contextos sociais, e aplicar métodos preditivos
para agrupá-los, caracterizá-los e compará-los de maneira
otimizada.