El análisis estilométrico aplicado a la literatura españolalas novelas policiacas e históricas

  1. José Manuel Fradejas
Revista:
Caracteres: estudios culturales y críticos de la esfera digital

ISSN: 2254-4496

Ano de publicación: 2016

Volume: 5

Número: 2

Páxinas: 196-245

Tipo: Artigo

Outras publicacións en: Caracteres: estudios culturales y críticos de la esfera digital

Resumo

This paper demonstrates that a computer can determine the authorship of a text. To this end we created a corpus of 122 contemporary novels written in Spanish (69 historical novels, 50 crime novels, and 3 westerns). The corpus was then studied using stylo, a stylometric analysis package written in the programming language R. We chose to apply the simplest of the multiple types of analysis offered by this package: cluster analysis. The results are very interesting: by taking into account just the 100 most frequently used words (MFW), the computer was able to group the different works of each author as well as assigning those published under a pseudonym to the true author without incurring in any errors.

Referencias bibliográficas

  • Argamon, Shlomo (2008). «Interpreting Burrows’s delta: Geometric and probabilistic foundations». Literary and Linguistic Computing 23 (2): pp. 131-147.
  • Blasco Pascual, Francisco Javier (2005). «La lengua de Avellaneda en el espejo de “La Pícara Justina”». Boletín de la Real Academia Española 85 (291): pp. 53-109.
  • Brinegar, C. S. (1963). «Mark Twain and the Quintus Curtius Snodgrass letters: A Statistical test of Authorship». Journal of the American Statistical Association 58: pp. 85-96.
  • Burrows, John (2002). «“Delta”: a measure of stylistic difference and a guide to likely authorship». Literary and Linguistic Computing 17 (3): pp. 267-287.
  • Calvo Tello, José (2016). «Entendiendo Delta desde las humanidades». Caracteres: estudios culturales y críticos de la esfera digital 5 (1): pp. 140-176. <http://revistacaracteres.net/revista/vol5n1mayo2016/enten diendo-delta/> (17/06/2016).
  • Craig, D. (2009). Shakespeare, computers, and the mystery of authorship. New York: Cambridge University Press.
  • Eder, Maciej, Jan Rybicki y Mike Kestemont (2013). Stylo: a Package for Stylometric Analyses. <https://sites.google.com/site/computationalstylistics/stylo/s tylo_howto.pdf?attredirects=0&d=1> (17/06/2016).
  • Eder, Maciej, Jan Rybicki y Mike Kestemont (s. f.). «Stylometry with R: A Package for Computational Text Analysis». The R Journal: pp. 1-15. <https://journal.rproject.org/archive/accepted/eder-rybicki-kestemont.pdf> (17/06/2016).
  • Foster, Donald (1989). Elegy by W.S.: a study in attribution. Newark: University of Delaware Press.
  • Frías Delgado, Antonio (2009). «Distribución de frecuencias de la longitud de las palabras en español aspectos diacrónicos y de estilometría». Eds. Pascual Cantos Gómez y Aquilino Sánchez Pérez. A survey of corpus-based research. <http://www.um.es/lacell/aelinco/contenido/pdf/51.pdf> (17/06/2016).
  • Gil-Albarellos Pérez-Pedrero, Susana (2010). «Algunas consideraciones teóricas sobre el fraude literario». Eds. Javier Blasco, Patricia Cepeda Marín y Cristina Ruiz Urbón. Hos ego versiculos feci... Estudios de atribución y plagio. Madrid: Iberoamericana Vervuert. pp. 333-345.
  • Gil-Albarellos Pérez-Pedrero, Susana (2011). «“Que no hay tan diestra mentira/que no se venga a saber”. Teorías de la falsificación literaria». Ed. Joaquín Álvarez Barrientos. Imposturas literarias españolas. Salamanca: Ediciones Universidad de Salamanca. pp. 17-32.
  • Holmes, David I. (1994). «Authorship attribution». Computers and the Humanities 28 (2): pp. 87-106.
  • Holmes, David I. (1999). «Stylometry». Encyclopedia of Statistics. Londres: Wiley.
  • Holmes, David I. (1998). «The Evolution of Stylometry in Humanities Scholarship». Literary and Linguistic Computing 13 (3): pp. 111-117.
  • Jockers, M.L. (2014). Text Analysis with R for Students of Literature. Cham: Springer.
  • Juola, Patrick (2006). «Authorship attribution». Foundations and Trends in Information Retrieval 1 (3): pp. 233-334.
  • Juola, Patrick (2013a): «How a Computer Program Helped Reveal J. K. Rowling as Author of A Cuckoo’s Calling». Scientific American <http://www.scientificamerican.com/article/howa-computer-program-helped-show-jk-rowling-write-acuckoos-calling/> (17/6/2016).
  • Juola, Patrick (2013b). «Rowling and “Galbraith”: an authorial analysis». Language Blog <http://languagelog.ldc.upenn.edu/nll/?p=5315> (17/6/2016).
  • Juola, Patrick (2015). «The Rowling case: A proposed standard analytic protocol for authorship questions». Digital Scholarship in the Humanities 30. <http://dsh.oxfordjournals.org/content/30/suppl_1/i100> (17/7/2016).
  • Juola, Patrick, John Sofko y Patrick Brennan (2006). «A prototype for authorship attribution studies». Literary and Linguistic Computing 21 (2): pp. 169-178.
  • Loper, Edward, Steven Bird y Ewan Klein (2009). Natural language Processing with Python. Sebastopol: O’Reilly.
  • López, Freddy (2011). «Donde se muestran algunos resultados de atribución de autor en torno a la obra cervantina». Revista Colombiana de Estadística 34 (1): pp. 15-37. <http://www.scielo.org.co/pdf/rce/v34n1/v34n1a02.pdf> (17/6/2016).
  • Madrigal, José Luis (2003). «De cómo y por qué La tía fingida es de Cervantes». Artifara 2. <http://www.cisi.unito.it/artifara/rivista2/testi/tiafingida.asp > (17.6.2016).
  • Madrigal, José Luis (2005). «El “Quijote” de Avellaneda, un crimen literario casi perfecto» Voz y letra: Revista de literatura 16 (1): pp. 247-294.
  • Martín Jiménez, Alfonso (2007). «Cotejo por medios informáticos de la “Vida” de Pasamonte y el “Quijote” de Avellaneda». Etiópicas 3: pp. 69-131. <http://www.uhu.es/revista.etiopicas/num/03/art_3_3.pdf> (17/6/2016).
  • Mendenhall, Thomas (1901). «A mechanical solution of a literary problem». Popular Science Monthly 60: pp. 97-105. <https://en.wikisource.org/wiki/Popular_Science_Monthly/ Volume_60/December_1901/A_Mechanical_Solution_of_a _Literary_Problem> (17/6/2016).
  • Merriam, Thomas (2013). «“Sir Thomas More”; sin estilometría». Nueva revista de política, cultura y arte 146: pp. 119-134.
  • Montoya Martínez, Jesús y Antonio Rubio Flores (1994). «De la comparación a la metáfora en Alfonso X. Cuestiones de estilometría en la prosa de la Partida Segunda». Actas Primer Encuentro Interdisciplinar sobre Retórica, texto y Comunicación Cádiz 9, 10, 11 de diciembre de 1993. Cádiz: Universidad Servicio de Publicaciones. pp. 156-162.
  • Mosteller, Frederick y David L. Wallace (1964). Inference and disputed authorship: The Federalist. Reading: AddisonWesley.
  • Niederkorn, William S. (2002, 20 junio). «A Scholar Recants on His “Shakespeare” Discovery». The New York Times. <http://www.nytimes.com/2002/06/20/arts/a-scholarrecants-on-his-shakespeare-discovery.html> (17/6/2016).
  • Riquer, Martín de (1988). Cervantes, Passamonte y Avellaneda. Barcelona: Sirmio.
  • Rissler-Pipka, Nanette (2016a). «Avellaneda y los problemas de la identificación del autor. Propuestas para una investigación con nuevas herramientas digitales». Ed. Hanno Ehrlicher. El otro Don Quijote. La continuación de Fernández de Avellaneda y sus efectos. Ausburgo: Institut für Spanien, Portugalund Lateinamerikastudien (ISLA). pp. 27-51.
  • Rissler-Pipka, Nanette (2016b). «Der falsche Quijote? Autorschaftsattribution für spanische Prosa der frühen Neuzeit», DHd 2016 Modellierung, Vernetzung, Visualisierung, pp. 212-217. <http://dhd2016.de/boa.pdf> (17/6/2016).
  • Stamatatos, Efstathios (2009). «A survey of modern authorship attribution methods». Journal of the American Society for Information Science and Technology. <http://www.icsd.aegean.gr/lecturers/stamatatos/papers/sur vey.pdf> (17/6/2016).
  • Troya Déniz, Magnolia (2015). «Quizá(s) y tal vez en novelistas de España y América». Philologica canariensia 21. pp. 109132. <http://ojsspdc.ulpgc.es/ojs/index.php/PhilCan/article/view/ 382> (17/6/2016).