El análisis estilométrico aplicado a la literatura españolalas novelas policiacas e históricas

  1. José Manuel Fradejas
Revista:
Caracteres: estudios culturales y críticos de la esfera digital

ISSN: 2254-4496

Año de publicación: 2016

Volumen: 5

Número: 2

Páginas: 196-245

Tipo: Artículo

Otras publicaciones en: Caracteres: estudios culturales y críticos de la esfera digital

Resumen

En este artículo se trata de mostrar si un ordenador es capaz de determinar la autoría de un texto. Para ello se ha creado un corpus de 122 novelas contemporáneas (69 de tema histórico, 50 policiacas y 3 del oeste) y se han analizado con el paquete de análisis estilométrico stylo. De todos los análisis que ofrece este paquete, escrito en R, se ha utilizado el más sencillo: el análisis de grupos. Los resultados han sido muy interesantes ya que con un mínimo de 100 palabras (las más frecuentes) el ordenador ha sido capaz de agrupar, sin error alguno, las distintas obras de cada autor y ha sabido asignar al autor real aquellas que se publicaron bajo seudónimo.

Referencias bibliográficas

  • Argamon, Shlomo (2008). «Interpreting Burrows’s delta: Geometric and probabilistic foundations». Literary and Linguistic Computing 23 (2): pp. 131-147.
  • Blasco Pascual, Francisco Javier (2005). «La lengua de Avellaneda en el espejo de “La Pícara Justina”». Boletín de la Real Academia Española 85 (291): pp. 53-109.
  • Brinegar, C. S. (1963). «Mark Twain and the Quintus Curtius Snodgrass letters: A Statistical test of Authorship». Journal of the American Statistical Association 58: pp. 85-96.
  • Burrows, John (2002). «“Delta”: a measure of stylistic difference and a guide to likely authorship». Literary and Linguistic Computing 17 (3): pp. 267-287.
  • Calvo Tello, José (2016). «Entendiendo Delta desde las humanidades». Caracteres: estudios culturales y críticos de la esfera digital 5 (1): pp. 140-176. <http://revistacaracteres.net/revista/vol5n1mayo2016/enten diendo-delta/> (17/06/2016).
  • Craig, D. (2009). Shakespeare, computers, and the mystery of authorship. New York: Cambridge University Press.
  • Eder, Maciej, Jan Rybicki y Mike Kestemont (2013). Stylo: a Package for Stylometric Analyses. <https://sites.google.com/site/computationalstylistics/stylo/s tylo_howto.pdf?attredirects=0&d=1> (17/06/2016).
  • Eder, Maciej, Jan Rybicki y Mike Kestemont (s. f.). «Stylometry with R: A Package for Computational Text Analysis». The R Journal: pp. 1-15. <https://journal.rproject.org/archive/accepted/eder-rybicki-kestemont.pdf> (17/06/2016).
  • Foster, Donald (1989). Elegy by W.S.: a study in attribution. Newark: University of Delaware Press.
  • Frías Delgado, Antonio (2009). «Distribución de frecuencias de la longitud de las palabras en español aspectos diacrónicos y de estilometría». Eds. Pascual Cantos Gómez y Aquilino Sánchez Pérez. A survey of corpus-based research. <http://www.um.es/lacell/aelinco/contenido/pdf/51.pdf> (17/06/2016).
  • Gil-Albarellos Pérez-Pedrero, Susana (2010). «Algunas consideraciones teóricas sobre el fraude literario». Eds. Javier Blasco, Patricia Cepeda Marín y Cristina Ruiz Urbón. Hos ego versiculos feci... Estudios de atribución y plagio. Madrid: Iberoamericana Vervuert. pp. 333-345.
  • Gil-Albarellos Pérez-Pedrero, Susana (2011). «“Que no hay tan diestra mentira/que no se venga a saber”. Teorías de la falsificación literaria». Ed. Joaquín Álvarez Barrientos. Imposturas literarias españolas. Salamanca: Ediciones Universidad de Salamanca. pp. 17-32.
  • Holmes, David I. (1994). «Authorship attribution». Computers and the Humanities 28 (2): pp. 87-106.
  • Holmes, David I. (1999). «Stylometry». Encyclopedia of Statistics. Londres: Wiley.
  • Holmes, David I. (1998). «The Evolution of Stylometry in Humanities Scholarship». Literary and Linguistic Computing 13 (3): pp. 111-117.
  • Jockers, M.L. (2014). Text Analysis with R for Students of Literature. Cham: Springer.
  • Juola, Patrick (2006). «Authorship attribution». Foundations and Trends in Information Retrieval 1 (3): pp. 233-334.
  • Juola, Patrick (2013a): «How a Computer Program Helped Reveal J. K. Rowling as Author of A Cuckoo’s Calling». Scientific American <http://www.scientificamerican.com/article/howa-computer-program-helped-show-jk-rowling-write-acuckoos-calling/> (17/6/2016).
  • Juola, Patrick (2013b). «Rowling and “Galbraith”: an authorial analysis». Language Blog <http://languagelog.ldc.upenn.edu/nll/?p=5315> (17/6/2016).
  • Juola, Patrick (2015). «The Rowling case: A proposed standard analytic protocol for authorship questions». Digital Scholarship in the Humanities 30. <http://dsh.oxfordjournals.org/content/30/suppl_1/i100> (17/7/2016).
  • Juola, Patrick, John Sofko y Patrick Brennan (2006). «A prototype for authorship attribution studies». Literary and Linguistic Computing 21 (2): pp. 169-178.
  • Loper, Edward, Steven Bird y Ewan Klein (2009). Natural language Processing with Python. Sebastopol: O’Reilly.
  • López, Freddy (2011). «Donde se muestran algunos resultados de atribución de autor en torno a la obra cervantina». Revista Colombiana de Estadística 34 (1): pp. 15-37. <http://www.scielo.org.co/pdf/rce/v34n1/v34n1a02.pdf> (17/6/2016).
  • Madrigal, José Luis (2003). «De cómo y por qué La tía fingida es de Cervantes». Artifara 2. <http://www.cisi.unito.it/artifara/rivista2/testi/tiafingida.asp > (17.6.2016).
  • Madrigal, José Luis (2005). «El “Quijote” de Avellaneda, un crimen literario casi perfecto» Voz y letra: Revista de literatura 16 (1): pp. 247-294.
  • Martín Jiménez, Alfonso (2007). «Cotejo por medios informáticos de la “Vida” de Pasamonte y el “Quijote” de Avellaneda». Etiópicas 3: pp. 69-131. <http://www.uhu.es/revista.etiopicas/num/03/art_3_3.pdf> (17/6/2016).
  • Mendenhall, Thomas (1901). «A mechanical solution of a literary problem». Popular Science Monthly 60: pp. 97-105. <https://en.wikisource.org/wiki/Popular_Science_Monthly/ Volume_60/December_1901/A_Mechanical_Solution_of_a _Literary_Problem> (17/6/2016).
  • Merriam, Thomas (2013). «“Sir Thomas More”; sin estilometría». Nueva revista de política, cultura y arte 146: pp. 119-134.
  • Montoya Martínez, Jesús y Antonio Rubio Flores (1994). «De la comparación a la metáfora en Alfonso X. Cuestiones de estilometría en la prosa de la Partida Segunda». Actas Primer Encuentro Interdisciplinar sobre Retórica, texto y Comunicación Cádiz 9, 10, 11 de diciembre de 1993. Cádiz: Universidad Servicio de Publicaciones. pp. 156-162.
  • Mosteller, Frederick y David L. Wallace (1964). Inference and disputed authorship: The Federalist. Reading: AddisonWesley.
  • Niederkorn, William S. (2002, 20 junio). «A Scholar Recants on His “Shakespeare” Discovery». The New York Times. <http://www.nytimes.com/2002/06/20/arts/a-scholarrecants-on-his-shakespeare-discovery.html> (17/6/2016).
  • Riquer, Martín de (1988). Cervantes, Passamonte y Avellaneda. Barcelona: Sirmio.
  • Rissler-Pipka, Nanette (2016a). «Avellaneda y los problemas de la identificación del autor. Propuestas para una investigación con nuevas herramientas digitales». Ed. Hanno Ehrlicher. El otro Don Quijote. La continuación de Fernández de Avellaneda y sus efectos. Ausburgo: Institut für Spanien, Portugalund Lateinamerikastudien (ISLA). pp. 27-51.
  • Rissler-Pipka, Nanette (2016b). «Der falsche Quijote? Autorschaftsattribution für spanische Prosa der frühen Neuzeit», DHd 2016 Modellierung, Vernetzung, Visualisierung, pp. 212-217. <http://dhd2016.de/boa.pdf> (17/6/2016).
  • Stamatatos, Efstathios (2009). «A survey of modern authorship attribution methods». Journal of the American Society for Information Science and Technology. <http://www.icsd.aegean.gr/lecturers/stamatatos/papers/sur vey.pdf> (17/6/2016).
  • Troya Déniz, Magnolia (2015). «Quizá(s) y tal vez en novelistas de España y América». Philologica canariensia 21. pp. 109132. <http://ojsspdc.ulpgc.es/ojs/index.php/PhilCan/article/view/ 382> (17/6/2016).