Determinació d'estils d'escriptura per a la detecció de similituds entre documents digitals

Yohandri Ril Gil, Yuniet del Carmen Toll Palma, Eddy Fonseca Lahens

Resum


Tot el que és inherent a l'intel·lecte humà és susceptible d'actes de plagi: obres científiques i literàries com ara articles, tesis, obres audiovisuals, plans i projectes, codis font de programes, entre altres. No obstant això, aquest treball dedica una atenció especial a l'existència d'aquest fenomen en obres escrites, concretament documents digitals provinents de llenguatges naturals o de programació, i centra l’objectiu en el desenvolupament i aplicació d'un model matemàtic que permet determinar l'estil d'escriptura emprat en la redacció dels textos. Els resultats que s'esperen obtenir a partir de l'aplicació d'aquest procediment serviran de base per a la reducció del nombre de documents que s'han de comparar en l'anàlisi i detecció de similituds entre aquests documents. Experimentalment s'aplica el procediment a un grup d'articles classificats per temàtiques i autors i que difereixen en l'estil d'escriptura utilitzat per a redactar-los.


Paraules clau


estil d'escriptura; documents digitals; plagi; procediment

Referències


Clough, P. (2000). Plagiarism in natural and programming languages: an overview of current tools and technologies. Research Memoranda: CS-00-05, Department of Computer Science, University of Sheffield, UK, 1-31. Retrieved from http://ir.shef.ac.uk/cloughie/papers/plagiarism2000.pdf

Cooper, J. W., Coden, A. R., & Brown, E. W. (2002). Detecting similar documents using salient terms. In Proceedings of the 11th international conference on Information and Knowledge Management. New York, NY: ACM. Retrieved from http://www.labsoftware.com/flahdo/Papers/CIKMDuplicates.pdf

Dale, E., & Chall, J. S. (1948). A formula for predicting readability. Educational Research Bulletin, 27(1), 11-20. Retrieved from http://www.ecy.wa.gov/quality/plaintalk/resources/classics.pdf

Dubay, W. H. (2004). The principles of readability. Costa Mesa, CA: Impact Information. Retrieved from http://files.eric.ed.gov/fulltext/ED490073.pdf

Gitchell, D., & Tran, N. (1999). Sim: a utility for detecting similarity in computer programs. In The proceedings of the 30th SIGCSE technical symposium on Computer Science Education. New York, NY: ACM. Retrieved from http://www.eng.uwi.tt/depts/elec/staff/feisal/ee302/sim-gitchell.pdf

Gruner, S. & Naven, S. (2005). Tool support for plagiarism detection in text documents. In Proceedings of the 2005 ACM symposium on Applied Computing. New York, NY: ACM. Retrieved from http://dl.acm.org/citation.cfm?id=1066677.1066854. doi http://dx.doi.org/10.1145/1066677.1066854

Honoré, A. (1979). Some simple measures of richness of vocabulary. Association for Literary and Linguistic Computing Bulletin, 7(2).

Plagiarise (n.d.). In The Collins English Dictionary. Retrieved from http://www.collinsdictionary.com/dictionary/english/plagiarise

Real Academia Española (Ed.) (2001). Diccionario de la Real Academia Española. Madrid, Spain: Real Academia Española.

Si, A., Leong, H. V., & Lau, R. W. H. (1997). Check: a document plagiarism detection system. In Proceedings of the 1997 ACM symposium on Applied Computing. New York, NY: ACM. Retrieved from http://www.cs.cityu.edu.hk/~rynson/papers/sac97.pdf. doi http://dx.doi.org/10.1145/331697.335176

Wikipedia (2011). Gunning fog index. Wikipedia. Online: Wikipedia.org. Retrieved from http://en.wikipedia.org/wiki/Gunning_fog_index

Yule, G. U. (1944).The statistical study of literary vocabulary. Journal of the Royal Statistical Society, 107(2), 129-131. Retrieved from http://www.jstor.org/discover/10.2307/2981280?uid=3737824&uid=2129&uid=2&uid=70&uid=4&sid=21102626763567. doi http://dx.doi.org/10.2307/2981280




DOI: http://dx.doi.org/10.7238/rusc.v11i1.1783

Enllaços refback

  • No hi ha cap enllaç refback.




Universitat Oberta de Catalunya. eLearn Center 

RUSC. Universities and Knowledge Society Journal és una publicació electrònica editada per la Universitat Oberta de Catalunya (Barcelona).

Creative Commons
Els textos publicats en aquesta revista estan subjectes –llevat que s'indiqui el contrari– a una llicència de Reconeixement 3.0 Espanya de Creative Commons. Podeu copiar-los, distribuir-los, comunicar-los públicament i fer-ne obres derivades sempre que reconegueu els crèdits de les obres (autoria, nom de la revista, institució editora) de la manera especificada pels autors o per la revista. La llicència completa es pot consultar a http://creativecommons.org/licenses/by/3.0/es/deed.ca.