Qu’y a-t-il dans un nom
données ouvertes liées comme base d'une écologie pour la publication scientifique, dynamique et décentrée
Susan Brown
John Simpson
L’équipe projet de CWRC
L’équipe projet de INKE
Scholarly and Research Communication
2104-3272
Scholarly and Research Communication 2019/04/25
Linked open data provides a means of producing an interlinked and more navigable scholarly environment to permit: the better integration of research materials; the potential to address the specificities of the nomenclature, discourses, and methodologies; and the ability to respect institutional and individual investments. The paper proposes a linked data publishing ecology based on collaborations between the scholarly, publishing, and library communities, and tempered by a consideration of the current state of linked data publishing practices and infrastructure gaps with respect to enabling such collaboration, particularly in the humanities.
Content management, Digital scholarship, Knowledge production, knowledge dissemination, public knowledge

Traduit de l’anglais par Jasmine Drudge-Willson (version originale CC BY-NC-ND)

L’isolement par rapport aux documents connexes nuit aux ressources numériques savantes en ligne à l’intérieur et à l’extérieur des sciences humaines. L’une des principales plaintes des chercheurs en ce qui concerne la recherche et l'utilisation de documents numériques est qu'ils existent en silos et qu'ils ne sont pas reliés à d'autres documents pertinents (Bulger, 2011 ; Frost et Dombrowski, 2011). Il en va de même pour les publications liées à l'impression conventionnelle comme les revues en ligne, les livres numérisés et les livres électroniques - dont l'accès est souvent exacerbé par les murs de paiement ou les structures de base de données dans lesquelles ils sont hébergés ; les projets de sciences humaines numériques publiés sur le Web par des particuliers ou des bibliothèques ; et les grands projets de numérisation ou de regroupement. Les services d'indexation contribuent à atténuer quelque peu ce problème, mais l'interconnexion significative des ressources avec les documents qu'elles citent et les documents qui les citent demeure un défi. Il en résulterait des avantages énormes si nous pouvions, par exemple, tirer parti des réseaux de citations et les formaliser dans notre environnement d'information, que les ressources dans lesquelles les citations se trouvent soient publiées officiellement ou non, ou qu’ils soient dans les commentaires des utilisateurs scientifiques individuels et dans les discours qui les accompagnent dans les médias sociaux. À la base, d’utiliser le discours d’entités ou de « objets » associés au Web sémantique ou aux données ouvertes liées (LOD), c’est d’avoir la capacité d’interconnecter les diverses entités liées à ces ressources entre elles (WorldCat, 2015).

La quantité et la diversité des discours scientifiques largement déconnectés qui circulent sous forme numérique constituent un défi et une occasion sans précédent. Aborder ce défi d'une manière réalisable ferait deux choses importantes. Premièrement, un niveau plus élevé d'interconnexion et d'interopérabilité des textes et des contextes contribuerait grandement à résoudre « le problème d’un million de livres » de Gregory Crane1 (2006). Cela permettrait à la recherche savante de se développer d'une manière qui, jusqu'à présent, n'a été accessible qu'à une très petite quantité de chercheurs en sciences humaines avec le financement et les compétences nécessaires pour rassembler de vastes ensembles de données pour leur propre usage. Même ces efforts ont été inévitablement limités par le fait que leurs ensembles de données sont, bien que larges, néanmoins bornés. Deuxièmement, le discours savant interconnecté et imbriqué a de bonnes possibilités d'accroître son impact, alors que ce travail est actuellement invisible pour les principaux moteurs de recherche et ne trouve pas sa place parmi les autres sources d'information qui remplissent le Web. Il s'agit là d'une cause particulière de regret, étant donné sa pertinence pour de nombreux débats contemporains et sa plus grande exigence d'autorité et de fiabilité que nombre de ses sources actuelles.

Cet article aborde le problème plus modeste et plus gérable de l'interconnexion comme un premier pas crucial vers l'interopérabilité en proposant des données ouvertes liées, avec l'exploitation des entités et des relations, comme moyen de produire un environnement de connaissances plus interconnecté et plus facilement navigable. Les éléments de base nécessaires à la mise en place d'un tel système existent, et des initiatives clés sont d'ailleurs en cours au sein des bibliothèques, des musées et du milieu de l'édition. L'accent sera mis ici sur la communauté scientifique et sa capacité à s'engager dans ces développements de manières qui renforceront à la fois la forme générale du Web sémantique et aideront les humanités numériques à surmonter certains obstacles majeurs qui ont entravé son impact tant dans les humanités traditionnelles que dans le plus grand environnement informatique. Nous n'employons pas une métaphore environnementale - l'écologie - au mépris des effets extrêmement néfastes des déchets électroniques et de la consommation d'énergie à l'échelle mondiale (Digital Environmental Humanities, n.d. ; Uddin et Rahman, 2011 ; Widmer, Oswald-Krapf, Sinha-Khetriwal, Schnellmann et Böni, 2005), ni pour « brouiller » les caractéristiques et effets locaux de ce que nous décrivons (Jaeger, Lin, Grimes et Simmons, 2009). La métaphore de l'écologie de publication met en évidence plusieurs aspects de cette approche.

Selon la définition initiale du disciple darwinien Ernst Haeckel, l'écologie considère « les relations de l’organisme avec l’environnement, y compris, au sens large, toutes les conditions d’existence »2 (cité en Egerton, 2013, p. 226). L'application d'un cadre écologique met l'accent sur la mesure dans laquelle toute tentative de modification des communications et des discours scientifiques doit être comprise en termes de diversité et de systématisation, car elle implique de modifier les liens entre les personnes et les conditions matérielles et institutionnelles dans lesquelles elles travaillent. Comme Bonnie A. Nardi et Vicki O'Day (1999) ont argumenté en introduisant le terme :

Une écologie d’information est un système complexe de parties et de relations. Elle présente de la diversité et connaît une évolution continue. Les différentes parties d’une écologie changent ensemble selon les relations dans le système au cours d’une co-évolution. Plusieurs espèces clés nécessaires à la survie de l’écologie sont présentes. Les écologies d’information ont une notion de localité. (n.p.)3

Cadrer ce problème comme un problème écologique nous permet également de penser en termes d’« écotones », « une région d’interface entre deux écosystèmes différents »4 (Hegde, 2012) – c'est-à-dire de régions dynamiques où le mélange des populations en marge de deux communautés différentes produit des pressions inhabituelles et stimule le changement. Le présent article identifie certaines des caractéristiques des écotones associées aux zones bordières entre les communautés de l'édition savante et des bibliothèques ; les secteurs de l'érudition citoyenne, des archives, des galeries et des musées mériteraient d'être examinés de façon similaire. Les écotones sont considérés comme essentiels pour soutenir « diverses communautés et…[pour affecter] la circulation des matériaux qui traversent le terrain »5 (Risser, 1990, p. 9), qui résonnent avec les préoccupations entourant le Web sémantique émergent (Brown et Simpson, 2013). Les espaces bordières ne sont pas des espaces vides, mais des zones fertiles, voire conflictuelles, qui sont cruciales pour le développement d’un environnement d'information solide et équilibré (Brown, 2011). Tout aussi pertinentes sont les connotations de l'écologie en tant que mouvement social, le sentiment qu'il existe de meilleures et de pires façons d'influer sur un environnement, et que les interventions devraient être bénéfiques dans leurs conséquences à long terme au-delà du contexte immédiat.

Les avantages d’une écologie de connaissances des données ouvertes et liées

Alors, comment les données liées peuvent-elles conduire à une meilleure écologie de la publication pour l’érudition et, en particulier, permettre aux publications savantes d’interagir avec les ensembles de données produites par les bibliothèques et les musées, d’une part, et les entreprises de publication officielle, d’autre part, et de les améliorer et de les enrichir? Ici, l’accent sera mis sur plusieurs avantages qui n’épuisent aucune possibilité : 1) l’interconnexion et, au moins au niveau de l’interface, l'intégration des ressources ; 2) la mise à disposition d'informations contextuelles et relationnelles comme base pour une environnement riche de connaissances ; 3) les boucles de rétroaction qui améliorent la qualité des données, en particulier ceux qui sont fournies par les fournisseurs d'information à grande échelle ; et 4) l’incorporation d’une diversité de discours, de méthodologies, et de données y compris des ontologies nuancées et des ensembles de données qui respectent le local et le particulier avec les valeurs aberrantes même si elles peuvent apparaître comme du « bruit » dans de grands ensembles.

1) l’interconnexion et, au moins au niveau de l’interface, l'intégration des ressources

Il s'agit du cas d'utilisation prééminent ou général pour les applications de données ouvertes liées (DOL, ou LOD en anglais) dans les domaines liés aux sciences humaines. Comme le soutient Jim Hendler (2011), le Cadre de description des ressources (RDF) du Web sémantique a bien compris ce que le langage XML (Extensible Markup Language) a mal compris : les liens externes. Beaucoup d’énergie se concentre actuellement sur le potentiel de DOL pour aider l'exposition et l'intégration de grands ensembles de données. Les bibliothèques et les musées sont les secteurs où ce genre d'initiatives est le plus importante avec des initiatives telles que la publication des données et les projets pilotes d'Europeana LOD (voir Europeana Labs, 2015) et la British Museum Collection of RDF (datahub, n.d.). Plus près de chez nous se trouve la preuve de concept « Au-delà des tranchées » élaborée par le Réseau pancanadien du patrimoine documentaire (RPCPD, n.d.), y compris les principales bibliothèques de recherche et Canadiana (Wuppleman, 2012), et, plus récemment le novateur Munnin Project qui utilise des données ouvertes liées pour produire des simulations des tranchées de la Première Guerre mondiale (Muninn Project, n.d.; Warren, 2012). Aux États-Unis, l’initiative Linked Data for Libraries (LD4L) et le projet VIVO utilisent également des données liées pour agréger des données savantes et des collections des bibliothèques, en tirant parti des ressources bibliothécaires ouvertes telles que le Virtual International Authority File (LD4L, 2014; VIVO Open Research Networking Community Group, 2015).

Tous ces projets présentent des cas d’utilisation convaincants pour l’utilisation de données liées afin d’exposer et d’interconnecter les résultats de recherche et les réseaux de publication des chercheurs. Aucun d'entre eux n'intègre l'activité de recherche savante dans sa vision de l'écologie d'édition qui en résulte. Le Online Computer Library Center (OCLC), une organisation à but non lucratif globale pour les services des bibliothèques, a travaillé en collaboration avec les chercheurs dans ces initiatives concernant les données liées (Klein, 2012a), mais il a également reconnue les obstacles qui entravent de telles collaborations. Apparemment, il y a un système plus établie et automatisée dans la communauté de Wikipédia (Klein, 2012b; OCLC Research, 2014; Smith-Yoshimura, Michelson, et Mardutho, 2013). Mais il existe certainement quelques exceptions, par exemple DM2E, le projet Digitised Manuscripts to Europeana qui est lié à l'initiative infrastructurelle Digital Research Infrastructure for the Arts and Humanities (DARIAH-EU), des projets de recherche savante actifs sont omis du processus et des flux de travail nécessaires à la production et à la publication de de vastes ensembles de données sur les objets des sciences humaines.

L’omission de la participation de chercheurs actifs et l’interconnexion de projets de recherche actifs, même s’il nécessiterait un écart de compréhension traditionnelle de la stabilité des ressources et des limites des archives physiques, semble être une occasion manquée pour enrichir ces ressources.  

2) La mise à disposition d'informations contextuelles et relationnelles comme base d'un riche environnement de connaissances

Étant donné les attentes élevées à l'égard de l'actualité des ressources du web, l'établissement de liens entre les documents de recherche savante et les ensembles de données publiés fournirait des renseignements contextuels utiles pour ces ensembles de données, puisque les travaux d’érudition établissent un lien entre les sources primaires et les travaux d’érudition publiés avec les débats contemporains. Comme l’a dit l’informaticien, R. J. Searle, les humanistes, dans un sens, « sont les conservateurs par excellence de l’information savante »6 parce qu’ils transforment les données primaires « brutes » en contenu « institutionnel » secondaire. (cité dans Benardou, Constantopoulos, Dallas, & Gavrillis, 2010, p. 28). Il reste beaucoup à gagner avec une meilleure intégration des matériaux de recherche avec les sources primaires et secondaires sur lesquelles ils s'appuient. Au-delà de l'établissement de liens avec des ressources externes pour l'information contextuelle, des normes émergentes comme le Open Annotation Data Model (2013) offrent la possibilité pour les éditions en ligne de textes littéraires primaires, par exemple, de s'appuyer sur des notes de recherche produites par des chercheurs dans d'autres contextes.

3) Des boucles de rétroaction qui améliorent la qualité des données, en particulier celles qui émanent des fournisseurs d'information à grande échelle.

Les universitaires ont l'expertise et la motivation nécessaires pour corriger les données douteuses existantes. Certains projets novateurs, comme le Early Modern OCR Projet (eMOP),  jettent des ponts entre les fournisseurs de contenu numérique à grande échelle et la communauté des universitaires à l’avantage des deux. Ces efforts peuvent inciter les chercheurs à corriger les erreurs en vue d'améliorer les efforts de numérisation à grande échelle en permettant aux utilisateurs de corriger la reconnaissance optique de caractères (ROC, OCR en anglais), ou de noter les images numérisées de mauvaise qualité intégrées dans les collections. Ce qu'il faut, ce sont des outils qui permettent aux fournisseurs de données de recueillir facilement des données rétrospectives sur les corrections dans leurs ensembles de données sources, d’agréger cette information dans des interfaces qui ont les dispositions pour la filtrer selon leur provenance et les critères de confiance, et d’intégrer les résultats par l’apprentissage automatique dans le processus de ROC afin d’améliorer l’exactitude globale.

4) L’incorporation de la diversité du discours, de la méthodologie et des données

Les sciences humaines ont beaucoup à apporter au développement d'une écologie de données liées plus large dans le domaine des ontologies nuancées et des ensembles de données qui respectent le local et le particulier, y compris les valeurs aberrantes qui peuvent apparaître comme du « bruit » dans de grands ensembles de données. La possibilité d'aborder les spécificités de la nomenclature, des discours et des méthodologies des disciplines et des sous-disciplines des sciences humaines tout en les reliant, et la capacité de respecter les investissements institutionnels et individuels dans la propriété ou le crédit des ressources en permettant la collecte de données identifiables tout en favorisant l'interconnexion des ressources, contrecarreront les tendances des données ouvertes et liées pour masquer la différence et la diversité résultant du processus de mise en échelle.

La modélisation d’une écologie ouverte

Comme point de départ, nous proposons un modèle de très haut niveau pour une écologie de publication décentrée et dynamique basée sur des collaborations entre les communautés de chercheurs, d'éditeurs et de bibliothèques fondées sur des principes de données liées (voir Figure 1).

Les lignes de couleur solides entre les catégories de contenu représentent le degré élevé de complémentarité des données détenues et la capacité de chaque domaine d'améliorer l'autre de diverses façons. C’est plus suggestif que compréhensif. Chacun de ces domaines n'est contenu que d’une façon minimale dans une forme de nuage poreux qui se chevauche, et au-dessus d'eux se trouvent les services de données liées qui sont essentiels à une écologie dynamique et productive comme celle que nous avons envisagée. Les flèches vertes cassées se déplaçant dans les écotones entre les domaines illustrent à quel point les synergies indiquées par les flèches solides présupposent de tels services, mais elles ne sont pas encore disponibles.

Figure 1 : Esquisse de l'écologie de la publication scientifique dynamique basée sur les données ouvertes et liées
Figure 1 : Esquisse de l'écologie de la publication scientifique dynamique basée sur les données ouvertes et liées

Lacunes de fonctionnalité

Comme l’indiquent les flèches brisées, la vision de la gloire que le web sémantique pourrait offrir doit être tempérée par une considération de l'état actuel des pratiques et de l'infrastructure de la publication de données liées. Il faut combler d'importantes lacunes en ce qui concerne les outils et l'infrastructure avant que ce modèle puisse devenir une réalité. Nous nous concentrons ici sur deux lacunes complémentaires dans l'écologie de publication de DOL en ce qui concerne le raffinement des entités et la nuance des ontologies qui les relient.

Désambiguïsation/alignement/liaison des entités

La conversion ou l'agrégation entièrement automatisée des documents existants en données ouvertes liées produit des résultats qui effacent les distinctions et les différences autour desquelles une grande partie du travail dans les sciences humaines est centrée. Le refus du traitement automatisé peut expliquer pourquoi les ensembles de données « liées » des sciences humaines sont souvent autoréférentiels, avec peu ou pas de liens avec des données externes. Il existe un besoin urgent de technologies DOL qui peuvent permettre une surveillance humaine efficace, le perfectionnement et la correction des processus automatisés afin de s'assurer que les humanistes peuvent créer ou adapter des ensembles de données liées en lesquels ils ont confiance. Ce qui est requis est un flux de travail qui permet aux chercheurs de prendre un ensemble de données structuré ou non structuré existant et d'effectuer une série d'opérations pour le préparer comme DOL. Les opérations sont les suivantes : 1) effectuer la reconnaissance/extraction des entités nommées et des triples sur l'ensemble de données, ce qui peut impliquer l'utilisation d'ensembles d'entraînement pour obtenir des résultats précis ; 2) faire correspondre les résultats aux collections DOL existantes qui seront sélectionnables/configurables par l'utilisateur ; 3) présenter aux utilisateurs des correspondances de candidats pour des entités et des triples ambigus afin de leur permettre de traiter des correspondances imparfaites et des candidats de triples ; 4) à partir de ces données, produire des annotations DOL des données et/ou intégrer des identificateurs DOL dans les données (ceci est essentiel pour les projets de sciences humaines avec les métadonnées intégrées), en s'appuyant sur le Open Annotation Data Model (2013) ; et 5) retransmettre les résultats dans un système d'apprentissage automatique afin d'améliorer les correspondances futures.

Des composants Open Source pour un tel flux de travail existent dans des outils tels que le Stanford Named Entity Tagger (n.d.) et LODE (n.d.), le Linked Open Data Enhancer développé en partenariat avec le Indiana Philosophy Ontology (InPho) Project (2013). Ce qui n'existe pas, c'est un flux de travail utilisable et accessible qui pourrait servir un large éventail de types de textes. Un tel flux de travail permettrait de faire progresser un certain nombre de projets savants existants en matière de DOL. Il comblerait une lacune importante de l'infrastructure en permettant l'interconnexion des données des publications, des bibliothèques et des musées avec les données savantes afin de créer un ensemble de relations riches et symbiotiques. En outre, un tel flux de travail encouragerait l'utilisation de la DOL par les humanistes, poussant les données des sciences humaines à de nouveaux échelons d'interopérabilité tout en améliorant les ensembles de données existants et permettant de nouveaux types de recherche et d'inférence entre les ensembles de données culturels. L'absence d'un tel outil est également ressentie par les principaux fournisseurs d'information. Des organisations comme le Library of Congress et le OCLC, le centre de bibliothèque informatique en ligne à but non lucratif qui héberge WorldCat, qui fournit les ensembles de données d'autorité ultime dans notre domaine, seront sollicitées pour la désambiguïsation des entités de données liées, mais leur production de données liées est entravée par l'absence des processus décrits ici. Par exemple, le OCLC publiera bientôt environ 100 millions de noms de personnes en tant que données liées, en plus des noms existants et des 197 millions de titres d'œuvres déjà publiés. Cependant, pour générer cet ensemble de données, le OCLC a choisi d'ignorer les correspondances imparfaites ; par exemple, les auteurs qui présentent de légères variations dans la représentation de leurs noms (par exemple, « E. Pauline Johnson » contre « Pauline Johnson »), ne seront pas considérés comme la même entité (Fons, 2014). À la réunion de la Coalition pour l'information en réseau tenue en l'automne de 2014, les directeurs des grands projets de recherche de données ouvertes liées ont convenu que des services de réconciliation sont nécessaires de toute urgence et pourtant, personne dans cette communauté ne s’est engagée à produire un tel outil.

Bien que relativement modeste et tout à fait faisable, un flux de travail utilisable et généralisé de ce type pourrait changer la donne. Comme l'affirme Dominic Lam (2014), de tels flux de travail sont essentiels à l'expansion de la recherche numérique en sciences humaines. De plus, à mesure que les technologies du web sémantique deviennent plus répandus (comme dans le cas de Google), l'impact public de l'exposition et de l'interconnexion de grandes quantités de données des sciences humaines pourrait être considérable.

Conclusion

Cette discussion n'épuise en rien les lacunes. Le modèle indique une gamme de services DOL nécessaires, dont la plupart n'existent pas encore du tout ou, du moins, sous la forme mature et généralisée nécessaire pour soutenir le type d'échange dynamique de DOL envisagé ici. Elles comprennent le besoin de meilleurs mécanismes pour établir des conditions automatisées d'évaluation de la provenance, de l'autorité et de la fiabilité des ressources de DOL, et d'outils pour recueillir et intégrer les corrections et les améliorations. Les droits sont bien sûr une considération majeure. Il reste aussi le fait qu'en dépit de quelques belles interfaces sur mesure adaptées à des collections spécifiques, nous manquons de très bonnes interfaces utilisables par l'humain pour le Web sémantique en général, que ce soit pour des requêtes qui s'appuient sur la structure sémantique ou des visualisations de parties du graphique. Nous soulignons ici deux lacunes que nous considérons particulièrement importantes pour la communauté des humanités. L'élément le plus immédiatement accessible pour le travail dans ce domaine réside dans l'identification et la mise en relation des entités, ce qui permettra aux données des sciences humaines de passer au Web sémantique et constitue un élément majeur des sciences humaines en contact avec le public. Un outil de négociation des ontologies, ou ce que nous aimons à considérer comme une ‘machine à différences’ (en hommage à Charles Babbage), pourrait être la contribution la plus significative que les sciences humaines pourraient apporter à l'écologie émergente du Web sémantique, surtout si elle peut enrichir les ontologies dans les autres domaines comme l'édition ou les bibliothèques. Une approche de l'édition savante numérique fondée sur les entités permet d'intégrer l'érudition vivante aux ressources qui ressemblent encore à l’impression, ce qui reflète la nature toujours plus dynamique de la production savante à l'ère numérique comme composante nécessaire de l'environnement du savoir en ligne. Elle offre aux érudits du numérique des solutions locales en matière de contrôle de l'autorité, de recherche d'information, de visualisation d'information et, à plus long terme, d'inférence et de raisonnement qui font appel à d'autres sources de connaissances. En bref, elle représente une occasion de collaboration fructueuse avec d'autres secteurs étroitement liés de l'économie du savoir, combinée à la possibilité d'influencer plus directement le Web en tant qu'espace évolutif de production et de diffusion du savoir.

Bibliographie

Sites Web

DBpedia, http://wiki.dbpedia.org

Schema.org, http://schema.org

Virtual International Authority File, https://viaf.org/

Ouvrages cités

Benardou, Agiatis, Constantopoulos, Panos, Dallas, Costis, & Gavrillis, Dimitris. (2010). Understanding the information requirements of arts and humanities scholarship. International Journal of Digital Curation5(1), 18-33.

Brown, Susan. (2011). Don’t mind the gap: Evolving digital modes of scholarly production across the digital-humanities divide. In Daniel Coleman & Smaro Kamboureli (Eds.), Retooling the humanities: The culture of research in Canadian universities (pp. 203-231). Edmonton, AB: University of Alberta Press. 203-231. URL: http://hdl.handle.net/10402/era.25382 [July 17, 2015].

Brown, Susan, & Simpson, John. (2013). The curious identity of Michael Field and its implications for humanities research with the semantic web. IEEE International Conference on Big Data 2013, 77-85. URL: http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6691674&tag=1 [October 9, 2015].

Bulger, Monica E., Meyer, Eric, De la Flor, Grace, Terras, Melisa, Wyatt, Sally, Jirotka, Marina, Eccles, Katherine, & Madsen, Christine McCarthy. (2011). Reinventing research? Information practices in the humanities. Information Practices in the Humanities, March. A Research Information Network Report.

Crane, Gregory. (2006). What do you do with a million books? D-Lib Magazine, 12(3).

Datahub. (n.d.). British museum collection. URL: http://datahub.io/dataset/british-museum-collection [July 17, 2015].

Digital Environmental Humanities. (n.d.). Home. URL: http://dig-eh.org/ [11 September 2015].

Dublin Core Metadata Initiative. (n.d.). Dublin core metadata initiative. URL: http://dublincore.org/ [July 17, 2015].

Egerton, F.N. (2013). History of ecological sciences, part 47: Ernst Haeckel’s ecology. Bulletin of the Ecological Society of America94(3), 222-244.

eMOP: Early Modern OCR Project. (n.d.). Home. URL: http://emop.tamu.edu/ [July 17, 2015].

Europeana Labs. (2015). Europeana linked open data. URL: http://labs.europeana.eu/api/linked-open-data/introduction/ [July 17, 2015].

Fons, Ted. (2014). Transforming bibliographic records into linked open data (LOD). Panel presentation at the Coalition for Networked Information Fall 2014. URL: http://www.cni.org/topics/information-access-retrieval/exposing-library-collections-on-the-web-challenges-and-lessons-learned/ [July 17, 2015].

Frost Davis, Rebecca, & Dombrowski, Quinn. (2011). Divided and conquered: How multivarious isolation is suppressing digital humanities scholarship. Washington, DC: National Institute for Technology in Liberal Education. URL: https://web.archive.org/web/20130927214037/http://www.nitle.org/live/files/36-divided-and-conquered [July 17, 2015].

Jaeger, Paul T., Lin, Jimmy, Grimes, Justin M., & Simmons, Shannon N. (2009). Where is the cloud? Geography, economics, environment, and jurisdiction in cloud computing. First Monday14(5).

Hegde, Medha. (2012). Ecotones: the transitional zones. Biotech Articles, 12. URL: http://www.biotecharticles.com/Biology-Article/Ecotones-The-Transitional-Zones-2191.html [July 17, 2015].

Hendler, Jim. (2011). Why the Semantic Web will never work. Presented at the 8th Extended Semantic Web Conference (ESWC) in Heraklion, Greece. URL: http://videolectures.net/eswc2011_hendler_work/ [July 17, 2015].

 Indiana Philosophy Ontology (InPho) Project. (2013). The InPho Project. URL: https://inpho.cogs.indiana.edu/ [July 17, 2015].

Klein, Max. (2012a). OCLC makes new moves connecting Wikipedia and libraries. OCLC eNews31. URL: http://www.oclc.org/en-europe/publications/newsletters/enews/2012/31/en-08.html [July 17, 2015].

Klein, Max. (2012b). VIAFbot debriefing. OCLC ResearchURL: http://hangingtogether.org/?p=2306 [July 17, 2015].

Krafft, Dean, & Cramer, Tom. (2014). Video: Linked data for libraries (LD4L) project update. Coalition for Networked Information. URL: http://www.cni.org/news/video-linked-data-for-libraries-ld4l-project-update/ [July 17, 2015].

Lam, Dominic. (2014, September 8). Big data challenges in social sciences & humanities research. Datanami. URL: http://www.datanami.com/2014/09/08/big-data-challenges-social-sciences-humanities-research/ [July 17, 2015].

LD4L: Linked Data for Libraries. (2014). Duraspace. URL: https://wiki.duraspace.org/pages/viewpage.action?pageId=41354028 [July 17, 2015].

LODE: Linked Open Data Enhancer(n.d.). URL: http://www.linkedhumanities.com [July 17, 2015].

Muninn Project. (n.d.). URL: http://blog.muninn-project.org/ [July 17, 2015].

Nardi, Bonnie A., & O’Day, Vicki L. (1999). Chapter 4: Information ecologies. First Monday4(5). URL: http://firstmonday.org/ojs/index.php/fm/article/view/672/582 [July 17, 2015].

OCLC Research. (2014, March 3). Scholars’ contributions to VIAF. URL: http://oclc.org/research/activities/viaf-scholars.html [July 17, 2015].

Oldman, Dominic. (2012, September 4). The British museum, CIDOC CRM and the shaping of knowledge. My Blog: The Blog of Dominic Oldman. URL: http://www.oldman.me.uk/blog/the-british-museum-cidoc-crm-and-the-shaping-of-knowledge/ [July 17, 2015].

Open Annotation Data Model. (2013). W3C. URL: http://www.openannotation.org/spec/core/ [July 17, 2015].

Pan-Canadian Documentary Heritage Network. (n.d.) Linked Open Data (LOD) Visualization ’Proof-of-Concept.’ URL: http://www.canadiana.ca/sites/pub.canadiana.ca/files/PCDHN%20Proof-of-concept_Final-Report-ENG_0.pdf [13 September 2015].

Risser, Paul G. (1990). The ecological importance of land-water ecotones. In H. Décamps & R.J. Naiman (Eds.), The ecology and management of aquatic-terrestrial ecotones (pp. 7-21). Paris, FR: UNESCO.

Searle, John R. (1995). The construction of social reality. New York, NY: Simon and Schuster.

Simpson, John, Brown, Susan, & Goddard, Lisa. (2013). A humanist perspective on building ontologies in theory and practice. Digital Humanities Conference Abstracts 2013. Lincoln, NE: University of Nebraska. URL: http://dh2013.unl.edu/abstracts/ab-413.html [July 17, 2015].

Smith-Yoshimura, Karen, Michelson, David, & Mardutho, Beth. (2013, March 27)Irreconcilable differences? Name authority control & humanities scholarship. OCLC Research. URL: http://hangingtogether.org/?p=2621 [July 17, 2015].

Stanford Named Entity Tagger. (n.d.). URL: http://nlp.stanford.edu:8080/ner/ [July 17, 2015].

Uddin, Mueen, & Rahman, Azizah Abdul. (2011). Techniques to implement in green data centres to achieve energy efficiency and reduce global warming effects. International Journal of Global Warming, 3(4), 372-389.

VIVO Open Research Group. (n.d.) W3C. URL: http://www.w3.org/community/vivo/ [July 17, 2015].

Warren, Robert. (2012). Creating specialized ontologies using Wikipedia: The Muninn experience. Berlin, DE: Proceedings of Wikipedia Academy: Research and Free Knowledge (WPAC2012). URL: http://hangingtogether.org/?p=2306http://hangingtogether.org/?p=2306 [July 17, 2015].

Widmer, Rolf, Oswald-Krapf, Heidi, Sinha-Khetriwal, Deepali, Schnellmann, Max, & Böni, Heinz. (2005). Global perspectives on e-waste. Environmental Impact Assessment Review, 25(5), 436-458.

WorldCat Entities. (2015). OCLC Developer Network. URL: http://oclc.org/developer/develop/linked-data/worldcat-entities.en.html [July 17, 2015].

Wuppleman, William. (2012, November 7). Out of the trenches: A linked open data project. Canadiana. URL: http://www.canadiana.ca/en/pcdhn-lod [July 17, 2015].


  1. “The million books problem” en anglais

  2. The relations of the organism to the environment including, in the broad sens, all the « conditions of existence »

  3. An information ecology is a complex system of parts and relationships. It exhibits diversity and experiences continual evolution. Different parts of an ecology coevolve, changing together according to the relationships in the system. Several keystone species necessary to the survival of the ecology are present. Information ecologies have a sense of locality. (n.p.)

  4. an interface region between two different ecosystems

  5. diverse communities and … [affecting] the flow of materials across the landscape

  6. are curators par excellence of scholarly information