Algorithme de recherche approximative dans un dictionnaire fond\'e sur une distance d'\'edition d\'efinie par blocs

Abstract

We propose an algorithm for approximative dictionary lookup, where altered strings are matched against reference forms. The algorithm makes use of a divergence function between strings -- broadly belonging to the family of edit distances; it finds dictionary entries whose distance to the search string is below a certain threshold. The divergence function is not the classical edit distance (DL distance); it is adaptable to a particular corpus, and is based on elementary alteration costs defined on character blocks, rather than on individual characters. Nous proposons un algorithme de recherche approximative de cha\ines dans un dictionnaire \`a partir de formes alt\'er\'ees. Cet algorithme est fond\'e sur une fonction de divergence entre cha\ines~ -- une sorte de distance d'\'edition: il recherche des entr\'ees pour lesquelles la distance \`a la cha\ine cherch\'ee est inf\'erieure \`a un certain seuil. La fonction utilis\'ee n'est pas la distance d'\'edition classique (distance DL); elle est adapt\'ee \`a un corpus, et se fonde sur la prise en compte de co\uts d'alt\'eration \'el\'ementaires d\'efinis non pas sur des caract\`eres, mais sur des sous-cha\ines (des blocs de caract\`eres).

0

Turn this paper into a lesson

ArcXiv compiles a structured reading guide from this paper's metadata: plain-English importance, contributions, prerequisite concepts, which sections to read first, flashcards, and a quiz. Grounded in the abstract, never invented.

Discussion (0)

Sign in to join the discussion.

Loading comments…