Jeux de dictionnaires, plus grand suffixe commun¶
Les dictionnaires sont très utilisés pour associer des choses entre elles, surtout quand ces choses ne sont pas entières. Le notebook montre l’intérêt de perdre un peu de temps pour transformer les données et rendre un calcul plus rapide.
Enoncé¶
Le texte suivant est un poème d’Arthur Rimbaud, Les Voyelles. On veut en extraire tous les mots.
[1]:
poeme = """
A noir, E blanc, I rouge, U vert, O bleu, voyelles,
Je dirai quelque jour vos naissances latentes.
A, noir corset velu des mouches éclatantes
Qui bombillent autour des puanteurs cruelles,
Golfe d'ombre; E, candeur des vapeurs et des tentes,
Lance des glaciers fiers, rois blancs, frissons d'ombelles;
I, pourpres, sang craché, rire des lèvres belles
Dans la colère ou les ivresses pénitentes;
U, cycles, vibrements divins des mers virides,
Paix des pâtis semés d'animaux, paix des rides
Que l'alchimie imprime aux grands fronts studieux;
O, suprême clairon plein de strideurs étranges,
Silences traversés des Mondes et des Anges:
—O l'Oméga, rayon violet de Ses Yeux!
"""
[2]:
def extract_words(text):
# ce n'est pas la plus efficace des fonctions mais ça fait ce qu'on veut
spl = (
text.lower()
.replace("!", "")
.replace(",", "")
.replace(";", "")
.replace(".", "")
.replace(":", "")
.replace("'", " ")
.split()
)
return spl
print(extract_words(poeme))
['a', 'noir', 'e', 'blanc', 'i', 'rouge', 'u', 'vert', 'o', 'bleu', 'voyelles', 'je', 'dirai', 'quelque', 'jour', 'vos', 'naissances', 'latentes', 'a', 'noir', 'corset', 'velu', 'des', 'mouches', 'éclatantes', 'qui', 'bombillent', 'autour', 'des', 'puanteurs', 'cruelles', 'golfe', 'd', 'ombre', 'e', 'candeur', 'des', 'vapeurs', 'et', 'des', 'tentes', 'lance', 'des', 'glaciers', 'fiers', 'rois', 'blancs', 'frissons', 'd', 'ombelles', 'i', 'pourpres', 'sang', 'craché', 'rire', 'des', 'lèvres', 'belles', 'dans', 'la', 'colère', 'ou', 'les', 'ivresses', 'pénitentes', 'u', 'cycles', 'vibrements', 'divins', 'des', 'mers', 'virides', 'paix', 'des', 'pâtis', 'semés', 'd', 'animaux', 'paix', 'des', 'rides', 'que', 'l', 'alchimie', 'imprime', 'aux', 'grands', 'fronts', 'studieux', 'o', 'suprême', 'clairon', 'plein', 'de', 'strideurs', 'étranges', 'silences', 'traversés', 'des', 'mondes', 'et', 'des', 'anges', '—o', 'l', 'oméga', 'rayon', 'violet', 'de', 'ses', 'yeux']
Exercice 1 : trouver les deux mots qui partagent le plus grand suffixe en commun¶
[ ]:
Exercice 2 : constuire un dictionnaire qui associe à chaque lettre tous les mots se terminant par celle-ci¶
[ ]:
Exercice 3 : trouver les deux mots qui partagent le plus grand suffixe en commun en utilisant le dictionnaire précédent¶
[ ]:
Exercice 4 : mesurer le temps pris par chaque fonction¶
La fonction perf_counter est parfaite pour ça.
[ ]:
Exercice 5 : expliquer pourquoi telle méthode est plus rapide.¶
La réponse devrait guider vers une méthode encore plus rapide.
[ ]:
Exercice 6 : pousser l’idée plus loin et construire un trie¶
Indexer les mots par leur dernière lettre permet d’aller plus vite. Il faut maintenant trouver le suffixe le plus long dans chaque sous-groupe de mots. Ce problème est identique au précédent sur tous les mots précédents auxquels la dernière aurait été ôtée. Comment exploiter cette idée jusqu’au bout ?
[ ]:
Réponses¶
Exercice 1 : trouver les deux mots qui partagent le plus grand suffixe en commun¶
Ce n’est qu’une suggestion. La fonction repose sur trois boucles, la première parcourt différentes tailles de suffixe, les deux autres regardes toutes les paires de mots.
[3]:
def plus_grand_suffix_commun(mots):
longueur_max = max([len(m) for m in mots])
meilleure_paire = None
meilleur_suffix = None
# On peut parcourir les tailles de suffixe dans un sens croissant
# mais c'est plus efficace dans un sens décroissant dans la mesure
# où le premier suffixe trouvé est alors nécessairement le plus long.
for i in range(longueur_max - 1, 0, -1):
for m1 in mots:
for m2 in mots: # ici, on pourrait ne parcourir qu'une partie des mots
# car m1,m2 ou m2,m1, c'est pareil.
if m1 == m2:
continue
if len(m1) < i or len(m2) < i:
continue
suffixe = m1[-i:]
if m2[-i:] == suffixe:
meilleur_suffix = suffixe
meilleure_paire = m1, m2
return meilleur_suffix, meilleure_paire
mots = extract_words(poeme)
plus_grand_suffix_commun(mots)
[3]:
('tentes', ('latentes', 'tentes'))
Exercice 2 : constuire un dictionnaire qui associe à chaque lettre tous les mots se terminant par celle-ci¶
[4]:
mots = extract_words(poeme)
suffix_map = {}
for mot in mots:
lettre = mot[-1]
if lettre in suffix_map:
suffix_map[lettre].append(mot)
else:
suffix_map[lettre] = [mot]
suffix_map
[4]:
{'a': ['a', 'a', 'la', 'oméga'],
'r': ['noir', 'jour', 'noir', 'autour', 'candeur'],
'e': ['e',
'rouge',
'je',
'quelque',
'golfe',
'ombre',
'e',
'lance',
'rire',
'colère',
'que',
'alchimie',
'imprime',
'suprême',
'de',
'de'],
'c': ['blanc'],
'i': ['i', 'dirai', 'qui', 'i'],
'u': ['u', 'bleu', 'velu', 'ou', 'u'],
't': ['vert', 'corset', 'bombillent', 'et', 'et', 'violet'],
'o': ['o', 'o', '—o'],
's': ['voyelles',
'vos',
'naissances',
'latentes',
'des',
'mouches',
'éclatantes',
'des',
'puanteurs',
'cruelles',
'des',
'vapeurs',
'des',
'tentes',
'des',
'glaciers',
'fiers',
'rois',
'blancs',
'frissons',
'ombelles',
'pourpres',
'des',
'lèvres',
'belles',
'dans',
'les',
'ivresses',
'pénitentes',
'cycles',
'vibrements',
'divins',
'des',
'mers',
'virides',
'des',
'pâtis',
'semés',
'des',
'rides',
'grands',
'fronts',
'strideurs',
'étranges',
'silences',
'traversés',
'des',
'mondes',
'des',
'anges',
'ses'],
'd': ['d', 'd', 'd'],
'g': ['sang'],
'é': ['craché'],
'x': ['paix', 'animaux', 'paix', 'aux', 'studieux', 'yeux'],
'l': ['l', 'l'],
'n': ['clairon', 'plein', 'rayon']}
Exercice 3 : trouver les deux mots qui partagent le plus grand suffixe en commun en utilisant le dictionnaire précédent¶
On reprend les deux ingrédients.
[5]:
def plus_grand_suffix_commun_dictionnaire(mots):
suffix_map = {}
for mot in mots:
lettre = mot[-1]
if lettre in suffix_map:
suffix_map[lettre].append(mot)
else:
suffix_map[lettre] = [mot]
tout = []
for cle, valeur in suffix_map.items():
suffix = plus_grand_suffix_commun(valeur)
if suffix is None:
continue
tout.append((len(suffix[0]), suffix[0], suffix[1]))
return max(tout)
mots = extract_words(poeme)
plus_grand_suffix_commun_dictionnaire(mots)
[5]:
(6, 'tentes', ('latentes', 'tentes'))
Exercice 4 : mesurer le temps pris par chaque fonction¶
[6]:
from time import perf_counter
mots = extract_words(poeme)
debut = perf_counter()
for i in range(100):
plus_grand_suffix_commun(mots)
perf_counter() - debut
[6]:
0.5386918000003789
[7]:
debut = perf_counter()
for i in range(100):
plus_grand_suffix_commun_dictionnaire(mots)
perf_counter() - debut
[7]:
0.17898409999997966
Exercice 5 : expliquer pourquoi telle méthode est plus rapide.¶
La seconde méthode est deux à trois fois plus rapide. Cela dépend du nombre de mots qu’on note N. Si on note L la longueur du plus grand mot, la première méthode a pour coût \(O(LN^2)\). La seconde est une succession de deux étapes. La première étape construit un dictionnaire en parcourant une seule fois la liste des mots. Son coût est \(O(N)\). La seconde utilise la première méthode mais sur des ensembles plus petits. Plus exactements, si \(N_x\) est le nombre de mots se terminant pas \(x\), alors le coût de la méthode est \(O(L \sum_x N_x^2)\) avec \(\sum_x N_x = N\). Il faut donc comparer \(O(LN^2)\) à \(O(N) + O(L \sum_x N_x^2)\). Le second coût est plus petit.
Exercice 6 : pousser l’idée plus loin et construire un trie¶
Un trie est une structure de données permettant de trouver rapidement tous les mots partageant le même préfixe ou suffixe.
[8]:
def build_trie(liste):
trie = {}
for mot in liste:
noeud = trie
for i in range(0, len(mot)):
lettre = mot[len(mot) - i - 1]
if lettre not in noeud:
noeud[lettre] = {}
noeud = noeud[lettre]
noeud["FIN"] = 0
return trie
liste = ["zabc", "abc"]
t = build_trie(liste)
t
[8]:
{'c': {'b': {'a': {'z': {'FIN': 0}, 'FIN': 0}}}}
[9]:
mots = extract_words(poeme)
trie = build_trie(mots)
trie
[9]:
{'a': {'FIN': 0, 'l': {'FIN': 0}, 'g': {'é': {'m': {'o': {'FIN': 0}}}}},
'r': {'i': {'o': {'n': {'FIN': 0}}},
'u': {'o': {'j': {'FIN': 0}, 't': {'u': {'a': {'FIN': 0}}}},
'e': {'d': {'n': {'a': {'c': {'FIN': 0}}}}}}},
'e': {'FIN': 0,
'g': {'u': {'o': {'r': {'FIN': 0}}}},
'j': {'FIN': 0},
'u': {'q': {'l': {'e': {'u': {'q': {'FIN': 0}}}}, 'FIN': 0}},
'f': {'l': {'o': {'g': {'FIN': 0}}}},
'r': {'b': {'m': {'o': {'FIN': 0}}},
'i': {'r': {'FIN': 0}},
'è': {'l': {'o': {'c': {'FIN': 0}}}}},
'c': {'n': {'a': {'l': {'FIN': 0}}}},
'i': {'m': {'i': {'h': {'c': {'l': {'a': {'FIN': 0}}}}}}},
'm': {'i': {'r': {'p': {'m': {'i': {'FIN': 0}}}}},
'ê': {'r': {'p': {'u': {'s': {'FIN': 0}}}}}},
'd': {'FIN': 0}},
'c': {'n': {'a': {'l': {'b': {'FIN': 0}}}}},
'i': {'FIN': 0, 'a': {'r': {'i': {'d': {'FIN': 0}}}}, 'u': {'q': {'FIN': 0}}},
'u': {'FIN': 0,
'e': {'l': {'b': {'FIN': 0}}},
'l': {'e': {'v': {'FIN': 0}}},
'o': {'FIN': 0}},
't': {'r': {'e': {'v': {'FIN': 0}}},
'e': {'s': {'r': {'o': {'c': {'FIN': 0}}}},
'FIN': 0,
'l': {'o': {'i': {'v': {'FIN': 0}}}}},
'n': {'e': {'l': {'l': {'i': {'b': {'m': {'o': {'b': {'FIN': 0}}}}}}}}}},
'o': {'FIN': 0, '—': {'FIN': 0}},
's': {'e': {'l': {'l': {'e': {'y': {'o': {'v': {'FIN': 0}}},
'u': {'r': {'c': {'FIN': 0}}},
'b': {'m': {'o': {'FIN': 0}}, 'FIN': 0}}},
'FIN': 0,
'c': {'y': {'c': {'FIN': 0}}}},
'c': {'n': {'a': {'s': {'s': {'i': {'a': {'n': {'FIN': 0}}}}}},
'e': {'l': {'i': {'s': {'FIN': 0}}}}}},
't': {'n': {'e': {'t': {'a': {'l': {'FIN': 0}},
'FIN': 0,
'i': {'n': {'é': {'p': {'FIN': 0}}}}}},
'a': {'t': {'a': {'l': {'c': {'é': {'FIN': 0}}}}}}}},
'd': {'FIN': 0,
'i': {'r': {'i': {'v': {'FIN': 0}}, 'FIN': 0}},
'n': {'o': {'m': {'FIN': 0}}}},
'h': {'c': {'u': {'o': {'m': {'FIN': 0}}}}},
'r': {'p': {'r': {'u': {'o': {'p': {'FIN': 0}}}}},
'v': {'è': {'l': {'FIN': 0}}}},
's': {'s': {'e': {'r': {'v': {'i': {'FIN': 0}}}}}, 'FIN': 0},
'g': {'n': {'a': {'r': {'t': {'é': {'FIN': 0}}}, 'FIN': 0}}}},
'o': {'v': {'FIN': 0}},
'r': {'u': {'e': {'t': {'n': {'a': {'u': {'p': {'FIN': 0}}}}},
'p': {'a': {'v': {'FIN': 0}}},
'd': {'i': {'r': {'t': {'s': {'FIN': 0}}}}}}},
'e': {'i': {'c': {'a': {'l': {'g': {'FIN': 0}}}}, 'f': {'FIN': 0}},
'm': {'FIN': 0}}},
'i': {'o': {'r': {'FIN': 0}}, 't': {'â': {'p': {'FIN': 0}}}},
'c': {'n': {'a': {'l': {'b': {'FIN': 0}}}}},
'n': {'o': {'s': {'s': {'i': {'r': {'f': {'FIN': 0}}}}}},
'a': {'d': {'FIN': 0}},
'i': {'v': {'i': {'d': {'FIN': 0}}}}},
't': {'n': {'e': {'m': {'e': {'r': {'b': {'i': {'v': {'FIN': 0}}}}}}},
'o': {'r': {'f': {'FIN': 0}}}}},
'é': {'m': {'e': {'s': {'FIN': 0}}},
's': {'r': {'e': {'v': {'a': {'r': {'t': {'FIN': 0}}}}}}}},
'd': {'n': {'a': {'r': {'g': {'FIN': 0}}}}}},
'd': {'FIN': 0},
'g': {'n': {'a': {'s': {'FIN': 0}}}},
'é': {'h': {'c': {'a': {'r': {'c': {'FIN': 0}}}}}},
'x': {'i': {'a': {'p': {'FIN': 0}}},
'u': {'a': {'m': {'i': {'n': {'a': {'FIN': 0}}}}, 'FIN': 0},
'e': {'i': {'d': {'u': {'t': {'s': {'FIN': 0}}}}}, 'y': {'FIN': 0}}}},
'l': {'FIN': 0},
'n': {'o': {'r': {'i': {'a': {'l': {'c': {'FIN': 0}}}}},
'y': {'a': {'r': {'FIN': 0}}}},
'i': {'e': {'l': {'p': {'FIN': 0}}}}}}
C’est illisible. On ne montre que les mots se terminant par tes
.
[10]:
trie["s"]["e"]["t"]
[10]:
{'n': {'e': {'t': {'a': {'l': {'FIN': 0}},
'FIN': 0,
'i': {'n': {'é': {'p': {'FIN': 0}}}}}},
'a': {'t': {'a': {'l': {'c': {'é': {'FIN': 0}}}}}}}}
Toujours pas très partique. On veut représenter l’arbre visuellement ou tout du moins une sous-partie. On utilise le langage DOT.
[11]:
def build_dot(trie, predecessor=None, root_name=None, depth=0):
rows = []
root = trie
if predecessor is None:
rows.append("digraph{")
rows.append(
'%s%d [label="%s"];' % (root_name or "ROOT", id(trie), root_name or "ROOT")
)
rows.append(build_dot(trie, root_name or "ROOT", depth=depth))
rows.append("}")
elif isinstance(trie, dict):
for k, v in trie.items():
rows.append('%s%d [label="%s"];' % (k, id(v), k))
rows.append("%s%d -> %s%d;" % (predecessor, id(trie), k, id(v)))
rows.append(build_dot(v, k, depth=depth + 1))
return "\n".join(rows)
text = build_dot(trie["s"]["e"]["t"], root_name="set")
print(text)
digraph{
set2374575491648 [label="set"];
n2374575489600 [label="n"];
set2374575491648 -> n2374575489600;
e2374575503808 [label="e"];
n2374575489600 -> e2374575503808;
t2374575329600 [label="t"];
e2374575503808 -> t2374575329600;
a2374575329984 [label="a"];
t2374575329600 -> a2374575329984;
l2374575327296 [label="l"];
a2374575329984 -> l2374575327296;
FIN2374494191824 [label="FIN"];
l2374575327296 -> FIN2374494191824;
FIN2374494191824 [label="FIN"];
t2374575329600 -> FIN2374494191824;
i2374575817216 [label="i"];
t2374575329600 -> i2374575817216;
n2374575817280 [label="n"];
i2374575817216 -> n2374575817280;
é2374575817344 [label="é"];
n2374575817280 -> é2374575817344;
p2374575817408 [label="p"];
é2374575817344 -> p2374575817408;
FIN2374494191824 [label="FIN"];
p2374575817408 -> FIN2374494191824;
a2374575326656 [label="a"];
n2374575489600 -> a2374575326656;
t2374575325312 [label="t"];
a2374575326656 -> t2374575325312;
a2374575330240 [label="a"];
t2374575325312 -> a2374575330240;
l2374575340416 [label="l"];
a2374575330240 -> l2374575340416;
c2374575339968 [label="c"];
l2374575340416 -> c2374575339968;
é2374575595200 [label="é"];
c2374575339968 -> é2374575595200;
FIN2374494191824 [label="FIN"];
é2374575595200 -> FIN2374494191824;
}
[18]:
import uuid
import numpy
import matplotlib.pyplot as plt
from IPython.display import HTML
def plot_dot(dot):
# Dessine un graph à l'aide du language DOT
# https://graphviz.org/doc/info/lang.html
# print(dot) # décommenter cette ligne pour voir le résultat
hdot = dot.replace("\n", "\\n").replace('"', '\\"')
uid = uuid.uuid4()
text = f"""
<script src="https://sdpython.github.io/js/viz-lite.js"></script>
<div id="{uid}"></div>
<script>
var svgGraph = Viz("{hdot}");
document.getElementById('{uid}').innerHTML = svgGraph;
</script>
"""
return HTML(text)
plot_dot(text)
[18]:
[13]:
def plus_grand_suffix_commun_dictionnaire_trie(mots):
whole_trie = build_trie(mots)
def walk(trie):
best = []
for k, v in trie.items():
if isinstance(v, int):
continue
r = walk(v)
if len(r) > 0 and len(r) + 1 > len(best):
best = [k] + r
if len(best) > 0:
return best
if len(trie) >= 2:
return ["FIN"]
return []
return walk(whole_trie)
res = plus_grand_suffix_commun_dictionnaire_trie(mots)
res
[13]:
['s', 'e', 'l', 'l', 'e', 'b', 'FIN']
[14]:
res = plus_grand_suffix_commun_dictionnaire(mots)
res
[14]:
(6, 'tentes', ('latentes', 'tentes'))
Le résultat est différent car le dictionnaire ne garantit pas que les éléments seront parcourus dans l’ordre alphabétique.
[15]:
debut = perf_counter()
for i in range(100):
plus_grand_suffix_commun_dictionnaire(mots)
perf_counter() - debut
[15]:
0.23091779999958817
[16]:
debut = perf_counter()
for i in range(100):
plus_grand_suffix_commun_dictionnaire_trie(mots)
perf_counter() - debut
[16]:
0.05081569999947533
Mais c’est beaucoup plus rapide.
[ ]: