Синонимы: библиотека слов и словосочетаний

Подскажите кто в теме или хотя бы где почитать...

Буду делать библиотеку слов и словосочетаний, которые при написании будут заменятся на мои.

Сия приблуда нужна для таксономии автор. Иногда пишут Иван Петров, иногда Петров Иван, иногда Ваня Петров, а ведь это один терми/тег. Знаю что нужно искать синонимы - но везде попадаются примеры как из одного слова сделать другие.

К примеру на этом сайте, у Кама, кто-то пише в тегах: база данных, database, databace... А ведь это одна и та же тема.

На сайте 6000 тегов, и кое где теги повторяются и приходится их объединять

Заметки к вопросу:
Kama 3.1 год назад

Тяжелый случай по моему, но я не в теме...

Сделай может просто объединение по указанному массиву и периодически добавляй туда данные. Автоматом как такое сделать, чтобы это нормально работало даже не знаю.

Ну базовые функции можно написать для Иван Петров, Петров Иван, типа: делить строку на слова, переводить в нижних регистр, сортировать и сравнивать если одно и тоже то брать первое.

campusboy 3.1 год назад

Можно попробовать использовать этот сервис https://dadata.ru/merging/

kolshix 3.1 год назад

mosking
У меня не настолько все плохо - из 6000+ терминов, находил около 5-6 дублей,

Пока что пришла идея посмотреть код из cyr-to-lat - там есть сравнение вхождений, может и мне подойдёт.

Пока что пишу скрипт чтоб пользователи могли добавлять к статье теги и категории , вот там то и нужно будет отлавливать синонимы и приводить к общему названию.

mi13 3.1 год назад

В данной ситуации я бы сделал для поста произвольное поле user_tags например, а далее как главный редактор уже добавлял тэги к записи, анализируя данные которые ввёл автор.