Удаление строк с одинаковыми словами.

Submitted by smartking on Fri, 09/09/2016 - 19:30

В одном из проектов, встала задача отфильтровать дубликаты тегов. Добликатами в данной задаче считались, как точные соответсвия строк, так и те строки, где слова одинаковые, но могут идти в разном порядке.

Примеры дубликатов:

  1. word1 word2 word3
  2. word2 word1 word3(дубль строки 1)
  3. word3 word2
  4. и т.д.

Набросал небольшой скрипт на python. Разбив строку на слова, отсортировав полученный массив и посчитав md5-сумму строки. Дубликаты мд5-суммы считал, как дубликаты строк.

Docker-compose для Python разработки.

Submitted by smartking on Tue, 09/06/2016 - 15:01

После того, как плотно стал работать с docker-ом, а в частности с docker-compose, сложно уже представить работу с др. окружениями. Docker сам по себе не плохой и не хороший.

Docker - это инструмент. У него, как и его альтернатив, есть плюсы, минусы, косяки, но мне с ним стало удобнее по ряду личных причин работать.

Для работы над проектами, где необходимо использовать python собрал себе небольшой docker-compose.

Если кому-то облегчит жизнь еще, буду рад.

Python: дерево индустрий из HH.RU

Submitted by smartking on Tue, 09/06/2016 - 14:44

Набросал небольшой скрипт для построения дерева по всем индустриям, который на данный момент доступны для выбора на hh.ru при заполнении резюме.

Деревья разобраны для русского, английского, украинского языков.

Код выложен на github: https://github.com/SKgit/hhru_industries

Результат выглядит вот так: