Тексты для корпуса башкирского языка
20934729 токенов в текстах со случайно переставленными предложениями
В этом репозитории хранятся лицензионно чистые тексты. Они либо не охраняются авторским правом (тексты законов), либо срок ограничений, связанных с авторским правом, истек. Такие тексты хранятся в директории public_domain. Метаданные к этим текстам лежат в таблице.
Другая категория текстов хранится в директории shuffled_texts. Это тексты, которые получились случайной перестановкой предложений в исходных произведениях, которые подпадали под ограничения, связанные с авторским правом. Так как целостность таких текстов нарушена, они уже не могут считаться объектами авторского права, но по-прежнему представляют интерес для компьютерно-лингвистической обработки.
Тексты добавляются с помощью инструмента, который называется pull-request.
Несколько видеороликов, которые объясняют, что это и как это сделать:
- 1:22 Pull Request обновляем репозиторий наработками другого разработчика
- 17:21 Как Отправить Pull Request на GitHub
- 16:31 Пул реквест на github
Здесь пошагово объясняется, как сделать pull-request, начиная с регистрации на github