Работа с текстовыми данными в Pandas

Добавил Sergey Moiseenko on Среда, 28 февраля. 2024

Пересказ статьи Tirendaz AI. Working with Text Data in Pandas

Реальные наборы данных состоят не только из чисел, они также включают текст. При анализе данных важно уметь работать с этим текстом.
В этой статье я собираюсь поговорить на следующие темы:

Как использовать методы работы со строками в Pandas?

Как использовать регулярные выражения в Pandas?

Примеры работы с набором данных IMDb

Давайте начнем!

Как использовать методы работы со строками в Pandas?

Python является популярным языком манипуляции данными, поскольку в нем легко работать с текстом. Он имеет набор встроенных методов, которые вы можете применять к строкам. В можете также быстро использовать эти методы в Pandas.

Например, давайте переведем слово hello в верхний регистр.

В Pandas вам потребуется набрать код str, чтобы использовать методы для строковых или регулярных выражений. Чтобы продемонстрировать это, давайте импортируем Pandas и Numpy.

Теперь давайте создадим данные.

Давайте сделаем заглавной первые буквы в значениях этих данных. Но сначала преобразуем эти данные в ряд.

Вы можете использовать атрибут str для применения методов работы со строками для рядов и индексных объектов. Делаем заглавной первую букву в данных.

Вы можете также сделать все буквы строчными.

Вы можете найти длину текста с помощью метода len.

Можно найти имена, которые начинаются с буквы "a", с помощью метода startswith.

Вы можете применить методы работы со строками к индексным объектам. Для демонстрации давайте создадим фрейм данных.

Взглянем на столбцы набора данных.

df.columns является индексным объектом. Вы можете использовать атрибут str для этого объекта. Например, переведем имена столбцов в нижний регистр и заменим пробелы символом _.

Вы можете использовать для рядов такие методы, как split. Вот данные для демонстрации:

Давайте выполним разбиение на буквы по нижнему подчеркиванию. Я будут использовать символ [] для выбора первого индекса.

Вы можете преобразовать отдельные значения во фрейме данных, используя параметр expand=True. Также вы можете ограничить процесс split с помощью параметра n. Вот так:

Как использовать регулярные выражения в Pandas?

Вы можете также использовать регулярные выражения в Pandas. Для демонстрации давайте создадим пример финансовых данных.

Давайте удалим символ доллара.

Заметьте, что символ $ является метасимволом, и он имеет особый смысл в регулярных выражениях. Для удаления этого символа, который является метасимволом, вам потребуется использовать экранирующий символ обратного слэша. Давайте заменим "-$" на "-".

Практика с набором данных IMDb

Я собираюсь привести примеры методов работы со строками, используя реальный набор данных. Набор данных представляет собой фильмы с наивысшим рейтингом на IMDb. Сначала давайте импортируем набор данных.

Получить этот набор данных можно отсюда. Вот первые строки этого набора данных.

Давайте преобразуем строки столбца title в верхний регистр, используя метод upper.

Столбцы в наборе данных были индексными объектами. Сделаем первую букву в этих именах заглавной с помощью метода capitalize.

Взглянем на набор данных с помощью метода head.

Вы можете использовать метод contains для проверки наличия текста в наборе данных. Например, поищем имя Brad Pitt в списке актеров.

Вы можете использовать метод replace для удаления символа. Например, удалим квадратные скобки из списка актеров.

Вот так можно удалить скобки:

Ссылки по теме
1. От SQL к Pandas: руководство по переходу
2. Команды Pandas, которые я часто использую для анализа данных

Обратные ссылки

URI этой записи для создания обратных ссылок (trackback)

Нет обратных ссылок

Добавить комментарий

Имя

Домашняя страница

Комментарий

В ответ на

Enclosing asterisks marks text as bold (*word*), underscore are made via _word_.

Standard emoticons like :-) and ;-) are converted to images.

To prevent automated Bots from commentspamming, please enter the string you see in the image below in the appropriate input box. Your comment will only be submitted if the strings match. Please ensure that your browser supports and accepts cookies, or your comment cannot be verified correctly.
CAPTCHA

Enter the string from the spam-prevention image above:

Form options

Запомнить информацию?

Добавленные комментарии должны будут пройти модерацию прежде, чем будут показаны.

SQL-Ex blog