Macbook проблемы с кириллицей. Какая кодировка открывает файлы CSV правильно с помощью Excel на Mac и Windows? UPD: Замечательное дополнение от нашего читателя

Я нашел кодировку WINDOWS-1252 наименее расстраивающей при работе с Excel. Так как его собственный собственный набор персонажей, основанный на Microsoft, можно предположить, что он будет работать как на Mac, так и на Windows-версии MS-Excel. Обе версии, по крайней мере, включают в себя соответствующий селектор "File origin" или "File encoding", который правильно считывает данные.

В зависимости от вашей системы и используемых вами инструментов эта кодировка также может быть названа CP1252 , ANSI , Windows (ANSI) , MS-ANSI или просто Windows среди других вариантов.

Эта кодировка представляет собой надмножество ISO-8859-1 (aka LATIN1 и другие), поэтому вы можете вернуться к ISO-8859-1 , если по какой-то причине вы не можете использовать WINDOWS-1252 . Имейте в виду, что ISO-8859-1 отсутствует некоторые символы из WINDOWS-1252 , как показано ниже:

| Char | ANSI | Unicode | ANSI Hex | Unicode Hex | HTML entity | Unicode Name | Unicode Range | | € | 128 | 8364 | 0x80 | U+20AC | € | euro sign | Currency Symbols | | ‚ | 130 | 8218 | 0x82 | U+201A | ‚ | single low-9 quotation mark | General Punctuation | | ƒ | 131 | 402 | 0x83 | U+0192 | ƒ | Latin small letter f with hook | Latin Extended-B | | „ | 132 | 8222 | 0x84 | U+201E | „ | double low-9 quotation mark | General Punctuation | | … | 133 | 8230 | 0x85 | U+2026 | … | horizontal ellipsis | General Punctuation | | † | 134 | 8224 | 0x86 | U+2020 | † | dagger | General Punctuation | | ‡ | 135 | 8225 | 0x87 | U+2021 | ‡ | double dagger | General Punctuation | | ˆ | 136 | 710 | 0x88 | U+02C6 | ˆ | modifier letter circumflex accent | Spacing Modifier Letters | | ‰ | 137 | 8240 | 0x89 | U+2030 | ‰ | per mille sign | General Punctuation | | Š | 138 | 352 | 0x8A | U+0160 | Š | Latin capital letter S with caron | Latin Extended-A | | ‹ | 139 | 8249 | 0x8B | U+2039 | ‹ | single left-pointing angle quotation mark | General Punctuation | | Œ | 140 | 338 | 0x8C | U+0152 | Œ | Latin capital ligature OE | Latin Extended-A | | Ž | 142 | 381 | 0x8E | U+017D | | Latin capital letter Z with caron | Latin Extended-A | | ‘ | 145 | 8216 | 0x91 | U+2018 | ‘ | left single quotation mark | General Punctuation | | ’ | 146 | 8217 | 0x92 | U+2019 | ’ | right single quotation mark | General Punctuation | | " | 147 | 8220 | 0x93 | U+201C | “ | left double quotation mark | General Punctuation | | " | 148 | 8221 | 0x94 | U+201D | ” | right double quotation mark | General Punctuation | | | 149 | 8226 | 0x95 | U+2022 | . | bullet | General Punctuation | | – | 150 | 8211 | 0x96 | U+2013 | - | en dash | General Punctuation | | - | 151 | 8212 | 0x97 | U+2014 | — | em dash | General Punctuation | | ˜ | 152 | 732 | 0x98 | U+02DC | ˜ | small tilde | Spacing Modifier Letters | | ™ | 153 | 8482 | 0x99 | U+2122 | ™ | trade mark sign | Letterlike Symbols | | š | 154 | 353 | 0x9A | U+0161 | š | Latin small letter s with caron | Latin Extended-A | | › | 155 | 8250 | 0x9B | U+203A | › | single right-pointing angle quotation mark | General Punctuation | | œ | 156 | 339 | 0x9C | U+0153 | œ | Latin small ligature oe | Latin Extended-A | | ž | 158 | 382 | 0x9E | U+017E | | Latin small letter z with caron | Latin Extended-A | | Ÿ | 159 | 376 | 0x9F | U+0178 | Ÿ | Latin capital letter Y with diaeresis | Latin Extended-A |

Обратите внимание, что знак евро отсутствует . Эту таблицу можно найти в Алан Вуд .

Конверсия

Конверсия выполняется по-разному в каждом инструменте и языке. Однако предположим, что у вас есть файл query_result.csv , который, как вы знаете, закодирован UTF-8 . Преобразуйте его в WINDOWS-1252 с помощью iconv:

Iconv -f UTF-8 -t WINDOWS-1252 query_result.csv > query_result-win.csv

Скорее всего многим пользователям Mac приходилось работать с файлами txt. Чаще всего в этом формате представлены различные мануалы, readme, инструкции и т.д. И если эти документы были созданы в Windows среде, то при открытии их на Mac, может возникнуть небольшая, но в тоже время крайне неприятная проблема с кодировкой.

Давайте вместе разберёмся как научить Mac на 100% распознавать txt файл созданный на «Винде».

Дело в том, что операционные системы Apple и Microsoft руководствуется разными стандартами при кодировании кириллицы, отсюда и проблемы с её отображением. Существуют специальные утилиты призванные подружить кодировку Windows с Mac OS X, но предлагаю обойтись штатными средствами.

Решение проблемы

Исходную кодировку на Mac нужно сменить на Windows Cyrillic . Для этого находим в домашней папке скрытый файл .CFUsertextEncoding .

Для отображения скрытых файлов необходимо зайти в Терминал (программы > утилиты) и ввести команду (можете скопировать).

Defaults write com.apple.finder AppleShowAllFiles -bool true

Killall Finder

и опять enter .
Для того чтобы опять сделать файлы скрытыми, нужно заменить в первой команде true на false , а затем опять перезапустить Finder.

Итак, кликаем по этому файлу правой кнопкой и в подразделе «открыть в программе» выбираем TextEdit . В документе присутствует только одна строка, в которой нужно значение 0x7 заменить на 0x502 . После чего сохраняем файл, перезагружаем Mac и радуемся.

Если помогла статья, не ленись. Нажми кнопку — поделись!)

Чувствую, много ещё будет постов с лейтмотивом "наши на Луне высадились", потому что, как те мыши, продолжаю осваивать кактус. А кактус хоть и похож на яблоко, и пахнет как яблоко, и по сути яблоко, подкидывает столько колючек, что гуглить не перегуглить. Фигурнов там ничего про Mac не издавал? У меня острое дежавю первого знакомства с виндой.

Нынче с русскими именами файлов столкнулся, в полный рост, проблема стародавняя, но я же раньше так плотно на яблоине Mac не сидел.

Суть в чём. Присылает кто-нибудь архив с PC, внутри русские имена файлов или папок, ты его скачиваешь в Safari и получаешь вот такое:

Первая часть проблемы в том, что штатный архиватор русские имена файлов понимает то ли не всегда, то ли никогда. Надо его менять. В Windows всегда ставил WinRAR, это было одним из первых действий после установки, а тут решил остановиться на бесплатном The Unarchiver , он интегрируется в систему и распаковывает всё корректно.

Вторая часть проблемы в том, что Safari, после скачивания, всегда сам архив распаковывал штатным архиватором, тем самым, который ничего не понимает. Лечится входом в настройки Safari и удалением галочки "открывать безопасные файлы после загрузки" (в самом низу):

Установка The Unarchiver проблему не решает, потому что "штатной открывалкой" для ZIP он становится только в Finder, а для Safari тот Finder совсем не авторитет.

Вопрос: есть ли архиватор, побеждающий этот глюк?

А так, всё интуитивно понятно же, для домохозяек-хозяек, но только тех, что с гуглом в голове. Чувствую, нужно как-то себя заставить, сообразно заветам, перестать его использовать таким образом, но как это сделать ума не приложу.

P.S. Ну и, чтобы два раза не вставать, напомню что архивы на iPhone/iPad я распаковываю

Встроенный почтовый клиент Mac OS X с логичным и незамысловатым названием Mail есть за что похвалить — например, за развитую систему фильтрации писем на основе правил, за поддержку дополнительных плагинов, расширяющих возможности почты (вроде шифрования), за тесную интеграцию с клиентом iPhone и т.д. Но поводов для недовольства у пользователей Mail тоже хватает, особенно если они проживают не в англоговорящих странах. Главный повод — кодировка . Пожалуй, нет ни одного русского владельца Мака, который не сталкивался в Mail.app с тем, что принято называть словом «кракозябры» — это символьные шедевры вроде ÈØàÞÚÐï íÛÕÚâàØäØÚÐæØï, аЈаИб�аОаКаАб� б�аЛаЕ или даже Широкая электрРв названиях тем, содержимом писем или именах вложений.

Сегодня мы расскажем вам о сущности этой проблемы и некоторых путях её решения.

Mail.app от других почтовых клиентов традиционно отличает повышенная чувствительность к тому, из какой программы было отправлено письмо . Дело в том, что разные почтовые клиенты имеют присущие только им особенности разметки и оформления электронных писем, невидимые глазу пользователя, зато воспринимаемые серверами и программами.

Проблема усугубляется ещё и тем, что в настройках Mail невозможно задать кодировку входящих писем по умолчанию — т.е. способ перевода привычных нам букв, цифр и знаков препинания в привычные компьютеру биты и байты. Mail пытается автоматически распознать кодировку входящей почты, и как-то непосредственно повлиять на этот процесс пользователь тоже не может.

Зато возможно повлиять на этот процесс косвенно. Набор кодировок, которые Mail использует для распознания, зависит от набора используемых всей системой кодировок . А Этот набор, в свою очередь, зависит от количества используемых системой языков . Отсюда вытекает первый совет — удалите из системы все неиспользуемые вами языки.

Зайдите в Системные настройки , выберите пульт «Язык и текст», и увидите следующий список:

Нажмите на кнопку «Редактировать список» и снимите соответствующие галочки. После этого перезагрузите компьютер или завершите сеанс.

Представленный скриншот сделан в системе Mac OS X 10.6.2. В Mac OS X 10.5 данный пульт настроек устроен несколько иначе, однако редактирование списка языков там организовано почти так же.

Следующий шаг — это настройки самого клиента Mail. Как мы уже сказали, в программе не предусмотрено никаких постоянных настроек кодировки. Но это не значит, что их нет вообще. На самом деле, через Терминал всё-таки можно заставить Mail работать с определённой кодировкой .

Но перед тем, как задать кодировку по умолчанию, надо узнать, какая это должна быть кодировка. Это придётся делать экспериментальным путём:

  1. найдите несколько писем с кракозябрами
  2. выберите первое и зайдите в меню Сообщение — Кодировка текста
  3. последовательно перепробуйте все кодировки, начинающиеся со слова «Кириллическая» (KOI8-R, ISO 8859-5, Windows), а также UTF-8
  4. если письмо стало читабельным, посмотрите на остальные письма: если и их можно прочесть, то считайте, что решение найдено
  5. в противном случае продолжайте перебор кодировок

Если вы нашли подходящую кодировку, то останется её зафиксировать. Скорее всего, это будет либо кодировка KOI8-R, либо UTF-8 . Полностью завершите Mail (по комбинации Cmd+Q) . Запустите Терминал (через Spotlight или из папки Программы/Служебные программы ), и введите команду:

defaults write com.apple.mail NSPreferredMailCharset koi8-r

defaults write com.apple.mail NSPreferredMailCharset utf-8

После чего нажмите Enter и закройте Терминал.

Если не хотите возиться с Терминалом, то можете установить и сменить кодировку через него:


Если предложенный выше вариант не сработает, попробуйте прописать через Терминал ещё один параметр:

defaults write com.apple.mail LeopardPreferredMailCharset utf-8

(или defaults write com.apple.mail LeopardPreferredMailCharset koi8-r)

Возможно, это поможет вам избавиться от проблем с кодировкой в темах и тексте писем. С русскими именами вложений ситуация ещё более загадочна. Многолетние наблюдения позволяют говорить о том, что в их порче виноват вовсе не Mail, а отправляющая почту программа. Например, известен глюк с письмами из Thunderbird — практически всегда имена вложений на русском приходят на Мак испорченными. Для решения этой проблемы в самом Thunderbird необходимо изменить значение параметра mail.strictly_mime.parm_folding равным единице.

Таким образом, причины и решения проблем в Mail лежат гораздо глубже, чем кажется сначала. Если же ничего не поможет, и адресованные вам письма по-прежнему будут приходить испорченными, советуем обратить внимание на другие почтовые клиенты.

Если вы хотите увидеть на нашем сайте ответы на интересующие вас вопросы обо всём, что связано с техникой Apple, операционной системой Mac OS X (и её запуском на PC), пишите нам через или .

К нам поступил следующий вопрос:

недавно купил себе iMac, я новичок в мире Маков, так что извините за глупый вопрос. всё замечательно, но жутко раздражает, что MacOS не умеет нормально открывать текстовые файлы на русском. всегда какие-то закорюки показывает. как это можно исправить? или в какой-то другой программе открывать надо?

Этот вопрос, пожалуй, нужно включать в инструкцию к каждому новому Маку, продаваемому в России. Действительно, то ли по недосмотру, то ли от лени разработчиков Mac OS X встроенный в систему текстовый редактор TextEdit не умеет работать с русскими кодировками текста. Из-за этого все текстовый файлы txt, созданные или отредактированные в Windows, на Маках выглядят совершенно нечитаемыми.

К счастью, проблема поправима — достаточно лишь заглянуть в настройки TextEdit. Зайдите на вторую их вкладку, которая называется «Открытие и сохранение» :

Нас интересует выпадающий список «Открытие файлов». Как видите, по умолчанию здесь выбран пункт «Автоматически» , и зря. Более того, если посмотреть на содержимое списка, там вы не увидите Windows-кодировок вообще. Но это не значит, что их туда нельзя добавить. В выпадающем списке выберите самый нижний пункт — «Настроить список кодировок» . Откроется ещё одно окошко:

Пометьте в нём галочками пункты «Кириллическая (Windows)» и «Кириллическая (KOI8-R)» . Можно заодно выбрать и все остальные русские и кириллические кодировки. После этого есть шанс, что TextEdit заработает нормально. Если нет, то в уже упомянутом списке «Открытие файлов» вместо «Автоматически» выберите «Кириллическая (Windows)» . Тогда проблемы с русскими текстами точно исчезнут.