文字化け

UTF-8でエンコードされたWikipedia日本語版の「文字化け」の記事をWindows-1252として表示したときの文字化け

文字化け(もじばけ)とは、コンピュータ文字を表示する際に、正しく表示されなくなってしまう現象のこと。

例として「文字化け」が、「 文字化㑠」や「譁?ュ怜喧縺」と表示されるなど。

「文字化け」という言葉は、コンピュータ環境で原則としてマルチバイト文字を使用しない欧米等のラテンアルファベット使用言語においては該当する用語が存在しなかったことから、日本語 の “Mojibake”という言葉がそのまま通用するようになった。→#Mojibake

主な原因

ソフトウェアハードウェアの不具合 (trouble)、文字コードの違い、エンコーディングとデコーディングの不一致、文字フォントの違いなどが原因となる。パソコン通信の時代は、ハードウェア上の文字化けが頻発した。インターネットの普及後は、運用系(オペレーティングシステム)、ブラウザ等ソフトウェアに起因する文字化けがある。

コンピュータ上で文字データを扱う際は、文字セットに含まれる各文字に何らかの整数値あるいはバイトシーケンスを割り当てた文字コードを用いる。例えばASCIIではアルファベット小文字のaに10進数で97(16進数で6116)の数値を割り当てている。通信によって文字データを送受信する際、送信する側と受信する側で同じ文字コードを使うことによって、初めて正しいデータ交換が成立する。文字データをテキストファイルなどに保存し、後で開いて読み取る場合も同様である。エンコードする側とデコードする側で、お互いが同じ文字コードを使っている限りは問題は起こらないが、その前提が崩れたときに文字化けが発生する。

文字コードの大きさ

1バイト文字だけを表示しようとするシステム、2バイト文字だけを表示しようとするシステム、国際規格に対応するすべての文字を表示しようとするシステムなど、どの大きさの文字コードが表現できるかの違いが存在する[1][2]

文字コードの違い

文字コードには表現できる文字の範囲などに違いがある。単一の言語にしか対応していない文字コードもあれば、Unicodeのように複数の言語に対応している文字コードもある。例えば日本語に対応していないASCIIやISO/IEC 8859-1Windows-1252)のような欧米発祥の文字コードでは日本語の文字を扱うことはできない。JIS X 0208のような日本語の文字集合に対応している文字コードであっても、ISO-2022-JPEUC-JPShift_JIS、あるいはUTF-8/UTF-16などのように複数の文字コードやエンコーディング方式が存在し、ASCIIの範囲内にある共通の文字を除いて、同じ文字であっても異なる整数値や異なるバイトシーケンスを割り当てていることが多い。同じShift_JIS系列の実装であっても、Microsoftコードページ932MacJapaneseのように、それぞれ独自拡張が加えられており、いくつかの文字に互換性がない文字コードもある。そのため、特定の文字コードで表現できていた文字列を、他の文字コードで表現しようとすると、対応処理の誤り、対応する文字が存在しないことなどから、正しい文字を表現できず、無関係の文字が表示されてしまったり、強制的に変換されて別の文字に置き換えられてしまったりする。

文字化けしたメール例
Unicode (UTF-7) ���̃�� (�q���Y�_�C�G�b�g)
Shift_JIS 縺薙・繝。繝シ繝ォ縺ッ 繝シ縺ョ逧・ァ倥∈縺ョ繝。繝・そ繝シ繧ク縺ァ縺吶€・
Unicode (UTF-8) このメールは 皆様へのメッセージです。
Latin-1 ã?“ã?®ãƒ¡ãƒ¼ãƒ«ã?¯ Šãƒ¼ã?®çš†æ§˜ã?¸ã?®ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ã?§ã?™ã€‚
US-ASCII c c .c !c <c +c / c c c <c .g f' c 8c .c !c c ;c <c 8c 'c c
アラビア語 ك?“ك?كƒكƒكƒك? كƒك?هš†ن˜ك?ك?كƒكƒƒك‚؛كƒك‚ك?ك?™ك€‚

文字コードの実装

文字コードによってはすでに割り当てられている文字の変更を許容していたり、新たに任意の文字を割り当てられる拡張領域を設けていたりするものがある。また、文字コードのアップデート(仕様変更)によって字形が変更されることがある。同じ文字コードでもどの実装が採用されているかによって、表示が異なったり表示ができなかったりする。

エンコーディング

1バイト文字と2バイト文字を同時に表示しようとするシステムでは、前から後ろへの検索においては、1バイトと2バイトの違いが確認できる。後ろから前への検索においては、1バイトと2バイトの違いが確認できる文字コードと確認できない文字コードがある。そのため、タグ付き文字列の場合には、これらの処理の違いを確認できるような文字コード、文字フォントに対するタグをつけることがある。エスケープシーケンスも、ここではエンコーディングに分類する。

文字フォントの違い

文字フォントによって、表現できる文字の範囲に違いがある。そのため、オペレーティングシステム (OS)、ソフトウェア(ブラウザ等)が対応できる文字フォント、あるいは導入済みの文字フォントの種類によって表現できないことがある。1バイト文字には1バイト文字フォント、2バイト文字には2バイト文字フォントを別々に指定できるソフトウェアもあるが、画一的に1種類の文字フォントしか指定できないソフトウェアもある。

特定の機能指定

ファイル名、フォルダ名などで、ソフトウェアでは2バイト文字を使うと文字化けすることがある。これは、特定の機能が、1バイト文字を想定した設計になっている場合か、2バイト文字であっても特定の文字集合だけを想定した設計になっている場合である。

文字切れ

2バイト文字などを想定せずに設計したソフトウェア、通信機能では、文字の長さに制約があり、2バイト文字で表現した場合に、タグ、エスケープシーケンス、拡張符号などの挿入により、制限で指定している文字列の長さより短い状態で文字切れすることがある。また、この文字切れが2バイト文字の1バイト目で終了している場合には、それ以降の文字表現が文字化けすることがある。

主な現象

表示時のエンコーディングの指定に関するトラブル

UTF-8でエンコードされたWikipedia日本語版メインページ(2008年8月時点)ISO-8859-1として表示したときの文字化け
指定ミスの場合
文字データを間違ったエンコーディングで表示しようとしたために、正しく表示できなくなる場合がある。
ISO/IEC 646で規定されている文字だけは、Shift_JISEUC-JPISO-2022-JPISO-8859UTF-8などにおいても同じ符号位置で登録されている。従って、ISO/IEC 646の範囲外の文字だけが化けてしまう場合には表示時のエンコーディングの指定ミスである可能性が高い。
プロトコルごとのヘッダに文字コードの情報を付加して転送することや、Unicodeの場合にはBOMをつけることなどの方法で文字化けしないようにすることが勧められる。
表示側非搭載の場合
文字表示アプリケーション(WWWブラウザ等)によって、表示可能なエンコーディングが限られていることがあり、指定ミスと同様の状態に陥り文字化けが発生する。Unicodeのサロゲートペア(代用対)表示に対応していない環境もいまだもって多いため、基本多言語面に非搭載の文字を利用した場合に正しく表現できず文字化けすることがある。

搭載フォントセットの違いによるトラブル

フォントが不足しているために漢字部分が文字化けしている
機種依存文字を使用することによるトラブル
Windows環境とMacintosh環境で文字データを交換する際、共通に使用可能な文字符号化方式であるShift_JISを用いていた場合、それぞれが独自に拡張した文字(機種依存文字)を持っている。これら文字を使用していた場合は意図しない文字として表示されてしまう場合がある。
各フォントセットの文字集合実装レベルの違いによるトラブル
UTF-8のような多くの文字が表現できる文字符号化方式を利用した場合、機種毎のフォントセットの実装により、使える文字の数が限られており、搭載していない文字が化けることがある。機種AではUnicode全体を表せるフォントを搭載しているが、機種BではJIS X 0208の範囲の文字をUnicodeの符号位置で搭載していて、符号化方式としてUTF-8が使えるだけであった等の場合が考えられる。
EUC-JPでは2面の文字が入ってくるが、一部の環境では対応していないため該当領域の文字が文字化けを起こす。
ユーザー外字を使用したことによるトラブル
ユーザーがWindows-31JUnicode私用領域に対して、独自に外字を登録して使用した場合、その符号位置に同じ文字が入っていない環境では文字化けが発生する。
フォントメーカー独自の特殊なフォントを使用することによるトラブル
Dingbatなどの記号フォントや、文字コード内の一部の文字を仕様とは異なる文字を実装したフォントを利用してフォントを埋め込まないファイルにし、該当のフォントが入っていない環境で表示した場合に文字化けが発生する。
搭載フォントのUnicodeのバージョンの違いによるトラブル
Unicodeでは、Unicodeのバージョンによっては同じ符号位置に異なる文字が登録されていることがある。ドキュメントのフォーマットではどのバージョンのコードであるかを判別する手段を持っていないため、バージョンを判別することができず、また、特定のバージョンのみしか対応していない環境がほとんどであるため、同じ符号位置の文字であっても、環境を変えると全く違う文字で表示されることがある。
また、バージョン2.0以降から使われるようになったサロゲートペア(代用対)に対応していないフォント環境もいまだもって多いため、基本多言語面に非搭載の文字を利用した場合に正しく表現できず文字化けすることがある。

文字エンコーディングの変換に関するトラブル

Unicodeマッピングが規定と異なることによるトラブル
Windowsなどの一部の環境ではUnicodeJIS X 0208とのマッピングにおいてJIS X 0221の規定と異なるルールを使用している(波ダッシュやマイナスなど)ため、文字化けの原因となる。

プログラムの日本語対応の甘さによるトラブル

Shift_JISを内部コードに利用するアプリケーションでは、エスケープシーケンスの取得の仕方に一工夫必要である。ところがそれがなされていないため問題となる場合がある。海外のアプリケーションの日本語対応時に特に現出しやすい。

Shift_JISにおいて、2バイト目が0x5c(日本の円記号ASCIIではバックスラッシュ)となる文字(「」「」「」など、俗に言う「ダメ文字」)の場合、2バイト目の0x5cエスケープを意味する制御文字として動作することがあり、正しく表示できなくなる場合がある。

通信経路でのトラブル

通信や記録の段階で、文字データの一部が欠落・変質してしまった結果として、文字データが意味不明な文字列として表示されてしまうこともある。

  • ASCIIISO-2022-JPなどの7ビット符号以外の文字をBase64Quoted-printable等のエンコーディングなしに、7ビット系通信路で送受信しようとした場合、上位1ビットが削除され文字化けする結果となることがある。
  • OSやプロトコル毎に改行を表す制御コードの指定が違うため、変換に失敗するとその部分が化けることもある。

表示能力の無いアプリケーションを利用した場合のトラブル

ワープロソフトで独自のフォーマットを使用して保存したファイルを、別のワープロソフトやテキストファイルしか読み込むことができないアプリケーションで開いた場合に文字化けが発生する。ワープロソフトによってはバージョンが異なるだけで文字化けを起こすこともある。

文書ファイルでないファイルをワープロソフトなどで開こうとした場合にも理解できない文字列として表示され、これも文字化けに含めることもある。

Mojibake

英語など各言語では、「文字化け」を「mojibake」と日本語のローマ字表記で使用することが定着している。

これは、米国アルダスで日本語版などのソフトウェアの開発を行っていた久保芳之ページメーカーのソフトウェアを開発する過程で文字化けが発生することを説明するために「mojibake」という言葉を使用していたことが、その後Macintoshの関連業界で普及し、そのまま定着したことによる[3]

脚注

  1. ^ CJKV日中韓越情報処理,ケン・ランディ,オライリージャパン, 2002
  2. ^ 日本語情報処理,ケン・ランディ,ソフトバンククリエイティブ, 1995
  3. ^ "漢字トーク KanjiTalk". 2014年3月13日時点のオリジナルよりアーカイブ。2009年8月30日閲覧久保芳之からの説明メールが掲載されている。

関連項目

Read other articles:

Arnaut Danièl. Arnaut Danièl (lahir 1150 di Ribérac Dordogne Périgord Aquitaine; meninggal 1200 atau 1210) adalah seorang komponis, penyair dan penyanyi lagu sajak bahasa Occitan (trobador), dipuja Dante sebagai il miglior fabbro (pandai besi terbaik) dan disebut sebagai grand mestre d’amor (guru besar cinta) oleh Francesco Petrarca. Pada abad ke-20, Ezra Pound dalam bukunya The Spirit of Romance (1910) memuji Arnaut Danièl sebagai penyair terbaik sepanjang masa. Bersumber dari seorang...

 

 

Часть серии статей о Холокосте Идеология и политика Расовая гигиена · Расовый антисемитизм · Нацистская расовая политика · Нюрнбергские расовые законы Шоа Лагеря смерти Белжец · Дахау · Майданек · Малый Тростенец · Маутхаузен ·&...

 

 

Japanese professional wrestler Command BolshoiBolshoi in April 2014BornOsaka, Osaka[1][2]Professional wrestling careerRing name(s)Bolshoi 666[3][4]Bolshoi Kid[5]Bolshoi Santa[6]Bolshoi Yoneyama[7]Command Bolshoi[5]Command Yoneshoi[8]Douton Bolshoi[9]Hawaiian Bolshoi[10]Miko-san[10]Piko[11]Queen Bolshoi[12]T-1 Mask[13]Western Bolshoi[10]Billed height1.47 m (4...

41°37′45″S 144°58′35″E / 41.62917°S 144.97639°E / -41.62917; 144.97639 Sungai Pieman adalah sungai yang terletak di Pantai Barat Tasmania, Australia. Sungai ini dibendung dengan bendungan Reece setinggi 122 m tahun 1986. Perkembangan Energi Sungai Pieman diterima oleh pemerintah Tasmania tahun 1971 dan selesai tahun 1987 yang termasuk tiga pembangkit listrik dan lima bendungan. Di sungai ini terdapat industri, pertambangan dan usaha penebangan pohon. Daftar...

 

 

Wakil Bupati Buton UtaraPetahanaAhalisejak 26 Februari 2021Masa jabatan5 tahun dan dapat dipilih kembali untuk satu kali masa jabatanDibentuk10 Juni 2010; 13 tahun lalu (2010-06-10)Pejabat pertamaHarmin HariSitus webSitus web resmi Berikut adalah daftar Wakil Bupati Buton Utara secara definitif sejak tahun 2010. Nomor urut Wakil Bupati Potret Partai Awal Akhir Masa jabatan Periode Bupati Ref. 1   Harmin Hari Non Partai 10 Juni 2010 10 Juni 2015 5 tahun, 0 hari 1(2010)...

 

 

Vous lisez un « bon article » labellisé en 2007. Pour les articles homonymes, voir Orwell et Blair. George Orwell Photographie d'Orwell sur sa carte de membre du Syndicat national des journalistes (National Union of Journalists (en)) en 1943. Données clés Nom de naissance Eric Arthur Blair Naissance 25 juin 1903 Motihari (Raj britannique) Décès 21 janvier 1950 (à 46 ans) Londres (Royaume-Uni) Nationalité Britannique Activité principale Écrivain, chroniqueur, jo...

Conquest under Chandragupta Maurya in the late 4th century BCE Conquest of the Nanda EmpireExtend of Nanda Empire around the time of the war.Datec. 323–321 BCE[3]LocationMagadha[3]Result Mauryan victoryTerritorialchanges Establishment of the Mauryan Empire over annexed Nanda territoriesBelligerents Nanda Empire House of Maurya Supported by:Matsya dynasty of Rajputana[1] Suryavamshi dynasty of Kalinga[2]Commanders and leaders Dhana NandaBhaddasala [4] ...

 

 

CBC Music station in Thunder Bay, Ontario CBQ-FMThunder Bay, OntarioBroadcast areaThunder BayFrequency101.7 MHz (FM)BrandingCBC MusicProgrammingFormatPublic broadcastingOwnershipOwnerCanadian Broadcasting CorporationSister stationsCBQT-FMHistoryFirst air dateAugust 13, 1984Call sign meaningCanadian Broadcasting Corporation QueticoTechnical informationClassBERP23.5 kWsHAAT205 meters (673 ft)Transmitter coordinates48°33′3.6″N 89°13′26.4″W / 48.551000°N 89.224000...

 

 

Cricket tournament Euro T20 SlamOfficial logo of Euro T20 SlamCountriesIreland, Netherlands and ScotlandFormatTwenty20Tournament formatRound-robin and playoffsNumber of teams6Websitewww.et20s.com The Euro T20 Slam is a planned professional Twenty20 cricket league. The first edition of the tournament was initially scheduled to start in August 2019, with matches to be held in Ireland, Scotland and the Netherlands.[1] Its launch has been postponed on several occasions due to the impact ...

Village in Haryana, IndiaJamalpurVillageJamalpurLocation in Haryana, IndiaShow map of HaryanaJamalpurJamalpur (India)Show map of IndiaCoordinates: 28°57′43″N 75°57′25″E / 28.96194°N 75.95694°E / 28.96194; 75.95694Country IndiaFounded byNamed a person JamaalNamed forJamalpurGovernment • TypeBharatiya Janata Party • BodyPanchayat • SarpanchRAJKUMAR LICArea • Total541 km2 (209 sq mi) •...

 

 

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方)出典検索?: コルク – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2017年4月) コルクを打ち抜いて作った瓶の栓 コルク(木栓、�...

 

 

Методологія (грец. μεθοδολογία — вчення про метод) — сукупність прийомів дослідження, що застосовуються в науці; вчення про методи пізнання та перетворення дійсності[1]. Основу методології складає мислення та світогляд, як операційне середовище самодисципліни та...

Team position in Australian rules football The Carlton interchange bench in a match against St Kilda, 2011. Interchange (or, colloquially, the bench or interchange bench) is a team position in Australian rules football, consisting of players who are part of the selected team but are not currently on the field of play. Interchange numbers AFL As of the 2023 season, at AFL level, each team is permitted four interchange players, and a maximum of seventy-five total player interchanges during a ga...

 

 

Gaun PengantinSutradaraNarto Erawan DalimartaProduserHatoek SoebrotoDitulis olehWiryo WibowoPemeranWidyawatiChristine HakimKomalasariKusno SudjarwadiSophan SophiaanAedy MowardFifi YoungRae SitaRima MelatiUlly ArthaPenata musikIdris SardiSinematograferAkinPenyuntingCh DarmawanTanggal rilis1974Durasi... menitNegaraIndonesia Gaun Pengantin adalah film Indonesia tahun 1974 dengan disutradarai oleh Narto Erawan Dalimarta serta dibintangi oleh Sophan Sophiaan dan Widyawati. Sinopsis Sebuah ki...

 

 

Прослушать введение в статью noicon Аудиозапись создана на основе версии статьи от 1 июня 2014 года История Эстонии — события на территории современной Эстонии с момента начала расселения там людей и до сегодняшнего дня. Первые человеческие поселения возникли на этой �...

Alain Berset Presiden Konfederasi Swiss Ke-175PetahanaMulai menjabat 1 Januari 2023PendahuluIgnazio CassisPenggantiPetahanaKetua Departemen Dalam Negeri FederalPetahanaMulai menjabat 1 Januari 2019Presiden Konfederasi Swiss Ke-170Masa jabatan1 Januari 2018 – 31 Desember 2018PendahuluDoris LeuthardPenggantiUeli MaurerKetua Departemen Dalam Negeri FederalMasa jabatan1 Januari 2012 – 1 Januari 2013PendahuluDidier BurkhalterPenggantiPetahanaAnggota Dewan Federal Swis...

 

 

Pour les articles homonymes, voir Basque. BasqueEuskara Pays Espagne, France Région Pays basque Nombre de locuteurs 751 500 première langue et1 185 500 en incluant les bilingues réceptifs (434 000) en 2016 chez les 16 ans et plus[1],[2] 6 000 unilingues bascophones[3] Nom des locuteurs bascophones (Euskaldunak[4]) Typologie SOV, agglutinante, ergative, syllabique Classification par famille - hors classification (isolat) - basque Statut officiel Langue officielle &...

 

 

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: 41st Tactical Group – news · newspapers · books · scholar · JSTOR (March 2017) (Learn how and when to remove this message) 41st Tactical Group Rag Wings and Radials' B-25J is restored as Panchito. It served with the 396th Bomb Squadron, 41st Bomb Group, 7th Air...

马菲亚岛地理位置 马菲亚岛(Mafia Island)是东非坦桑尼亚的一个岛屿,人口四万余,主要以渔业为生。古时曾是亚非贸易的要地。《郑和航海图》第十七图中的门肥赤,经英国学者J.V.G.Mills考定为东非马菲亚岛[1] 參考文獻 ^ Ma Huan, Ying-yai Sheng-lan tr J.V.G.Mills, White Lotus Press p207 ISBN 974-8496-78-3 Chami, F. A. 1999. “The Early Iron Age on Mafia island and its relationship with the mainland.” Azania V...

 

 

丹麦位于欧洲北部,是一个传统的北欧国家。国土东临波罗的海,西接北海,北部隔斯卡格拉克海峡与挪威隔海相望,东北则隔厄勒海峡和卡特加特海峡与瑞典隔海相望,南部与德国的石勒苏益格-荷尔斯泰因州接壤。领土主要由日德兰半岛、菲英岛和西兰岛以及近海的443个有名岛屿组成(全国共有1419个岛屿面积大于100平方米,其中72个岛屿无人居住)。丹麦的本土面积为430...