xxx
Husk, at der kan være forskel på store og små bogstaver i kodeordet

Har du glemt dit kodeord?

NAVIGATION

PROFIL

  • login
  • Har du ikke en profil så kan du oprette en her

SoMe


HJERTE MODTAGERE
Flest hjerter de sidste 14 dage
1
HJERTE MODTAGERE
Flest hjerter 'All Time High'
335
150
SØG I FORUM
FORUM KATEGORIER
Velkommen gæst!

Macnyts forum er populært blandt mange brugere og det med god grund.

Macnyts forum er fyldt med hjælpsomme brugere, der er interesseret i,
at give en hjælpene hånd og tage en god diskussion/dialog med dig.

Som gæst kan du dog kun læse indholdet i Macnyts forum.

For, at deltage aktivt i diskussionerne skal du have oprettet en profil og være logget ind.

Har du allerede en profil så login her.
Kategori: Frit område til almen diskussion - omtanke er godt (Ordet er frit)
macnyt  /  forum  /  emne
Finde tekstdokumenters codepage/charset
Kategori: Frit område til almen diskussion - omtanke er godt (Ordet er frit)


471

7
27. november 2019 @ 13:22
Seniormedlem

Jeg har +3.000 tekstdokumenter (*.html), som gennem årene er blevet gemt med forskellige tegnsæt (ISO-8859-1, Windows 1252 m.fl.). Jeg skal/vil have dem allesammen ændret til UTF-8.

Hvordan laver jeg en søgning efter alle de dokumenter der er (eller ikke er) UTF-8?

Kan jeg få listet alle HTML-filer hvor jeg kan se denne attribut (altså tegnsæt)?

P.S. Det ville jo være dejligt om der kan laves en batch-konvertering, men det har jeg prøvet på forskellig vis, men det er ikke lykkedes at finde en metode som ikke samtidig ændrer kodningen af selve dokumentets indhold.

  3
2
  476

186

13
27. november 2019 @ 13:53
Novice

471

7
27. november 2019 @ 15:36
Seniormedlem

Mange tak. I første omgang har jeg nu fået identificeret de filer der skal omkodes. Derefter vil jeg forsøge mig med en batchkonvertering, men netop iconv (link 1) har drillet mig tidligere, så jeg skal gå med livrem og seler.

Kåret som bedste indlæg af trådens forfatter

291

45
28. november 2019 @ 12:30
Juniormedlem

Da der er tale om HTML-dokumenter, vil jeg gå ud fra at der er 2 separate problemer: Et er selve arkivets tegnsæt, det format dokumentet er arkiveret i, og det andet er tegnsætangivelsen i HTML-koden.

Begge dele kan let løses med BBEdit; En helt fantastisk teksteditor, som kan prøves i fuld version ganske gratis i 30 dage, hvorefter den skifter til en gratisudgave uden de avancerede funktioner. Før hed den gratis udgave BBEdit Lite, og senere TextWrangler, men nutildags er der kun én BBEdit version for alle.

Sådan ændrer du arkivets tegnsæt:

  1. Lav en “test-mappe” og kopier en håndfuld tekstarkiver (HTML) derind for at lege med konverteringen
  2. Hent BBEdit, træk symbolet til Programmer, start det og klik Continue for at begynde prøveperioden
  3. Åbn menuen TextApply Text Transform
  4. Vælg Change Text Encoding, klik Configure… og marker Unicode (UTF-8) efterfulgt af OK
  5. Klik på knappen Choose… og derefter Other… i bunden, find og vælg din “test-mappe”
  6. Under Options… kan du bl.a. vælge, hvad der skal ske efter konverteringen (fx at BBEdit skal arkivere hvert enkelt tekstarkiv uden at spørge først)
  7. Vinduet skulle nu gerne se cirka således ud:
  8. Når du klikker på Apply vil alle tekstarkiver i din “test-mappe” blive konverteret til tegnsættet UTF-8

Sådan ændrer du tegnsætangivelsen i HTML-koden:

  1. Åbn et af dine HTML-dokumenter i BBEdit og kopier den tegnsætangivelse, du ønsker at erstatte
  2. Vælg menuen SearchMulti-File Search…
  3. Indsæt HTML-koden i Find-feltet (fx “<meta charset="ISO-8859-1" />” for HTML5)
  4. Skift tilbage til vinduet med dit HTML-dokument, vælg menuen MarkupCharacter SetUnicode (UTF-8)
  5. Læg mærke til det, der er ændret i HTML-koden, og kopier det (i dette eksempel “<meta charset="utf-8" />”)
  6. Gå tilbage til søgevinduet og indsæt erstatningsteksten i Replace-feltet
  7. Klik på knappen Other… og vælg din “test-mappe”
  8. Når du klikker på Replace All vil alle tekstarkiver i din “test-mappe” blive gennemgået og evt. funden tekst bliver erstattet, som du har angivet. Til sidst får du en oversigt, hvor du kan se de ændrede tekstarkiver.